> Picture by Carlos Muza on Unsplash.
A / B测试是一种工具,可用于检查某些因果关系是否成立。例如,为电子商务平台工作的数据科学家可能希望通过改进网站的设计来增加收入。如果我们假设收入是单击某个链接的用户比例的函数,那么数据科学家将想知道网页的重新设计是否会增加该比例。实际上,她可以创建网站" Design A"和" Design B"的两个版本,将用户随机引导到两个版本之一并记录结果。然后,她将有一个这样的表:
> Fig0: An example of the results in a A/B experiment.
然后,主要问题是:鉴于这些结果,我们能否推断出设计变更与点击率之间的因果关系?
现在,A / B测试是众所周知的,此处提供了很好的实用介绍。 但是,似乎该理论背后的数学基础大部分都隐藏在大型书籍中。 因此,本文的目的是对这些数学基础进行非正式介绍,其中包括最大似然估计,假设检验和渐近理论。 实际上,对此类A / B实验的限制将使仅使用中心极限定理就可以使应用走得更远! 多远? 我们希望阅读本文之后,读者能够对直觉比例相等的检验(或等效地皮尔逊卡方检验)来自何处有一个直观的认识。 更笼统地说,我们希望对统计测试的构建方式有所了解,并对相关概念有所了解。
在第一部分中,我们介绍了一些数学事实和符号,它们将在本文中使用。第一个假设:为了模拟现象,我们将使用整数(离散)随机变量,因为我们感兴趣的变量(例如页面浏览量)本质上是整数。(这并不意味着连续分布不会在以后出现,实际上,我们还假定读者熟悉正态分布和卡方分布。)我们还假定读者熟悉其中的内容。(经典的Lindeberg-Lévy)中心极限定理,例如此处所述。
关于符号。字母P将指定某种概率测度,而E将表示相对于P的期望。当P是取决于某个参数β的随机变量的定律时,有时我们会写成明确的形式
定律和对该定律的期望。接下来,给定一个随机变量X,我们将编写
分别表示X的均值,方差和标准差。
第一个整数值随机变量研究是Bernoulli试验。 这个随机变量代表只有两种可能性的实验结果,例如掷硬币。 我们将可能的结果编码为" 1"(成功)和" 0"(失败),并假设实验具有产生" 1"的概率p∈(0,1)。 然后,如果我们将此随机变量命名为X,则可以将概率质量函数写为
我们看到这恰好产生了我们想要的结果,因为通过在方程式中替换k = 1,我们可以确切地得出成功的概率为p。 伯努利试验不仅对您进行赌博很有用,它还可以用于代表具有两种绝对结果的任何实验:一种治疗是否成功,用户是否单击了网页等等。 。
根据离散随机变量的期望值和方差的定义,可以轻松计算X的均值和方差,如下所示:
和
伯努利试验的明显概括是重复它。您可以将硬币翻转n次,而不是仅翻转硬币一次。伯努利试验的这种重复可以用一系列随机变量表示,我们将其表示为
并指出第i次审判是成功还是失败。但是,由于处理一系列随机变量并不十分方便,因此我们将考虑将随机变量Y定义为这n次试验的成功总数
为了进一步简化,我们可以假设伯努利试验是独立的,并且具有相同的成功概率,然后我们可以获得Y的分布,该分布称为二项式分布,表示为B(n,p)。因此,此分布由两个参数n(试验次数)和p(单个伯努利试验的概率)定义,并且,如果我们将相关联的随机变量Y命名为:
最后一个公式来自这样一个事实,即Y = k意味着在n个伯努利试验中确实有k个成功(并且二项式系数表明了发生这种情况的方式数量)。请注意,由于n通常是固定的,因此我们不会在公式中明确显示对n的依赖。
从二项式的和表示,伯努利试验的均值和方差的独立性以及公式,我们可以立即获得Y的均值和方差
在转向图0中的示例之前,我们将首先考虑单个二项式计数的简单情况。 简单二项式计数是一项实验,我们观察n项独立的伯努利试验,其中成功概率p保持恒定,或者等效地,我们观察到单个二项式随机变量的实现。 实际上,我们可以想像一下要计算要单击某些网页上的链接的用户数。 然后,n代表用户总数,Y(我们假设具有二项式B(n,p)分布)代表将要单击链接的用户数。 当然,实际上,我们不会观察到随机变量Y,而是观察到数字k(实际点击链接的用户数),我们称其为随机变量Y的实现。 下表中进行实验:
> Fig1: A realization of a simple binomial count where the total number of counts is n = 33 + 362 = 395 and the number of successes is k = 33.
统计的主要目标之一是基于对相关随机变量实现的观察来获得某些目标分布的参数。因此,例如,在图1中,我们获得了Y的实现k,并希望从该值中获得未知参数p的估计值。这可以使用最大似然估计来完成。
最大似然估计
首先,我们需要提到的是,本部分介绍的一般原则不仅限于研究二项式计数或A / B检验,而且更普遍有效。 但是,更清楚地说,我们将使计算适应于特定情况。 现在讲理论。
最大似然估计原理给出了一种从相关随机变量的实现中估计未知参数p的方法。 这个原则告诉我们选择价值
鉴于观察,这是最有可能的。 在我们的案例中,如果我们观察到了跟随该链接的k个用户,则意味着我们选择p的值来最大化该观察的可能性,即最大化似然函数
(注意:如果我们对一个随机变量有多个观测值,则似然函数会更加复杂。实际上,对于多个观测值,似然函数可以定义为所有观测值的概率乘积。)
为了简化此最大化问题,统计人员通常选择使用对数似然函数来代替,这很简单
这是有效的,因为对数是一个递增函数,因此L和l的最大值在p的相同值处获得。通过这种简化,极大化变得简单,我们对p取导数,并将该表达式设置为0以获得
然后,我们求解p以获得
这只是观察到的成功的比例。为了检查该值确实是函数l的最大值,我们对p取二阶导数,得出
并注意,对于任何p∈(0,1),这都是负数,因为n≥k。
因此,似然函数使我们能够获得分布的某些参数的估计值,但这并不是其唯一特征。 实际上,还有其他方法,例如矩量法,可以使我们做到这一点。 最大似然性的特殊之处在于它的渐近性质,即,当n变大时会发生什么。 有关常规方法的更详细介绍,请查看本文。
最大似然估计的渐近性质
在深入研究之前,我们首先需要了解一个微妙的问题。我们之前提到过,我们可以假设n是固定的,当我们对用户进行特定实验时,这是正确的。类似地,当我们进行此实验时,观察到的成功次数k也固定。实际上,对于图1中进行的实验,我们有k = 33和n = 33 + 362 =395。但是,如果从数学的角度考虑,我们不会特别考虑一个实验,而是考虑所有实验可以做到的。这有什么变化?首先,n不再固定,因为实验的大小可以变化。其次,更重要的是,实验的最大似然估计值将成为随机变量,因为我们不知道进行实验时的世界状况。
为了使这一点更加清晰,我们记得
作为二项式计数实验中p的估计(现在我们还添加了下标n以使相关性可见)。也许,如果我们前一天进行了实验,则只有l个人而不是k个人会点击该链接,那么我们的估算值应该是
实际上,考虑到所有可能的二项式计数情况,我们将p的最大似然估计值定义为随机变量
其中Y具有二项式B(n,p)分布。 因此,我们用产生此观察值的随机变量Y代替观察值k,以便能够考虑到实验的所有可能结果。 这是一个微妙但重要的要点:我们从一个简单的估计值开始,这个估计值是我们从实验的实现中计算出的值,然后是一个估计器,它是一个随机变量,其实现表示实验的可能结果。 这使我们可以更一般地考虑我们的实验。
最大似然估计器的第一个有趣属性直接来自于二项式随机变量均值的公式
这意味着我们的估算器平均会给出我们想要估算的值p(这是个好消息)。另一个属性是估计量的一致性,它表明,当n变大时,我们可以用p代替估计量。实际上,我们甚至可以进一步将其推向事实,并了解我们的估计量将如何围绕值p进行分布。将中心极限定理应用于上面定义的伯努利试验的总和,我们发现
当n变大并且我们定义的位置时,可以用标准的正常随机变量来近似
因此,随着n的增大,估计量作为均值p周围的正态随机变量分布,并具有明显的方差。
与二项式随机变量相比,在更一般的设置中,最大似然估计器可以这样近似的事实是正确的。 但是,这依赖于一个更大的属性,即最大似然估计器的渐近正态性,我们(幸运的是?)在这里不必使用它。 为了朝这个方向进一步发展,我推荐基思·奈特(Keith Knight)的"数学统计学"。
置信区间和假设检验
在上一部分中得出的近似属性的主要用途是构造置信区间和统计检验。这就是我们在本节中要做的。
我们可以使用最后一节中得出的渐近正态性的第一种方法是通过计算p的最大似然估计值的置信区间。 参数p的置信区间非正式地是一个(随机)区间,该区间很可能包含(真实和未知)值p。 这样做的好处是,置信区间使我们比简单的最大似然估计器能走得更远。 代替使用实验的实现仅获得单个值,我们获得的间隔很可能包含所需的参数值。
为了建立此间隔,我们使用上一节中证明的渐近正态性来写
其中N是标准随机变量。 我们看到第二个概率正好包含我们想要的:一个包含p的随机间隔。 因此,我们只需要使这种可能性尽可能大即可。 例如,如果我们取a = 1.96(正态分布的95%分位数),
因此,当n足够大时,我们大约有95%的概率p的真实值位于区间
或者用另一种方式表述:在95%的实验实现中,此间隔将包含p的真实值。
在实践中,我们仅观察到该实验的一种实现。因此,例如,对于图1,我们有k = 33和n = 362 + 33 = 395,因此(向下取整)
这很容易做到。 但是,存在一个小的问题来计算在正常近似中出现的方差:它取决于未知值p…但是,统计学家有一个名为Slutsky引理的技巧,它表明,当n大时,我们可以替换未知值 p通过估计k / n来计算置信区间。 因此,对于图1中的示例,我们获得
最后,参数p的95%置信区间为[0.0835-0.0272,0.0835 + 0.0272] = [0.0563,0.1107]。 (请注意:如果将此结果与R的prop.test函数的置信区间进行比较,则会出现一些差异。)
比最大似然估计更进一步的另一种方法是假设检验。假设检验是统计学中的一种方法,它允许我们使用实验的实现来检查(未知)参数是否在某个范围内。回到图1的示例,我们可以假设我们的基本假设是p = 0.05,即单击链接的概率为5%。在统计数据中,在实验之前做出的假设称为零假设(" H-zero"),另一种称为"替代假设"(或" H-one")。通常用以下符号表示
因此,假设检验的问题是检查给定实验的实现是否可以拒绝我们的原假设。再次,这不是一个是/不是问题,而是始终使用概率来说明,例如,"通过此实现,我们有95%的机会拒绝原假设"。
假设检验依赖于称为统计量的量,该量仅仅是一个函数T,它取决于对我们的实验进行建模的随机变量。 在简单的二项式计数实验中,统计量可以是取决于Y的任何函数,我们可以表示该函数T(Y)。 最常用的统计之一是Wald统计,其定义为
其中对Y的依赖关系是隐式的(请注意估算器等于Y / n)。 一旦有了这样一个统计量,我们就想知道零假设为真时的分布(统计学家说"零假设下的分布"),因此我们可以使用我们的认识来评估这种可能性,看看零假设是否可能 或不。 通常,很难在某些统计值为零的情况下获得真实的分布,但是建立了良好的测试,以便我们至少知道n变大时的分布。 实际上,大多数测试都是使用此原理构建的。
这是最大似然估计器的渐近正态性再次出现的地方! 注意我们有
我们知道在零值下,当n变大时,平方内的数量可以用一个标准的正常随机变量来近似。 因此,T(Y)可以通过标准正态分布的平方分布来近似,该分布就是卡方分布(具有一个自由度)! 这样的测试产生了(大)卡方测试系列。
为了了解如何应用,我们使用图1的值和p = 0.05的零假设。使用置信区间计算中的Slutsky技巧,我们可以将Wald统计量的实现值计算为
而且,如果Z具有一个自由度的卡方分布,则
这意味着,如果真实参数为p = 0.05,则只有1.6%的机会观察该值,因此我们可以以100%-1.6%= 98.4%的"确定性"拒绝原假设。(使用p值的概念可以使该语句更"统计"。)
因此,我们已经到了最困难的部分的尽头,但实际上直到现在我们仍然没有研究过A / B测试,我们只关注单个二项式计数(我们可以将其称为" A-testing")。好消息是,A / B测试只是从一个二项式计数变为两个。
比较两个二项式计数(A / B测试)
最后回到我们在引言中考虑的问题。 回想一下问题:我们有一个类似Fig0的表格,我们想知道新版本的网站是否会带来更高的点击率。 对此建模的一种方法是,将网站A的点击次数计数和网站B的点击次数都建模为二项分布,但是参数不同
如果我们将用户随机分配到A或B页面,则可以另外假设这些二项式随机变量是独立的。如前所述,我们将这两个二项式的最大似然估计定义为
使用这种形式主义,我们现在准备将导论中的问题作为统计假设检验:
换句话说,我们要检验原假设,即网站的设计对点击比例没有影响。 在统计中,这称为等分检验,它基于以下检验统计
这里:
我们现在要显示的是,在null下,
完成此操作后,我们将进行统计检验! 确实,鉴于此结果,对于更简单的二项式计数检验,我们可以进行与上一节类似的计算。
第一个重要的评论如下:
也就是说,我们的二项式随机变量的总和本身就是具有已知参数的二项式随机变量。 仅当两个二项式随机变量是独立的(我们假设)时,才如此。 (这可以通过回顾二项式简单地表示独立伯努利试验总和的分布来证明。)这一点的重点是数量
因此,是在空值下p的另一个最大似然估计。 而且,通过使用最大似然估计器的一致性,我们可以在
接下来,通过简单的代数并使用上面定义的I函数,我们获得
或同等
现在,在null下
以及乘法分数为1的事实。最后,在null下,
以来
通过我们上面证明的结果。因此,我们获得了想要证明的东西!当然,我们给出的证明不是完全形式化的,而是给出了主要结构和直觉。(实际上,对于那些掌握随机变量的不同收敛类型的人来说,可以使用特征函数和Slutsky引理将其简单地形式化。)
正如我们已经提到的,现在可以使用与之前测试类似的方法来进行统计测试。 实际上,由于没有通往几何学的皇家之路,因此我将留给读者看!
练习:计算z统计量的值,该值以及获得Fig0值的近似概率,并得出实验是否成功的结论。
解决方案:您应该找到
这结束了本介绍性文章,并且进一步介绍了(很多)我建议Alan Agresti撰写的"分类数据分析"。我希望它使最大似然估计,统计测试和A / B实验的概念更加清晰,并且对您的数据科学之旅很有用!
值得一提的事实:我们在本文中得出的z平方检验可以证明等同于著名的Pearson卡方检验!
(本文由闻数起舞翻译自Jérôme Spielmann的文章《A gentle introduction to the mathematics behind A/B testing》,转载请注明出处,原文链接:https://towardsdatascience.com/a-gentle-introduction-to-the-mathematics-behind-a-b-testing-3afe354bdce3)
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【二项分布可加性证明(简要介绍A)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
