全文共1222字,预计学习时长4分钟
来源:Pexels
数据科学家必须了解的事:中心极限定理。你了解吗?
今天,我想重构中心极限定理(CentralLimit Theorem),以及该定理与数据科学家的大量工作之间的关系。
首先,对于任何数据科学家来说,核心工具都是直方图——一种非常简单的图表。虽然我们肯定会看到许多直方图,但经常会忽略它的重要性。直方图的核心目的是了解给定数据集的分布。
直方图表示在x轴上找到的变量,其不同值在y轴上出现的次数。
这是一个示例,如果想了解数据集里面每加仑汽油行驶的英里数在汽车总数中的分布。在这里使用 mtcars 数据集,可以在图表的右侧看到一条尾巴,这种直方图就是所谓的右偏。这背后传达的概念是:有些汽车的油耗极高,但这些汽车很少。
与刚才看到的类似,经典分布是正态分布,也叫钟形曲线或标准正态分布。其核心概念是事件的“分布”是“对称的”。
下面的直方图与之前的图类似,而这里的更加对称。
中心极限定理指出,样本均值的分布应近似正态。
请看下面的例子:假设你在大学工作,并且想了解校友离开学校第一年的收入分配情况。
事实是你将无法向每个校友收集该数据点。或者,你可以对总体进行多次采样,以获取每个“样本”的单独样本均值。
现在,通过直方图绘制样本均值,可以看到正态分布的出现。
这里的关键要点是,即使输入变量不是正态分布的,采样分布也将近似于标准正态分布。
作为该想法的最后一个演示,首先从mtcars数据集里得出并绘制了MPG的分布。在这里,为每个mpg样本划分一个向量,遍历50个样本。每个样本取数据集里10条随机记录的平均值。再次将它们绘制为直方图,这样可以看到正态分布出现。
mpg_samples <-c()for(i in 1:50){mpg_samples [i] =平均值(sample(mtcars $ mpg,10,replace = TRUE)))} hist(mpg_samples,col ='purple',xlab =“ MPG ”)中心极限定理作为数据科学培训中的基础概念。该定理是假设检验、实验以及其他数据科学方法和技术的基础。
也是你必须了解和掌握的事物。
来源:Pexels
感谢阅读,希望本文对你有所帮助!
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【中心极限定理证明(科普)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
