分类问题无论在现实,还是商业中都是非常常见的问题,具有非常广泛的应用场景,Logistic分类作为作为一种简单有效的有监督分类模型,一般都被视为一个基础模型,虽然简单但往往也能取得令人满意的效果,今天就从理论,实践流程和模型评价三个方面为大家简单介绍一下Logistic分类模型。
自变量的线性组合得到 Z 值,然后再利用sigmod函数将其转化为 [0,1] 之间的概率值,即可得到样本分别属于0和1的概率。
理论介绍1
理论介绍2
Logistic回归模型参数估计就是通过已知样本估计表达式中的 w 和 b 值,这里采用极大似然估计来估计。简单理解极大似然估计,就是说样本当前的情况既然出现了,那么它就应该是最可能的情况,也就是说所有样本同时发生的概率应该是最大的,据此可以得到相应的似然函数,取log得到对数似然函数。
参数估计
当样本数据较多参数量较大时,往往是难以采用精确计算的解析方法直接求解出参数值的,因此一般采用快速估计的数值优化方法,也就是我们所说的机器学习方法、、
参数学习
机器学习模型的实践流程一般可以分为以下三步:
数据描述特征工程模型建立数据描述(以Pandas-DataFrame为例)
data.head() #数据初看data.info() #数据的基本统计信息/完整性/理解数据data.describe() #数据的描述性统计信息数据可视化特征工程
数据类型(1)名义(Nominal):无序列别变量,比如乘客性别:男/女
(2)有序(Ordinal):有序类别变量,比如乘客划分为:低/中/高
(3)度量(Scale):连续性变量,比如年龄
特征分析和处理(1)名义变量: One-Hot编码
(2)有序变量:按照因变量影响由小到大的顺序编码为1,2,3,…
(3)缺失值填充
特征选择模型建立(以Sklearn为例)
数据标准化使得预测结果不会被某些维度中过大的特征值而主导
训练模型参数fit( )函数/模块
对测试集数据进行预测(1)predict( )函数/模块
(2)predict_proba ( )函数/模块
Logistic分类器—性能评估
Logistic分类模型的评价方式一般有两种,混淆矩阵和ROC曲线。
混淆矩阵
混淆矩阵
ROC曲线
ROC曲线1
ROC曲线2
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【logistic回归分析案例(一文看懂逻辑回归理论)】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
