本文章基于机器学习(西瓜书)的书籍,作者是周志华老师。如果有时间或学有余力的可以把整本书学习完。
前两章主要阐述了机器学习常见的概念和术语。
我觉得第一章要了解的术语如下:
数据集
训练集
监督学习
非监督学习
假设空间
版本空间
第二章要了解的术语如下:
过拟合
欠拟合
交叉验证法
自助验证法
留出法
查准率P
查全率F
P-R曲线/图
ROC
AUC
交叉t检验
还有核心概念和术语解释待更新补充,我觉得第一二章最精华的部分就是数据决定了模型的效果上限,而算法则是让模型无限逼近上限。
第三章开始介绍线性模型,最开始介绍的是线性回归,从最简单的一元线性回归开始,并给出如何根据数据分布求出线性模型,基于最小二乘法。同时还介绍了对数线性回归,并举例sigmod函数,这是一个经常在机器学习特别是深度学习用到的函数。接着介绍了线性判别分析。以及介绍了多分类问题和如何用二分类任务来处理多分类问题,最后再讲述了一个在数据集中常见的类别不平衡问题,即每一种类别对应训练集数据量差异过大的问题。
第四章介绍的是决策树,核心是根据某一规则划分特征空间,划分规则采用信息增益也是信息熵,即就是经典ID3决策树,采用了增益率作为划分规则的是C4.5决策树,划分规则是基尼系数是CART决策树,这章节介绍预剪枝是基于贪心算法和后剪枝,介绍了后剪枝缺点时间开销大,还介绍了多变量决策树能使划分边界为斜边界即不平行于坐标轴的划分界。
第五章介绍的是支持向量机,核心是爱情,