1 机器学习
1 机器学习
学习地址: 南瓜书 PumpkinBook
1.1 绪论
什么是机器学习 What
研究关于【学习算法】的学科,深度学习是机器学习的子集,属于神经网络类的机器学习。
为什么要学习机器学习 Why
- 底层--理论研究
- 底层--系统的开发
- 将机器学习中的算法应用到自己的研究
- 从事AI应用方向的研究:NLP,CV(计算机视觉),推荐系统
怎样学习 How
对于第二和第三种
学习方法:
1.基础数学自己补
- 时间充裕:高等数学,线性代数,概率论基础
- 时间紧张:直接啃 西瓜书,不懂的补
- 推荐课程:张宇考研数学基础班视频
2.高阶数学知识 南瓜书+本视频
学习程度:
1.学的过程中看懂每一步推到过程即可。
2.会调用scikit-learn库即可,不用自行实现。
3.时间紧张的同学,学完前5章即可开始深度学习。
1 假设空间和版本空间
假设空间:一元一次函数,算法:线性回归,模型:y=3x-2
假设空间:一元二次函数,算法:多项式回归,模型:y=x**2
所有能够拟合训练的模型(假设)构成的集合称为“版本空间”。
2 基本术语
算法
算法:从数据中习得的“模型”的具体方法。
算法产出的结果称为“模型”;
样本
关于一个事件或者对象的描述。其实就是向量。
向量中的各个维度称为“特征”或者“属性”
向量中用;分隔为列向量,,分隔为行向量。
把属性值变成数字称其为“特征工程”
标记
机器学习的本质就是在学习样本在某方面的表现是否存在潜在的规律,该方面的信息为“标记”
标记通常也看作样本的一部分,因此一个完整的样本通常表示为(x,y)
y为标记
样本空间
也称为“输入空间”或者“属性空间”,有样本便有样本空间,变量组成的空间。大写x表示
标记空间
也称为“标记空间”或者“输出空间”,大写y表示
标记的取值不同,机器学习任务分为两类
- 标记取值为离散型时,此任务为“分类”
- 当标记取值为连续型时,此任务为“回归”
是否有用到标记信息,机器学习任务分为两类
- 模型训练阶段有用到标记信息时,称此类任务为“监督学习”
- 在模型训练阶段没有用到标记信息时,称此任务为“无监督学习”
数据集
数据集通常用集合来表示。
模型-训练流程
首先收集若干样本。
然后将其分为训练样本和测试样本。训练集和测试集
接着选用某个机器学习算法,让其在训练集上进行学习(训练)。
然后产出模型。
最后用测试集来测试模型的效果。
泛华
机器学习的目标根据已知来对未知做出尽可能的准确判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键。我们称其为泛华能力。
分布
指的是概率论中的概率分布。
数据决定模型的上限,算法是让模型无限接近上限
1.2 一元线性回归
正交回归:蓝色的线平行与y轴到拉出来线的距离;
均方误差:全部的y‘相加后2平方;
线性回归:垂直于拉出来的线的距离;
最小二乘估计
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
极大似然估计
误差:均值为0的正态分布
求解w和b
本质上是一个多元函数求最值的问题,更具体是凸函数求最值问题。
凸集:两个点属于此集合,连接这两个点的任意一点属于此集合。
梯度:多元函数的一阶导数;
机器学习三要素
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略(损失函数)
- 算法:求解损失函数,确定最优模型
1.3 多元线性回归
推导公式
∂w∂*E***w**=2XT(X****w^−y)=0
2XTXw−2XTy=02**X**T**X****w**−2XTy=0
2XTXw=2XTy2**X**T**X****w**=2XTy
w=(XTX)−1XTy**w**=(XTX)−1XTy
定理3.1:设D⊂RnD⊂Rn是非空开凸集,f(x)f(x)是定义在DD上的实值函数,且f(x)f(x)在DD上二阶连续可微,如果f(x)f(x)的Hessian矩阵∇2f(x)∇2f(x)在DD上是半正定的,则f(x)f(x)是DD上的凸函数;如果∇2f(x)∇2f(x)在DD上是正定的,则f(x)f(x)是DD上的严格凸函数。
定理3.2:若f(x)f(x)是凸函数,且f(x)f(x)一阶连续可微,则x∗x∗是全局解的充分必要条件是其梯度等于零向量,即∇f(x∗)=0∇f(x∗)=0。