机器学习期末考试知识点汇总，助你一臂之力，直击高分！

2023-12-13 03:47:47

第一章：绪论

1.什么是机器学习？
机器学习：本质上就是让计算机自己在数据中学习规律，并根据所得到的规律对未来数据进行预测。
2.机器学习基本分类：监督学习、无监督学习。
3.机器模型
机器学习模型分为参数化模型和非参数化模型。
非参数化模型一般没有优化目标函数，利用某种算法和结构建立模型，比如K近邻、决策树等。
参数化模型中定义了或多或少的参数，通过参数计算模型的输出，通过定义某种优
化目标函数，利用数据去调整(训练)参数，比如线性回归、支持向量机、贝叶斯网络、
神经网络等。本书侧重于参数化模型。
4.监督学习模型和无监督学习模型有哪些？
●监督学习模型：
（1）线性回归（Linear Regression）：用于解决回归问题，建立输入特征与连续目标变量之间的线性关系。
（2）逻辑回归（Logistic Regression）：用于解决分类问题，将输入映射到概率输出，并进行二分类或多分类。
（3）决策树（Decision Trees）：通过树状结构进行决策，可用于分类和回归任务。
（4）支持向量机（Support Vector Machines，SVM）：用于分类和回归，通过找到将不同类别分开的最优超平面。
（5）k近邻算法（k-Nearest Neighbors，KNN）：根据输入实例的邻近实例来进行分类或回归。
●无监督学习模型：
（1）K均值聚类（K-Means Clustering）：用于将数据集划分为K个不同的组（簇）。
（2）层次聚类（Hierarchical Clustering）：将数据集划分为具有层次结构的簇。
（3）主成分分析（Principal Component Analysis，PCA）：用于降低数据维度，发现数据的主要成分。
（4）独立成分分析（Independent Component Analysis，ICA）：寻找数据中的独立源，用于盲源分离。
（5）自编码器（Autoencoder）：用于学习数据的紧凑表示，常用于降维和特征学习。

5.监督机器学习模型通常将有标注的数据集分割为训练集(train set)和测试集(test set)。训练集用于训练模型，获得模型的最佳参数，测试集用于度量模型训练后的性能。
6.损失函数：
损失函数是这样一类函数: 当模型对样本的分类正确时，不产生损失或产生较小的损失，反之，根据其离谱程度，将带来一定甚至很大损失。通过选择合理的参数，使得整个数据产生的总体损失最小化。这个过程被称为训练(training)，也称有监督学习。

第二章：线性回归

1.线性回归
线性回归：用一条线来进行回归预测。线性回归在这种背景下的工作就是寻找一条直线，尽可能的拟合这些离散点。
线性回归算法是一种有监督学习模型，主要处理标签数值类型为连续型数值的问题。该算法的核心思想是通过输入数据的线性组合去拟合目标。
具体来说，线性回归假设目标值与特征之间存在线性关系，即满足一个多元一次方程。为了求解这个方程，我们需要先构建损失函数，然后通过最小化损失函数来得到最佳的参数w和b。这里的损失函数通常为实际值与预测值之间的平方误差。为了最小化损失函数，我们采用最小二乘法。
最小二乘法的基本思想是通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法，我们可以将问题转化为一个矩阵运算问题，进而求解出参数w和b。
2.多元线性回归模型
多元线性回归模型，是在有多个输入变量的情况下预测一个连续型输出变量的一种方法。它主要被用于处理那些目标值受到多个因素影响的问题，例如家庭消费支出，除了受家庭可支配收入的影响外，还可能受到诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响。
给定一个输入样本，我们希望其预测值尽可能接近其真实的标签值。为了确定最优的模型参数，需要给出问题的优化目标函数。
在多元线性回归模型中，我们假设这些影响因素和目标值之间存在线性关系，即满足一个多元一次方程。为了求解这个方程，我们需要先构建损失函数，然后通过最小化损失函数来得到最佳的参数。这里的损失函数通常为实际值与预测值之间的平方误差（最小残差平方和）。为了最小化损失函数，我们通常采用最小二乘法。
3.一元线性回归模型与多元线性回归模型区别
一元线性回归模型处理的是只有一个自变量和一个因变量之间的线性关系，多元线性回归模型则用于解释被解释的变量与两个以上自变量之间的线性关系。
对比一元模型，使用多元线性回归模型使均方误差显著降低。同理，可以使用多个决策变量，即可实现更为精确的多元线性回归。

●线性回归模型求解
1.最小平方法
最小平方法，是估计回归系数的常用方法之一。它的基本思想是将原始的因变量表示为自变量和常数项的线性组合，然后通过最小化残差平方和来找到最佳的拟合线。

2.最大似然法
通过最大似然估计法来求解参数。首先定义误差ε (i) 为每个样本的预测值和实际值之间的差距，由于每个样本的预测值和实际值都存在一定的误差，因此我们假定所有样本的误差ε(i) (1 ≤ i ≤ n) 是独立同分布的，服从均值为0，方差为某个定值的高斯分布。然后通过比较不同参数下的概率函数值，选出概率最大的参数作为最优解。

3.梯度下降法
这种方法基于函数在某一点的梯度，即偏导数，来寻找函数的最小值或最大值。具体来说，线性回归模型的目标函数是误差平方和，我们需要找到一组参数，使得这个目标函数的值最小。为了实现这一目标，我们通过迭代更新模型参数，逐步优化模型。
首先，初始化模型参数。然后，计算预测值和损失函数的梯度。损失函数衡量的是模型预测能力的好坏。接着，计算L1正则化项的梯度（如果有的话）。最后，计算总的梯度，并更新模型参数。重复这个过程，可以逐步优化模型参数，实现线性回归模型的求解。

4.岭回归
岭回归是一种专用于线性数据分析的有偏估计回归方法，它是对最小二乘法的一种改良。在最小二乘法中，我们试图找到一条直线来最好地拟合数据，但当自变量之间存在高度相关性时，最小二乘法可能会产生不稳定的结果。为了解决这个问题，岭回归通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。
具体来说，岭回归是一种正则化方法，它通过对系数值添加惩罚来提高模型的稳定性和可靠性。这个惩罚项被称为岭参数，其决定了模型对系数的惩罚程度。岭回归的目标是找到一个合适的岭参数，使得模型在保持较高预测精度的同时，各特征的系数都尽可能小。
●正则化
正则化是一种用于在机器学习中防止过拟合的技术。过拟合是指模型在训练数据上表现得很好，但在新数据上表现不佳的现象。正则化通过对模型的复杂性进行惩罚，限制模型参数的大小，从而提高模型的泛化能力。在正则化中，通常会向损失函数添加一个正则化项（也称为惩罚项），该项依赖于模型的参数。这个额外的项有助于防止模型过于依赖训练数据，使得模型在未见过的数据上表现更好。

●线性回归模型的度量指标。
度量线性回归的一个常用指标为样本均方误差，即每个样本的平均误差平方。该指标的取值与所采用的度量单位有关，不便于不同模型之间的比较另一种度量指标被称为R2(R-squared)。该值代表一个比率，表示回归模型中特征变量能够解释预测变量的方差的比例。比值越大，说明特征变量表示因变量的能力越强。
这玩意叫残差平方和，表示所有样本预测值与真实值之差的平方和。

第三章：逻辑回归

1.逻辑回归模型
逻辑回归是一种广泛应用的分类模型，主要用于解决因变量为二分类或多分类的问题。逻辑回归模型可以估计某一事件的发生概率，其输出的范围在0和1之间。逻辑回归模型的基本形式是线性回归模型的一个扩展。
2.多分类逻辑回归模型
多分类逻辑回归模型是一种广泛应用的分类方法，它用于解决因变量为两个以上类别的问题。在多分类逻辑回归中，因变量是根据一系列自变量（也就是我们所说的特征、观测变量）来预测得到的。不同于二分类逻辑回归的是，其输出是一个概率分布，用于表示每个类别的概率。
3.多分类器性能评估指标
逻辑回归模型的分类器性能评估指标主要包括准确率、混淆矩阵等。准确率表示模型预测正确的样本数占总样本数的比例，混淆矩阵通过展示模型在每个类别上的预测情况来帮助我们更全面地理解模型的性能。

4.二分类性能评估指标
样本总数 = TP + TN + FP + FN。

第四章：支持向量机（SVM）

1.什么是支持向量机？
支持向量机（Support Vector Machine, SVM）是一种监督学习的二元分类模型，它的基本思想是找到一个最优的超平面，使得不同类别的样本尽可能的分开。这个最优的超平面被称为最大边距超平面（maximum-margin hyperplane），它是根据学习样本求解出的最大边距确定的。
支持向量机可以进一步被分为线性支持向量机和非线性支持向量机。
在线性支持向量机中，数据是线性可分的，可以通过硬间隔或软间隔来找到分隔超平面。
非线性支持向量机中，数据可能是线性不可分的，这时就需要用到核技巧，通过映射将原始特征空间转化为高维特征空间，然后在新的特征空间中寻找最优分隔超平面。

2.支持向量机模型求解线性可分情况
支持向量机（SVM）模型在处理线性可分问题时，目标是找到一个最优的超平面，使得不同类别的样本尽可能的分开。这个最优的超平面被称为最大边距超平面（maximum-margin hyperplane），它是根据学习样本求解出的最大边距确定的。
具体来说，线性可分的支持向量机要求训练集线性可分，通过硬间隔最大化得到超平面。例如，给定三个数据点：x1= (3,3), x2= (4,3), x3= (1,1)，其中x1，x2为正例，x3为负例，我们可以通过求解目标函数来找到最优的超平面。

3.支持向量机模型求解线性不可分情况
对于线性不可分的情况，支持向量机（SVM）需要采取不同的策略。由于数据中有些样本点距离太近，不能满足函数间隔大于等于的约束条件，因此线性可分的支持向量机学习方法在这种情况下是不适用的。
此时，我们可以使用核技巧最优化来求解。具体来说，我们可以通过使用核函数将线性不可分的训练集映射到高维空间中，使其变为线性可分的数据集。然后，在新的高维特征空间中寻找最优分隔超平面。
此外，为了处理线性不可分问题，我们对每个样点都引入一个松弛变量 ξi ≥ 0，以允许某些样本点违反硬间隔约束。这种策略使得SVM可以解决一些非线性问题，增强了模型的泛化能力。

4.核技巧
核技巧是一种在支持向量机（SVM）中广泛应用的方法，它能够将非线性可分问题转化为高维线性可分问题。核技巧的基本思想是将低维数据映射到高维空间中，以便更好地进行分类和回归等任务。
具体来说，核技巧利用核函数将输入空间映射到线性可分空间，从而使得在新的高维特征空间中寻找最优分隔超平面成为可能。

5.多分类支持向量机
支持向量机（SVM）是一种强大的分类算法，它有很高的处理高维数据的能力。尽管其本身是为二分类问题设计的，但可以通过一定转换应用于多分类问题。
对于多类分类问题，SVM采用的主要方法有两种：成对分类方法和一类对余类方法。在成对分类方法中，每一个类别都与其他所有类别分别进行比较和分类，这样会得到多个二分类器；在一类对余类的方法中，将其中一个类别作为正类，其余的所有类别合并为反类进行分类。
另一种解决多分类问题的方法是使用“一对一”或“一对其余”策略，这种策略可以看做是多个二元分类器的集合。例如，如果要解决0-9的数字识别问题，那么可以为每一个数字创建一个二元分类器。

第五章：K-Means聚类和高斯混合模型

一、K-Means聚类
K-Means聚类是一种无监督学习算法，它是最基础且常用的聚类方法之一。这种算法的主要目标是通过迭代寻找K个簇的一种划分方案，使得聚类结果对应的损失函数最小。在这个算法中，"K"表示将数据集聚类为K个簇，而"means"则代表取每一个聚类中数据值的均值作为该簇的中心，也就是质心。
具体来说，K-Means算法接受一个参数K，然后将样本数据集划分为K个聚类。如二分类时，k=2。几分类K就等于几。每个聚类需要满足以下条件：同一个聚类中的样本数据集相似度较高；而不同聚类中的样本数据集相似度较小。
在算法的实施过程中，会首先从样本集中随机选取k个样本作为初始的簇中心，然后计算所有样本与这k个“簇中心”的距离。对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中。聚类完成后将聚类数据的均值更新为簇的中心，再继续将每个样本划分到与其距离最近的簇中，接着通过迭代的方法，逐次更新各聚类中心的值，直至簇质心变化的范围很小或质心不再发生变化。就停止迭代。

1.K值的选择

●确定K值的方法：手肘法、Gap statistic 方法、轮廓系数法等。
手肘法是基于误差平方和（SSE）来计算的，其基本思想是：随着聚类数K的增大，样本划分更加精细，那么所有样本的聚类误差 (SSE)会逐渐变小。但是当K值小于真实聚类数时，即数据的真实分布结构为多个簇时，K的增加会对聚类效果产生很大影响，故SSE下降幅度很大；但当K值大于真实聚类数时，即使增加K值，SSE的下降幅度也不会明显。因此，通过观察SSE随K值变化的趋势图，可以发现一个拐点，这个拐点就是最佳的K值。
Gap statistic方法是基于概率的，它的思想是：对于所有的K值，计算出对应的簇内最大间距与簇间最小间距之比的期望值，然后找到使这个期望值最大的K值作为最优的簇数。
2.聚类结果的度量指标
（1）轮廓系数法
簇内不相似度：样本a到同簇内其他样本的平均距离为样本点a的簇内不相似度。
簇间不相似度：样本a到其他簇所有样本的平均距离的最小值为样本点a的簇间不相似度。
定义样本a的轮廓系数：
样本点a的簇内不相似度-样本点a的簇间不相似度/max（簇内不相似度，簇间不相似度）

轮廓系数法是一种基于聚类效果的评价指标，具体计算过程中，假设已经通过聚类算法将待分类的数据进行了聚类，并最终得到了k个簇。对于每一个簇，计算其中所有样本簇内不相似度和簇间不相似度，最后用簇内不相似度-簇间不相似度并除以两者中的较大值，得到的结果就是轮廓系数。

轮廓系数的值在-1到1之间，值越接近1，说明样本点与所在簇内的相似度越高，与其他簇的相似度越低，聚类效果越好；反之，值越接近-1，说明样本点与所在簇内的相似度越低，与其他簇的相似度越高，聚类效果越差。

（2）DB指数

二、高斯混合模型聚类及其模型
高斯混合模型（Gaussian Mixture Model, GMM）是一种基于概率模型的聚类方法，它假设数据集中的每个样本都是由多个高斯分布组成的混合体。与K-means算法相比，GMM可以给出一个样本对于所有类别的概率，因此被称为软聚类。
高斯混合模型的求解通常采用EM算法。这是一种迭代算法，主要分为两步：第一步，假设我们知道各个高斯模型的参数（这些参数可以初始化或者基于上一步迭代结果），然后去估计每个高斯模型的权值；第二步，基于估计的权值，再去迭代更新高斯模型的参数。这样的迭代过程会一直重复进行，直到模型收敛为止。
需要注意的是，EM算法有可能只能收敛于局部最优解。此外，GMM给出了一个样本对于所有类别的概率，也就是说，它给出的是软聚类结果。这种给出每个样本属于各类的可能性的方式，相比于K-means算法判定样本完全属于某个类的硬聚类方式，具有更大的灵活性。

第六章：K近邻模型及其分类方法

K近邻（KNN）模型是一种基本的分类与回归方法，其核心功能是解决有监督的分类问题。这种算法的主要思想是，如果一个样本在特征空间中，其最相邻的k个样本中大多数属于某一个类别，则该样本也属于这个类别。
●具体来说，KNN方法包括以下三个主要步骤：
（1）确定距离度量：这是决定样本之间相似度的关键，常用的距离度量包括欧氏距离（两点之间的直线距离）、曼哈顿距离（坐标轴距离的绝对值之和）等。
（2）k值的选择：在训练数据中找到与新样本最邻近的k个实例点。k的值太小，容易受个例影响。k的值太大，容易受距离较远的特殊值的影响。
（3）分类决策：根据这k个最近邻样本的类别进行投票或平均，得到新样本的预测类别。

第七章：朴素贝叶斯

1.朴素贝叶斯算法是一种基于贝叶斯定理的分类算法。它被称为“朴素”是因为它对每个特征的假设是独立的，这是一个简化的假设，因此称为朴素贝叶斯。

2.举例演示过程：小明有一题不会，向全班发送求助信息。同学们都给了回复，小明发现三十个回复中既有作业答案，又有情书。作业有16份，情书有13份，唯独班长的回复看不懂。小明于是想通过关键词给班长的消息分个类。作业和情书中有一些共同的关键词。

3.贝叶斯分类器
包括朴素贝叶斯、TAN、BAN和GBN等。其中，朴素贝叶斯分类器是应用最为广泛的一种，它是基于贝叶斯定理的一种简单假设，即特征之间相互独立。
4.非高斯朴素贝叶斯
在实现朴素贝叶斯分类器时，scikit-learn库提供了5种不同的朴素贝叶斯分类算法，分别是伯努利朴素贝叶斯（BernoulliNB），类朴素贝叶斯（CategoricalNB），高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）、补充朴素贝叶斯（ComplementNB）。在这五种算法中，高斯朴素贝叶斯是最常用的一种，它假设特征符合高斯分布。然而，实际应用中的数据可能并不都满足高斯分布，因此在这种情况下，我们可能需要使用非高斯朴素贝叶斯模型。

第八章：主成分分析

1.仿射变换
每个数据点在主轴上的投影就是数据的主成分。这种从数据的坐标轴变换到主轴的过程是一个仿射变换。仿射变换可以理解为一个向量空间到另一个向量空间的映射（以矩阵相乘的形式），而保持一些性质不变。
主成分分析通过线性变换将原始数据转换到新的坐标系统中，使得在新坐标系的第一个坐标（即第一个主成分）具有最大方差，第二个坐标具有第二大方差，依此类推。这个线性变换的过程实际上就是寻找一组新的坐标轴，也就是新的主成分，以重新描述数据点在空间中的位置。而这个寻找新坐标轴的过程，就涉及到了仿射变换。
主成分分析还可以用于高维数据的降维。通过去除一个或多个最小主成分，可以得到一个更低维度且保留最大数据方差的数据投影。在这个过程中，那些沿着最不重要的主轴的信息都被去除了，仅留下了含有最高方差值的数据成分。虽然数据的总体关系仍然被大致保留了下来，但是有部分数据维度被削减，这可以被看成是数据在降维后损失的‘信息’量。

2.主成分分析算法过程（PCA算法）
●过程：
（1）样本中心化：是指通过减去样本均值，使得新的数据坐标系原点移到了数据的均值点，也就是样本的中心。样本中心化有助于消除不同特征之间的偏移，确保它们在相似的尺度上。可以使模型更具鲁棒性，对于输入数据中的一些异常值不敏感。
（2）计算投影矩阵：计算数据的协方差矩阵。求出协方差矩阵的特征值和特征向量。将特征值从大到小排序，并选择前k个最大的特征值所对应的特征向量组成的矩阵，这就是我们的投影矩阵。
（3）最后，将原始数据投影到这个投影矩阵上，得到降维后的数据。

第九章：低秩近似

1.低秩近似
高维数据具有显著的稀疏性，当表示为一个矩阵时，会包含大量的冗余信息。通常可以用低秩矩阵近似地表示原始矩阵，这个过程称为低秩近似。上一章讲述的PCA算法就是一种典型的低秩近似方法。本章我们再来研究两种低秩近似方法，即奇异值分解和矩阵补全。

2.奇异值分解
奇异值分解（Singular Value Decomposition，SVD）是一种线性代数的技术，常用于矩阵分解和降维。SVD将一个矩阵分解为三个矩阵的乘积。

奇异值分解的主要应用领域包括降维、用于表示学习、图像压缩等。

3.矩阵补全
矩阵补全是指通过填充矩阵中的缺失值或不完整项，使其成为一个完整的矩阵。这个问题通常出现在实际数据收集和处理中，其中一些项可能由于各种原因而缺失。矩阵补全的目标是根据已有的观测值来估计缺失值，以便获得一个完整、可用于进一步分析的数据矩阵。
●用矩阵分解来进行矩阵补全任务。

4.矩阵补全和奇异值分解（SVD）的比较
SVD通常是矩阵补全的一部分，通过奇异值分解的结果进行缺失值的估计。SVD的主要目的是分解矩阵，而矩阵补全的目的是填补缺失值。

5.SVD和PCA的比较
两者都可用于降维操作。

第十章：贝叶斯学习

1.贝叶斯学习过程：首先对事物做一个初始估计，即先验。然后随着对事物的进一步观察和了解，不断修正先验，直到最终完全准确地认识该事物。贝叶斯学习方法给出了这一过程的量化计算方法。

2.贝叶斯学习是一种基于贝叶斯统计学原理的机器学习方法，它通过使用贝叶斯定理来进行概率推断。这种方法基于贝叶斯概率的观点，将模型参数看作是概率变量，利用先验信息和观测数据来更新模型参数的后验分布。

3.先验分布：
先验分布是对模型参数在观测数据之前的信仰或认知的数学表达。选择合适的先验分布通常需要领域知识或经验，也可以根据问题的具体情况进行建模。

4.后验分布：
后验分布是在考虑观测数据后得到的参数分布，通过贝叶斯定理计算得到。后验分布反映了在观测到数据后对参数的新的置信度。

5.似然函数：
似然函数描述了在给定模型参数的情况下观测到数据的可能性。似然函数的选择通常基于对问题的建模和数据的分布。

文章来源:https://blog.csdn.net/qq_48361010/article/details/134960283
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！