机器学习的三个方面

2024-01-09 16:32:19

1 机器学习的三个方面

机器学习的模型训练过程类似于训猴,比如让猴子识别一个物体,并根据这个物体完成一个动作。最初需要给猴子用这个物体相关的数据进行训练,训练方式有多种多样。

1.1 数据

数据是机器学习的基础,一个模型能做什么任务,与给该模型提供什么数据相关;一个训练好的模型表现得好不好,很大程度取决于数据的质量;所以数据的采集、预处理、增强、质量管理等都是非常重要的基础性工作。
根据数据类型可以分为:

  • 结构化数据:布尔型、枚举型、数字型等;
  • 非结构化数据:文本、图像、音频、视频等;

根据专业领域可以分为:

  • 人脸识别;
  • 自然语言处理;
  • 地震数据处理;
  • 测井数据处理;
  • 推荐系统;
  • … \dots

考虑关联性可分为:

  • 样本关联性;
  • 标签关联性;
  • 样本及标签关联性。

根据特征提取的方式可分为:

  • 特征选择;
  • 特征提取;

考虑数据质量,又可分为:

  • 数据质量评估;
  • 异常点检测;
  • 数据中毒攻击及防范;
  • … \dots

考虑样本不平衡,又可分为:

  • 欠采样;
  • 过采样;

根据样本的多少,分为:

  • zero-shot leaning:零次学习;
  • one-shot learning: 一次学习;
  • few-shot learning

1.2 模型

选取什么样的模型,就是使用什么样的神经元结构来构造大脑,通常这个部分都是在已有的模型上进行修改,重构新的模型太难,常见的模型如下:

  • ANN
  • CNN
  • RNN
  • Transformer
  • U-Net
  • Stable Diffusion:稳定扩散模型
  • GAN:生成对抗网络
  • GNN:图神经网络
  • Super Graph:超图
  • LLMs:生成式模型
  • MF:矩阵分解
  • SVM:支持向量机

1.3 学习方式

有了数据和模型后,如何来训练模型,方式就非常多,包括但不限于:

  • 课程学习
  • 迁移学习
  • 强化学习
  • 联邦学习
  • 主动学习
  • 小样本学习
  • 对比学习
  • 集成学习

按照学习的标签来分,可以分为:

  • 单标签学习
  • 多标签学习
  • 标签分布学习
  • 极限多标签学习

2 机器学习的两大问题

2.1 拟合能力

拟合能力:在训练集上表现如何,类似于小测验,利用教过的知识来测试学习能力;

2.2 泛化能力

泛化能力:在测试集上表现如何,类似于高考,在教过的知识上进行训练后,再利用没有见过的题目来测试学习能力。
拟合能力强,不一定泛化能力强,所以就有了两个新的概念:

  • 欠拟合:在训练集上表现不好;
  • 过拟合:在训练集上表现非常好,但泛化能力不行。

可以通过如下技术来提高模型的泛化能力:

  • 正则项;
  • dropout;
  • 剪枝;
  • … \dots

文章来源:https://blog.csdn.net/search_129_hr/article/details/135401471
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。