机器学习的三个方面
2024-01-09 16:32:19
1 机器学习的三个方面
机器学习的模型训练过程类似于训猴,比如让猴子识别一个物体,并根据这个物体完成一个动作。最初需要给猴子用这个物体相关的数据进行训练,训练方式有多种多样。
1.1 数据
数据是机器学习的基础,一个模型能做什么任务,与给该模型提供什么数据相关;一个训练好的模型表现得好不好,很大程度取决于数据的质量;所以数据的采集、预处理、增强、质量管理等都是非常重要的基础性工作。
根据数据类型可以分为:
- 结构化数据:布尔型、枚举型、数字型等;
- 非结构化数据:文本、图像、音频、视频等;
根据专业领域可以分为:
- 人脸识别;
- 自然语言处理;
- 地震数据处理;
- 测井数据处理;
- 推荐系统;
- … \dots …
考虑关联性可分为:
- 样本关联性;
- 标签关联性;
- 样本及标签关联性。
根据特征提取的方式可分为:
- 特征选择;
- 特征提取;
考虑数据质量,又可分为:
- 数据质量评估;
- 异常点检测;
- 数据中毒攻击及防范;
- … \dots …
考虑样本不平衡,又可分为:
- 欠采样;
- 过采样;
根据样本的多少,分为:
- zero-shot leaning:零次学习;
- one-shot learning: 一次学习;
- few-shot learning
1.2 模型
选取什么样的模型,就是使用什么样的神经元结构来构造大脑,通常这个部分都是在已有的模型上进行修改,重构新的模型太难,常见的模型如下:
- ANN
- CNN
- RNN
- Transformer
- U-Net
- Stable Diffusion:稳定扩散模型
- GAN:生成对抗网络
- GNN:图神经网络
- Super Graph:超图
- LLMs:生成式模型
- MF:矩阵分解
- SVM:支持向量机
1.3 学习方式
有了数据和模型后,如何来训练模型,方式就非常多,包括但不限于:
- 课程学习
- 迁移学习
- 强化学习
- 联邦学习
- 主动学习
- 小样本学习
- 对比学习
- 集成学习
按照学习的标签来分,可以分为:
- 单标签学习
- 多标签学习
- 标签分布学习
- 极限多标签学习
2 机器学习的两大问题
2.1 拟合能力
拟合能力:在训练集上表现如何,类似于小测验,利用教过的知识来测试学习能力;
2.2 泛化能力
泛化能力:在测试集上表现如何,类似于高考,在教过的知识上进行训练后,再利用没有见过的题目来测试学习能力。
拟合能力强,不一定泛化能力强,所以就有了两个新的概念:
- 欠拟合:在训练集上表现不好;
- 过拟合:在训练集上表现非常好,但泛化能力不行。
可以通过如下技术来提高模型的泛化能力:
- 正则项;
- dropout;
- 剪枝;
- … \dots …
文章来源:https://blog.csdn.net/search_129_hr/article/details/135401471
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!