机器学习（二） -- 数据预处理（3）

2023-12-30 20:25:47

系列文章目录

未完待续……

前言

tips：这里只是总结，不是教程哈。本章开始会用到numpy，pandas以及matplotlib，这些就不在这讲了哈。

“***”开头的是给好奇心重的宝宝看的，其实不太重要可以跳过。

此处以下所有内容均为暂定，因为我还没找到一个好的，让小白（我自己）也能容易理解（更系统、嗯应该是宏观）的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西（当然远远不止这些），对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧，掐掉其他不太用得上我们的步骤，精练起来就4步（数据预处理，特征工程，训练模型，模型评估），其中训练模型则是我们的重头戏，基本上所有算法也都是这一步，so，这个最后写，先把其他三个讲了，然后，在结合这三步来进行算法的学习，兴许会好点（个人拙见）。

四、***【数据集成】

将多个数据源中的数据合并，存放于一个一致的数据存储中。

五、***【数据变换】

通过平滑聚集，数据概化，规范化等方式将数据转换成适用于数据挖掘的形式。

将原始数据变换成较好数据格式的方法，以便作为数据处理前特定数据挖掘算法的输入。

六、***【数据归约】

数据挖掘时往往数据量非常大，在大量数据上进行挖掘分析需要很长的时间，数据归约技术可以用来得到数据集的归约表示，它小得多，但仍然接近于保持原数据的完整性，并结果与归约前结果相同或几乎相同。也就是说，在归约后的数据集上挖掘将更有效，而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩。

七、数据拆分

数据拆分：机器学习的数据集划分一般分为两个部分：

????????训练数据：用于训练，构建模型。一般占70%-80%（数据量越大，取得比例最好越大）

????????测试数据：用于模型评估，检验模型是否有效。一般占20%-30%

1、近似值

该处使用的url网络请求的数据。

2、内容

该处使用的url网络请求的数据。

3、思维方式

该处使用的url网络请求的数据。

4、根本课题

该处使用的url网络请求的数据。

1.1、嗡嗡嗡

嗡嗡嗡

1.2、十五万

嗡嗡嗡

文章来源:https://blog.csdn.net/zqx1473/article/details/135308991
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！