机器学习(二) -- 数据预处理(3)
系列文章目录
未完待续……
目录
前言
tips:这里只是总结,不是教程哈。本章开始会用到numpy,pandas以及matplotlib,这些就不在这讲了哈。
“***”开头的是给好奇心重的宝宝看的,其实不太重要可以跳过。
此处以下所有内容均为暂定,因为我还没找到一个好的,让小白(我自己)也能容易理解(更系统、嗯应该是宏观)的讲解顺序与方式。
第一文主要简述了一下机器学习大致有哪些东西(当然远远不止这些),对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧,掐掉其他不太用得上我们的步骤,精练起来就4步(数据预处理,特征工程,训练模型,模型评估),其中训练模型则是我们的重头戏,基本上所有算法也都是这一步,so,这个最后写,先把其他三个讲了,然后,在结合这三步来进行算法的学习,兴许会好点(个人拙见)。
四、***【数据集成】
将多个数据源中的数据合并,存放于一个一致的数据存储中。
五、***【数据变换】
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。
六、***【数据归约】
数据挖掘时往往数据量非常大,在大量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩。
七、数据拆分
数据拆分:机器学习的数据集划分一般分为两个部分:
????????训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)
????????测试数据:用于模型评估,检验模型是否有效。一般占20%-30%
1、近似值
该处使用的url网络请求的数据。
2、内容
该处使用的url网络请求的数据。
3、思维方式
该处使用的url网络请求的数据。
4、根本课题
该处使用的url网络请求的数据。
1.1、嗡嗡嗡
嗡嗡嗡
1.2、十五万
嗡嗡嗡
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!