机器学习(三) -- 特征工程(更新中)
系列文章目录
未完待续……
目录
前言
tips:这里只是总结,不是教程哈。
“***”开头的是给好奇心重的宝宝看的,其实不太重要可以跳过。
此处以下所有内容均为暂定,因为我还没找到一个好的,让小白(我自己)也能容易理解(更系统、嗯应该是宏观)的讲解顺序与方式。
第一文主要简述了一下机器学习大致有哪些东西(当然远远不止这些),对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧,掐掉其他不太用得上我们的步骤,精练起来就4步(数据预处理,特征工程,训练模型,模型评估),其中训练模型则是我们的重头戏,基本上所有算法也都是这一步,so,这个最后写,先把其他三个讲了,然后,在结合这三步来进行算法的学习,兴许会好点(个人拙见)。
一、特征工程简介
其实数据预处理和特征工程,两者并无明显的界限,都是为了更好的探索数据集的结构,获得更多的信息,将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理,特征工程是高级的数据预处理,也可以说这里的预处理过程是广义的,包含所有的建模前的数据预处理过程。(简单理解,就是数据预处理是数据本身的问题,如数据缺失,特征工程是为了更好的让数据进行机器学习,如进行降维)
为什么需要特征工程?
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。所以需要在特征上下功夫。
1、特征工程定义:
特征工程是使用一定技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。会直接影响机器学习的效果。
2、特征工程包含内容:
特征提取(特征抽取)、特征预处理、特征降维
(基本上==特征构建、特征变换、特征选择)
二、特征提取
1、定义
将任意数据(如文本或图像)转换为可用于机器学习的数字特征。
注:特征值是为了计算机更好的去理解数据。
主要分为字典特征提取(特征离散化)、文本特征提取、图像特征提取(深度学习再介绍)
特征提取API是
sklearn.feature_extraction
from sklearn.feature_extraction
2、字典特征提取
该
3、文本特征提取
该
三、特征预处理
1、定义
通过一些转换函数,将特征数据转换成更适合算法模型的特征数据的过程。
数值数据的无量纲化:主要有两种归一化、标准化
为什么要进行归一化/标准化?
特征的单位或者大小相差较大,或者某特征的方法相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征
2、归一化
该
3、标准化
该
四、特征降维
1、定义
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
降维的两种方式:特征选择、主成分分析(可以理解一种特征提取的方式)
2、特征选择
该
3、主成分分析
该
1.1、嗡嗡嗡
嗡嗡嗡
1.2、十五万
嗡嗡嗡
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!