大数据HCIE成神之路之数据预处理(6)——特征编码
2023-12-28 10:41:55
特征编码
1.1 独热编码
提问:什么是独热编码?
回答:独热编码是一种常用的数据编码方法,用于将分类变量转换为 二进制
的表示形式。它将每个类别表示为一个只包含 0和1
的二进制向量,其中每个类别对应一个维度,维度上的值为1表示该样本属于该类别,为0表示不属于该类别。
对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。
举例说明:
对于学历特征,可以将其取值 “小学”、“中学”、“本科”、“硕士” 和 “博士” 进行独热编码。下面是各个取值的独热编码示例:
"小学":[1, 0, 0, 0, 0]
"中学":[0, 1, 0, 0, 0]
"本科":[0, 0, 1, 0, 0]
"硕士":[0, 0, 0, 1
文章来源:https://blog.csdn.net/shaock2018/article/details/135233823
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!