机器学习：Feature Engineering 课程学习总结-58码农网

总结：通过对features进行归类和操作，让features更加符合traindata的需求；
1 feature和target的关係：特点是否重要，要看它和目标的关係，比如在一个綫性关係的模型中，它和target之间的关係应该是綫性的；lmplot是用来绘製迴归图的，通过lmplot我们可以直观地总览数据的内在关係；
2 创建新的feature：两种方案：
数学转换：new feature = f(old features)
统计： new feature = count(old features boolean) 注：参数是feature的bool值
3 联合和拆分features：
拆分：比如Dates and times: 'Mon Sep 30 07:06:05 2013'，对于有一定格式的数据，可以拆分之后并取得一些咨询，例子拆分之后可以得到月份，时间等；
联合：对于有关联性的feature可以联合起来；
分组："the average income of a person's state of residence," 这裏就需要按照state来对收入进行分组；
4 Clustering With K-Means：用来分析数据的特性，是一种特点开发的技术；查看特点的离散分布；
5 Principal Component Analysis（PCA）：Cluster是依据data的接近程度来分析feature的特性的，而PCA是根据数据的变化来芬妮下feature的特性的；两种用法：描述特点的技术和生成合成features；
可以用于：
处理冗余数据：儅数据冗余严重的时候，可以用来把这些数据的影响减少到最小（冗余的意思是很多都一样，资讯的变化接近于0）；
处理异常数据：儅变化明显与原始features不同的时候，可以判断为异常数据；
减少噪音：调整信号和噪音的比例；
机器学习的算法难以处理高度相关的features，PCA可以把相关联的features转化成不相关的组合，这样就很容易处理了；

感想：创建新的feature可以让自己的traindata更有个体优势，加粗的部分都是我觉得很重要的部分；

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

HBO Max vs.Netflix：当你负担不起两者时如何选择

课内笔记整理---作业系统实务(资安相关篇)

excel vba捞网页数据问题

热门文章

1机器学习：Feature Engineering 课程学习总结

2c++ 打包执行档

3App Inventor 学习笔记 4 : 读取dropbox与云端硬碟的csv档(google drive)

4从零开始用github架设静态网站入门(5) - 部署到Github Pages

5Install Filebeat