总结:通过对features进行归类和操作,让features更加符合traindata的需求;
1 feature和target的关係:特点是否重要,要看它和目标的关係,比如在一个綫性关係的模型中,它和target之间的关係应该是綫性的;lmplot是用来绘製迴归图的,通过lmplot我们可以直观地总览数据的内在关係;
2 创建新的feature:两种方案:
数学转换:new feature = f(old features)
统计: new feature = count(old features boolean) 注:参数是feature的bool值
3 联合和拆分features:
拆分: 比如Dates and times: 'Mon Sep 30 07:06:05 2013',对于有一定格式的数据,可以拆分之后并取得一些咨询,例子拆分之后可以得到月份,时间等;
联合:对于有关联性的feature可以联合起来;
分组:"the average income of a person's state of residence," 这裏就需要按照state来对收入进行分组;
4 Clustering With K-Means:用来分析数据的特性,是一种特点开发的技术;查看特点的离散分布;
5 Principal Component Analysis(PCA):Cluster是依据data的接近程度来分析feature的特性的,而PCA是根据数据的变化来芬妮下feature的特性的;两种用法:描述特点的技术和生成合成features;
可以用于:
处理冗余数据:儅数据冗余严重的时候,可以用来把这些数据的影响减少到最小(冗余的意思是很多都一样 ,资讯的变化接近于0);
处理异常数据:儅变化明显与原始features不同的时候,可以判断为异常数据;
减少噪音:调整信号和噪音的比例;
机器学习的算法难以处理高度相关的features,PCA可以把相关联的features转化成不相关的组合,这样就很容易处理了;
感想:创建新的feature可以让自己的traindata更有个体优势,加粗的部分都是我觉得很重要的部分;