大家使用Pandas DataFrame分析不外乎就是使用内建的describe(),如果要其他分析就需要再手动进行,再利用绘图package视觉化。
今天分享一个好用套件,pandas-profiling
能够使用DataFrame自动生成详细的数据报告,其中包括Dataset基本资讯、变数型态、栏位警告(常数、相依)、变数分析(统计、分布、极值),比起Describe 要详细许多。
快速安装pip install pandas-profiling
以sklearn 的波士顿房价资料为例
载入所需套件
import pandas as pdimport matplotlib.pyplot as pltimport pandas_profiling as pdppd.set_option('display.max_columns', 500)
载入资料,并利用pandas_profiling 进行详细分析
from sklearn.datasets import load_bostondata = load_boston()df_boston = pd.DataFrame(data = data.data , columns= data.feature_names)pdp.ProfileReport(df_boston)
也可以将report 档案汇成html
pfr = pdp.ProfileReport(df_boston)pfr.to_file('report.html')