pandas 套件中 sample 的使用 - 对数据集进行抽样或打散

函数:sample

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

参数说明

n, frac:设定要抽样出的笔数,两者择一使用。预设值:frac=None, n=1 (抽出一笔)n (int):要抽出的笔数frac (float):要抽出的比例,0~1replace:取出后是否放回预设值:False (取后不放回)replace=True (取后放回)weights:每笔资料被抽出来的权重。预设值:Nonerandom_state:随机的状态。(白话文就是,当random_state设定同一个数值时,同一群资料被随机抽出来的结果会一样)axis:要根据哪一个轴来抽样:预设值:None0:index1:columns

应用情况

抽样ex. 5000笔资料中,要随机抽出300笔打散ex. 要把1000笔资料随机打散
shuffle_df = df.sample(frac=1).reset_index(drop=True)

补充说明:reset_index(drop=False)

预设值:False (原本当作index的栏位新增成一个新栏位,而当前的index由一组新的序号来表示)drop=True (原本当作index的剔除掉,当前资料的index由一组新的序号来表示)

如果有任何问题欢迎留言讨论,文中错误的地方还请不吝指正,谢谢!

References

Documentation: pandas.DataFrame.sampleDocumentation: pandas.DataFrame.reset_index

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章