如何对短信日志数据记录做数据分类?

1

感请:

机器学习按性质来看,可以分为三大类:

  • 分类(监督)
  • 回归(监督)
  • 聚类(半监督)
    垃圾短信通常用已标记的短信数据,对未知的短信进行判断,其属于机器学习中的分类性质。
    在Python中有很多机器学习的模块,比如Sklearn、Tensorflow、Caffe等,可以很方便地调用一些机器学习的算法。

垃圾短信识别

从技术方法上可以使用朴素贝叶斯机器学习模型对短信进行分类:

数据集用的常见的80w条带标签的中文短信,下载链接https://github.com/hrwhisper/SpamMessage/blob/master/data/%E5%B8%A6%E6%A0%87%E7%AD%BE%E7%9F%AD%E4%BF%A1.txt

1:数据处理先看看数据的样子:

import pandas as pd data = pd.read_csv(r"H:RubbishMessagedata80w.txt",encoding='utf-8',sep=' ',header=None) data.head()

2

重点是你要干甚!

3

重点是2000万条数据记录

4

抓取短信内容关键字,按关键字分类

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章