1
感请:
机器学习按性质来看,可以分为三大类:
- 分类(监督)
- 回归(监督)
- 聚类(半监督)
垃圾短信通常用已标记的短信数据,对未知的短信进行判断,其属于机器学习中的分类性质。
在Python中有很多机器学习的模块,比如Sklearn、Tensorflow、Caffe等,可以很方便地调用一些机器学习的算法。
垃圾短信识别
从技术方法上可以使用朴素贝叶斯机器学习模型对短信进行分类:
数据集用的常见的80w条带标签的中文短信,下载链接https://github.com/hrwhisper/SpamMessage/blob/master/data/%E5%B8%A6%E6%A0%87%E7%AD%BE%E7%9F%AD%E4%BF%A1.txt
1:数据处理先看看数据的样子:
import pandas as pd data = pd.read_csv(r"H:RubbishMessagedata80w.txt",encoding='utf-8',sep=' ',header=None) data.head()
2
重点是你要干甚!
3
重点是2000万条数据记录
4
抓取短信内容关键字,按关键字分类