phpSplit php中文分词库
phpSplit 是一个基于php开发的中文分词库
居于Unicode编码词典的php分词器
只适用于php5,必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译,本类里提供了 MakeDict() 方法 简单操作流程: SetSource -> StartAnalysis -> GetResult 对主词典使用特殊格式进行编码, 不需要载入词典到内存操作使用
首先 确保使用php为5.4+ 安装composercomposer install
require __DIR__ .'/vendor/autoload.php'; $split = new phpSplitSplitSplit(); var_dump($split->simple("您好 phpSplit"));
array(3) { [0] => string(0) "" [1] => string(6) "您好" [2] => string(8) "phpSplit" }
分词结果后缀说明
名词n、 时间词t、 处所词s、 方位词f、 数词m、 量词q、 区别词b、 代词r、 动词v、 形容词a、 状态词z、 副词d、 介词p、 连词c、 助词u、 语气词y、 叹词e、 拟声词o、 成语i、 习用语l、 简称j、 前接成分h、 后接成分k、 语素g、 非语素字x、 标点符号w
同事增加了以下3类标记 *专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz; *语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等; *动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)
合计约40个左右。
欢迎大家完善
版权声明:
1、该文章(资料)来源于互联网公开信息,我方只是对该内容做点评,所分享的下载地址为原作者公开地址。2、网站不提供资料下载,如需下载请到原作者页面进行下载。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考学习用!
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。