NLP真的有效,还是忽悠?

1

首先,NLP的定义有很多,小编在这里将其定义为自然语言处理

NLP(自然语言处理)属于目前AI领域的一块重要分支,而自然语言处理的基础是分词,简单的来说,是将句子段落的每个词进行划分,在英文语境中是自带分词处理的(英文的空格键),在中文语境下,公认的分词方法是将所有词的状态值设置为(B, M, E, S),按照开始字(B),中间字(M),结束字(E),单字成词(S)。例如我们将“小明硕士毕业于中国科学院计算所”这个句子,通过中文分词得到的结论是BE/BE/BME/BE/BME/BE/S,也就是小明/硕士/毕业于/中国/科学院/计算/所。

那么NLP的实际用处有哪些呢:

首先最实用的就是机器翻译问题,通过NLP,未来的机器翻译能力的准确度将越来越高,百度翻译目前已经在逐渐尝试NLP在机器翻译的可行性。其次是人机对话,通过NLP,机器和人的对话能变得更加的自然流畅,同时更加具有人性情感分析,通过更加简单的人机交流,机器未来将有能力实现情感分析,通过爬取网络上的大量数据,在进行清洗,最终将其进行情感分析,能够让我们有效的精准化进行某些行为。如果你是一名淘宝店主,通过爬取数据加以分析,能够得出的结论可以是,用户目前喜欢什么,为什么喜欢,未来会喜欢什么,竞争对手用户的忠诚度等一系列传统只能够人工识别的情感问题。

2

想要智能类产品真正听懂你在讲什么,那就一定离不开NLP技术。

在《AI时刻》第7期节目中有提到NLP技术。

NLP (Natural Language Processing 自然语言处理) 是人工智能(AI)的一个子领域。整个NLP领域大体分为三个不同的技术层面。第一个:闲聊(Chit Chat),第二个:问答(Q&A),第三个是面向任务型的NLP(Task Oriented)。

比如说一个用户跟机器人说,我觉得德国队是足球踢得最好的一个国家,非常不错。机器人看似给出了一个非常智能的,它说我觉得不对,应该是阿根廷。表面上看似聊得很好,事实上机器人其实根本不知道你说的话的意思,也并不知道自己在说什么。它只是前期对人类对话进行了大量的数据获取,通过统计学的规律来找到规律,发现对话人说了上面一句话的时候,把这些语言和词汇堆砌起来(拼到一起),最有可能是对A的一个回复,这是统计学上的一个大概率的能够满意回复它的这样的情形。但是这样是远远不够的。要想让机器人理解你所说的话,并且形成自己的逻辑思考,最终再去形成有效的沟通。这就要依托NLP技术的快速发展。

3

NLP研究背景

NLP到底是不是忽悠,我们首先要看NLP研究的目的在哪里。随着人工智能的发展,人类急需一种能够实现人机交互的方法。我们的世界大量充斥着没有结构化的数据,而是非结构化的数据,例如我们人类交流的话语,但是这些对于机器而言是无法理解的。NLP 的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距[1]。所以自然语言处理(NLP)的研究显得尤为重要和迫切。

NLP研究成果

那么NLP现在的成果有哪些以及是否已经初步具备了实际应用所需的能力,这才是我们关注的,也就是它是否还在忽悠。下面简单列举几个NLP应用的领域:

文本分类(以fastText为例)

fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在文本分类任务中fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够在10分钟之内训练10亿词级别语料库的词向量,能够在1分钟之内分类有30多万类别的50多万条句子[2]。

情感分析

4

nlp不是忽悠,它是非常牛逼的技术,学好之后给人带来巨大的改变,只不过国内的老师不行,或者将nlp用在错误的方向,所以找到厉害的导师很关键,国内除了李中营,张国伟,安小明之外,其他基本上是半吊子出身,要学就跟他们学很不错!

5

通过NLP这三个字母的本意,你将会了解如何使用NLP的基本策略。N是指Neuro(神经,也被译为身心)。身心是指个人的身心状态与关系,我们可以通过改变身体来影响内心世界,也可以反过来通过内心的改变来影响我们的身体。


利用NLP,将可以提升你内心力量的方法,帮助你更好地掌控自己的人生。比如,很多人会说:“天气好心情好,天气不好心情就不好”,此时,天气决定了我们心情的好与坏;但如果略做思考:天气不好的时候,我如何也能心情好?当你从这一角度思考时,天气对你的影响就会大幅降低。这个简单的转换,在NLP的技巧中叫作“换框法”,在后面的章节中我会和你做更具体的分享。


6

不管什么NLP,都需要落地场景,我们用校园这个场景举例:

我们在校园落地大数据产品,大量使用了自然语言处理技术,在使用过程中发现越接近场景,算法就越需要优化来适应这个环境特点。一开始我们并没有在乎这些细节,因为网络上开放的“分词词库”,“情感词库”很多也很成熟,我们直接调用就可以得到不错的结果。直到有一天我们发现,我们的机器漏掉了非常多的关键词汇,而这些漏掉的才真正的重要,就像错过了才知道后悔一样。而且很多时候,我们的机器会犯下一些愚蠢错误,就像“A食堂比B食堂贵,所以我选择这家”,机器就无法理解到底选择的是哪家。

于是,我们潜下心来研究符合校园特点的自然语言处理技术,试图让机器更加智能,让它能够理解我们的语言,甚至捕获到我们”校园“这个语境下的“转意”和“情感”。我们一直向着这个方向努力,支撑这个发展的三种理论,即摩尔定律、深度学习和数学模型。而奠基所有这些的基础,就是我们常提到的“校园大数据”。

有了校园大数据,特别是言论数据,就有了言论模型,我们基于大量的数据,分析出特点,构建符合校园特征的词库用于分词,比如在校园中,考研与升学、挂科与不及格都可以看作是近义词,因为他们在纯数学算法中的距离更近。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章