什么是自然语言处理?就是对一个词或是几段话进行处理,从而做到一种“理解”。
为什么说自然语言处理是人工智能的核心呢?最根本的原因在于——自然语言处理是语音交互的关键,是体现“智能”的核心。细细讲来,主要有两个原因:
首先,语音交互是当前最为主流的人机交互途径。
语音助理、智能音箱、智能机器人、语音搜索……我们可以清楚地感受到,语音交互已然成为了智能时代人机交互的主流途径。
在人工智能时代,我们全方面地扩展计算机的触角,我们希望它能像我们人类一样能听、能看、能动、能说,因此我们衍生出语音识别、计算机视觉、智能机器人、以及自然语言处理等研究方向。相对于能听、能看、能动,能说也就是拥有自然语言是我们人类区别于其他动物的最重要特征之一。语言是人类最重要的交通工具,也是我们思维的载体,其丰富多彩又变化多端。所以对自然语言的处理和理解,变得尤为重要。
目前,对自然语言的研究可以分为自然语言理解和自然语言处理。其中自然语言理解,就是让计算机更好的理解语言,这里的理解包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解;而自然语言生成,就是让计算机生成人类能够理解的语言,应用的场景有文本生成、自动文摘等。
下面介绍几种自然语言处理的典型应用:
非科班出身,自学撸出中文分词库HanLP,在GitHub标星1.5万,成为最受欢迎的自然语言处理项目。他将学习经验总结成书《自然语言处理入门》,帮助小白快速入门NLP。
针对题主的提问,HanLP自然语言处理类库的开发者何晗的经验很值得借鉴。
截至 2019 年 11月初,HanLP项目在 GitHub Star 数达到了 15.6 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP。
贴上GitHub地址:https://github.com/hankcs/HanLP
何晗在开发这款 NLP 工具包时,还是上海外国语大学一名日语专业的大二学生,HanLP项目脱胎他大学时接的一份兼职,何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家。如今,正在攻读CS博士的他(研究方向:句法分析、语义分析与问答系统),结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书,得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐。
从着手开发HanLP,到HanLP达到工业使用的水准,何晗对自学NLP有深刻的见解。如果用一句话来总结,那就是:自顶而下,从工程去切入,由应用层往下面的基础层拓展,递归补充理论知识,才能事半功倍。以下入门NLP的建议,皆来自于何晗的经验,分享给像题主这样的初学者,希望能对大家有所启发。
自然语言处理是人工智能的核心,这样的说法其实欠妥,人工智能技术有较多的分类和不同的领域,自然语言处理只是其中之一。
但是毫无疑问的是:当前,自然语言处理是人工智能重要的领域之一。
比尔盖茨曾说过:“语言理解是人工智能皇冠上的明珠。”最主要的是在于,自然语言处理是人工智能从感知到认知的重要一步。
人工智能分为几个阶段,计算智能,感知智能,认知智能。而认知只能主要集中在语言理解,一旦自然语言处理有所突破的话,会大力推动认知智能的发展,从而推动整个人工智能领域技术的落地。
这个我在2008年开发微信时就研究过,利用谐音原理是最好的方案!不过当时还是有不少技术难点没有攻克,现在微信语音对讲是并不是最优选项,现在微信已经很成功了不想再研究了!自然需要并非人工智能的核心,只是难度很大一点而已,人工智能的真正核心在于可控智能性!无论多么智能对不对人类制造伤害!
自然语言系统作为天擎引能计划与擎天启能工程的总称,是当今世界高端技术论坛竞争与经济交流的焦点和社会、科学探索研究的战略思想前沿和理论指导生产与实践的主线和关键,我们有没有必要建立一个自然语言论坛来进行广泛宣传和指导实践,生产与科研,以扩大我们的自主知识产权和它在国际高层论坛上的战略主导权和发言权是建设网站的关键技术和经验。
自然语言处理的目的是处理文本信息,当然了语音,图片,视频其实都是可以转换成文字的(图片合视频可以通过语言描述进行转换,这也是当前多模态训练的流行之处)。那么什么是处理文本呢?通常来说处理文本是指获取文本的特征,信息,以及语义和语义关系,因为这是我们从本质上理解文不可或缺的东西。如果我们让理解了文本,理解了自然语言,机器可以做什么呢?1. 机器可以和人类进行沟通对话。2. 可以听懂人类的指令。3.可以将指令转换成具体的操作行为。4. 甚至可以表达自己的思想。
而人类之所以称作高级动物就在于我们可以有深度的沟通,和思考,创建文化和历史。机器一旦有了语言的组织和表达能力,也就可以做到自己独立的理解和思考问题了。对于人工智能来说,真正独立的思想就是机器未来的核心。当然了机器具备思想到底会不会给人类带来危害,这就是另外一个话题了。
自主学习知识
有人可能会问,独立思考就思考,为什么需要理解文本呢?其实人类所畅想的人工智能,就是需要它能够像人类一样可以自主学习知识,而知识无非是通过语音,文字和视频进行传播的,这三种流信息其实都是可以转换到文字上面或者说可以和文本绑定的。我们希望机器能够做到抽取信息,理解信息,吸收信息,从而组织信息,表达信息。这些都属于自然语言的领域,例如 分词,实体识别可以抽取信息,关键词,语义解析可以帮助理解文本,而文本生成,机器翻译等可以去生成文本等等。总而言之,信息的关键在于文本,文本的首要在于语义,而智能的核心在于让机器进行语义理解,我认为我的有理有据抓住了要害。是个不可多得的好答案。从自然规律角度,先提问如下,是语言表达规律基础,还是物理规律基础?第二个问题是从伏羲则河洛创八卦开始,每个人应用表达是什么方式。即人→表达工具系统→表达内容,三位一体的数学模式。理清这些,自然明白自然语言处理是人工智能的核心。
自然语言相比图片、语音来说,更难被机器识别
与其说自然语言处理是人工智能的核心,不如说自然语言处理是人工智能的核心技术之一。自然语言处理是人工智能的核心,但是不代表人工智能的核心就只有自然语言处理了。其实,对于如今来说,不能说是自然语言处理了更准确的应该是自然语言理解(自然语言处理的范畴大于自然语言理解)。只不过自然语言在处理的时候,相对于语音和图片来说更复杂一点,因为自然语言是一种非常非常抽象的东西,就算是我们人类在也会有看不懂理不清文字含义的时候,更不用说计算机了,所以自然语言理解是人工智能的一大挑战,如果能够让计算机像人类一样去理解文字了,何愁机器不智能呢?对于图片或者语音,它们的图谱信号或者像素信号可以直接作为输入喂给机器,而对于自然语言来说,是需要进行转换的,也就是我们常说的词向量,一种实数向量,这样才会被机器识别,但是经历了转换操作,就会有误差的存在。
也可以从人工智能的角度来思考这个问题:
人工智能的发展历程
人工智能是一种数据驱动的技术,是因为目前互联网的发展,到达了一个信息爆炸时代,人们就会想法设法地去充分利用这些数据,在开发利用这些数据的过程中,人工智能随之火起来。
自然语言处理从业者,之所以这么说主要是因为语言是人类交流最方便最有效和效率最高的方式,如果人工智能的应用都可以用语言交流来进行操作当然是最理想的方式了,自然语言处理是实现该步骤的关键技术所以说是核心了,如何让计算机理解人类的语言也是计算机所处理的内容所在,当然自然语言处理在句法,语义,长距离指代,机器翻译等方面还有很长的路要走