自然语言处理概述

2023-05-16

文章目录

    • 本文系书稿选登。
    • 2.1 自然语言处理概述
      • 2.1.1 什么是自然语言处理
      • 2.1.2 自然语言处理的任务

已剪辑自: https://mp.weixin.qq.com/s/hSTkA2ffa1YWCoZOgQdrBQ

本文系书稿选登。

2.1 自然语言处理概述

自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能和语言学的交叉学科,其范畴广泛,比如:语音合成、分词、词法分析、问答系统、机器翻译、情感分析等等。

2.1.1 什么是自然语言处理

对于开发者而言,至少掌握了一种自然语言,也至少掌握了一种计算机编程语言。自然语言是人与人之间用于相互分享信息的语言,比如在程序中的注释,都是以自然语言的方式说明相应代码的含义,以便于其他人理解;编程语言是我们用以告诉计算机应该做什么的“命令”,一般是通过编译器或解释器转化为“机器能理解”的“机器语言”。

在人与人之间通常信息交流中,不需要将自然语言“翻译”成“机器语言”,但是,在解决某些场景的任务时,如果要将计算机作为解决问题的工具,则需要让“机器”能理解“自然语言”。

例如:在对《红楼梦》这部名著研究上(称为“红学”),对于其前八十回和后四十回是否是同一个作者,在“红学”界曾经有争论。以胡适、俞平伯、周汝南等研究者为代表的一派认为前八十回为曹雪芹创作,后四十回是高鹗续写;而鲁迅、林语堂、王国维、白先勇等研究者则认为整部书是曹雪芹一人写就。可以说,文学家是用“文学方法”对《红楼梦》进行研究,得出上述论断的。如果让工程师来研究这个命题,一种简单的方法就是对《红楼梦》文本中的关键词进行聚类,如果前八十回和四十回的关键词汇所在的类别,有比较明显区分,那么就可以判断是两个作者(代码参考:https://nbviewer.org/github/yunshuipiao/sw-kaggle/blob/master/experimental/sidamingzhu/01.ipynb),从而为“作者是谁”的纠纷提供了科学证据。类似的工作还有判断戏剧《亨利八世》的作者(参考:https://arxiv.org/pdf/1911.05652.pdf),也是用“技术”作为工具,为结论提供证据。

在上述示例中,“计算机”是人研究著作中的自然语言的工具,须让“机器”读懂自然语言,这个过程就是自然语言处理(NLP)。

以文学作品为载体的自然语言,毕竟是少量的,更大量的自然语言以网页、社交媒体、电话、邮件、广播以及各种日常交谈等媒介和方式、途径传播,据 IBM 研究,2017年的时候,每天产生 2.5 艾字节(艾字节,即:Exabyte,缩写为 EB,是信息的计量单位, )。显然,现如今应该比这个数字还大。而这些自然语言,多数是以非结构化的文本或语音形式存在,如何理解和处理这些海量的非结构化数据,是 NLP 的核心目标之一。例如针对特定问题的基于社交媒体的舆情分析,就是要通过对社交媒体上的大量文本和音、视频中的自然语言进行分析,从而得出或者帮助相关人员得出某些结论。

有很大可能,读者已经在使用日常生活中使用到了 NLP 技术,比如用翻译软件将一段中文翻译为英文,这背后就是 NLP 技术的支撑。在这里,我们可以用一种简单的方式,初步体验 NLP 技术。

在本地计算机上安装如下两个 Python 第三方模块。

  1. PyAudio:这是一款适用于多种操作系统的音频 I/O 库,通过它能够在 Python 程序中播放和记录音频信息。

    • 在 Windows 系统上,执行如下安装指令:

      pip install pyaudio
      
    • 在 MacOS 系统上,执行如下安装指令:

      brew install portaudio
      pip install pyaudio
      
    • 在 GNU/Linux 系统上,首先安装 portaudio19-dev ,方法如下:

      sudo apt-get update -y
      sudo apt-get install -y portaudio19-dev
      

      并且已经配置了 Python 3 开发环境,而后执行如下指令安装:

      pip install pyaudio
      

      也可以用下述指令直接安装,但不保证是最新版:

      sudo apt install python3-pyaudio
      
  2. SpeechRecognition:这是一款实现语音识别的库,支持多种引擎,提供了在线和离线两种模式。安装方法如下:

    pip install SpeechRecognition
    

以上模块安装完毕,创建一个 Python 程序(此处命名为 speech.py ),该程序代码如下:

#coding:utf-8

import speech_recognition as sr

r = sr.Recognizer()

with sr.Microphone() as source:
    print("Talk")
    audio_text = r.listen(source)
    print("Time over, thanks")
    
    try:
        print(f"Text: {r.recognize_google(audio_text)}")
    except:
        print("Sorry, I did not get that.")

执行此程序,并在出现提示语 Talk 的时候,对着计算机的话筒说一句简短的话(仅限于说英语,这是由所用模块决定的) ,比如我在测试中说的是 What's your name ,而后程序就会把我说的这句话(语音)转化为文本,并打印出来。

code % python speech.py
Talk
Time over, thanks
Text: what's your name

通过上述示例,初步体验到了 NLP 技术,特别是使用有关库和模块,自己也能完成有关技术的开发。诚然,自然语言处理所要解决的问题还很多,下面就具体介绍。

2.1.2 自然语言处理的任务

在实际的生活、生产等领域,NLP 能够完成的或者我们希望 NLP 完成的的任务有很多种,下面列出几项:

  • 分词(Tokenization):一般认为,词是研究一个句子所表达含义的最小单位(即所谓最小“粒度”)。不同的自然语言,分词的难易程度不同。对于英文,会用空格区分句子中的词,如“I am an old coder”。但是,中文则不然,比如本书中的中文内容,每个字和每个字之间并没有天然的分隔符,更何况,不同的划分结果,还会出现对句子含义的不同理解。例如“打死老虎”,如果是“打死/老虎”,那么就显示了“武松”的气概;但在鲁迅先生的《坟·论“费厄泼赖”应该缓行》一文中,须为“打/死老虎”,才与后文的“装怯作勇,颇含滑稽,虽然不免有卑怯之嫌,却怯得令人可爱。”相匹配。故,中文分词有难度。
  • 词义消歧(Word-sense Disambiguation,WSD):同一个词在不同句子中,会有不同的含义,这种现象在各类自然语言中都比较常见,比如“秋后算账”和“会计正在算账”中的“算账”,在两个句子中有不同的含义。WSD 的任务就在于识别词的正确含义。
  • 命名实体识别(Named Entity Recognition,NER):所谓命名实体,是指可以用专有名词(或名称)标识的事物,在句子中,一般包括人名、地名、机构名、专有名词等,也包括时间、数字等。NER 的任务就是将这些词从句子中抽取出来。例如“《机器学习数学基础》是电子工业出版社2022年出版的”,其中的“机器学习数学基础”(作品)、“电子工业出版社”(组织机构)、“2022年”(时间)就是这句话中的命名实体。NER 是信息检索和知识表示的基础。
  • 词性标注(Part-of-Speech(PoS)tagging):即用一个表示词性的标签标记句子中的词,如名词、动词、形容词、副词、介词等。
  • 文本分类(Text Classification),也又称为“文本标注”(Text Tagging):指在给定的分类体系中,将文本划分到某个或某几个类别中。被分类的文本可能是短文本,例如句子、标题、商品评论等等;也可能是长文本,如文章等。分类体系一般是人为规定,比如新闻类别:政治、体育、军事等;商品评论的情感倾向:正向、负向;等等。
  • 自然语言生成(Natural Language Generation,NLG):是指用大量文本组成的语料库训练深度学习模型,而后用该模型自动生成新的文本,比如“自动写新闻”、“聊天机器人”等,都是 NLG 的典型应用。
  • 问答(Question Answering, QA):自动地为客户解答有关问题,是 NLP 在商业上的一个重要任务。一个智能化的 QA 系统涉及 NLP 的很多方面内容,比如信息检索、知识表示等,甚至于也与特定的商业内容息息相关。这也说明,开发智能化程度较高的 QA 系统是一项具有挑战性的工作。
  • 机器翻译(Machine Translation,MT):由于操不同自然语言的人之间分享信息的需要,机器翻译也就很早即成为了科学家们的研究对象。自从 1954 年成功将 60 句俄文自动翻译为英文之后,研究者通过不同方法提升机器翻译的效果,并降低成本,直到现如今被普遍采用的在线翻译工具。当然,如今的 MT ,距离“如同真人一样”的目标仍有很大的发展空间。

以上几项,并非 NLP 的全部任务。一个能够协助人完成日常任务的 NLP 系统,往往是多项任务的组合。比如通过语音向电商平台的智能客服询问:请给我推荐一本不错的深度学习的书。而后智能客服也用语音回复:《飞桨:深度学习入门与实战》是读者反应很好的一本书。这个问答中至少包含了“语音和文本的相互转换”、“语义和情感分析”、“智能问答”等任务。

特别告知:我的个人网站资料已经都转移到 github 仓库,地址:https://github.com/qiwsir/,请诸位想办法访问。在其他地方发布的内容,均为权宜之计,可能不会及时更新。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

自然语言处理概述 的相关文章

  • SkyEye:航空发动机控制系统仿真

    已剪辑自 https www digiproto com news 212 html 航空发动机 xff08 aero engine xff09 是一种高度复杂和精密的热力机械 xff0c 作为飞机的心脏 xff0c 不仅是飞机飞行的动力
  • 基于功能安全的车载计算平台开发:软件层面

    已剪辑自 https mp weixin qq com s SIBvH8u vCk6W28KrPBmA 车载智能计算平台作为智能汽车的安全关键系统 xff0c 软件层面的安全性至关重要 由于车载智能计算平台功能丰富 xff0c 应用场景复杂
  • 软件和硬件中的调用

    文章目录 1 概述 2 1 程序进程内的调用 xff1a 函数调用 2 2 程序进程间的调用 xff1a IPC 2 3 远程程序调用 xff1a RPC 2 4 远程调用REST 3 硬件 调用 3 1 综述 总线模型 3 2 片内的总线
  • 软件和硬件之间的数据交互接口

    已剪辑自 链接 编者按 软件和硬件 xff0c 既相互依存又需要某种程度上的相互独立 通过软件和硬件之间的接口把两者连接在一起 软硬件接口 xff0c 有很多含义 xff1a 比如指令集是CPU软件和硬件之间的接口 xff1b 比如一些硬件
  • 硬件定义软件?还是,软件定义硬件?

    文章目录 1 软件和硬件 1 1 软件和硬件的定义 1 2 硬件定义软件 和 软件定义硬件 的定义 1 3 CPU xff0c 软件和硬件解耦 1 4 CPU的软硬件定义 2 硬件定义软件 2 1 系统从软件逐步到硬件 2 2 硬件架构决定
  • Matlab下多径衰落信道的仿真

    衰落信道参数包括多径扩展和多普勒扩展 时不变的多径扩展相当于一个延时抽头滤波器 xff0c 而多普勒扩展要注意多普勒功率谱密度 xff0c 通常使用Jakes功率谱 高斯 均匀功率谱 多径衰落信道由单径信道叠加而成 xff0c 而单径信道中
  • 硬件接口和软件接口

    文章目录 硬件接口IDESCSISATA光纤通道游戏设备RAID卡USBMD设备MP3视频音频 软件接口Java里的接口面向对象的接口 聊聊软件接口1 什么是接口2 诞生3 早期 xff08 1950 1970 xff09 4 快速发展 x
  • 有关C语言,定时器,周期任务的一些文章汇总

    测试C语言中打印一句 hello world需要耗费多少时间 C C 43 43 开源库 适合嵌入式的定时器调度器 C语言实现的多线程定时器 C语言操作时间函数 xff0c 实现定时执行某个任务小程序 C语言实现任务调度与定时器 Linux
  • SCADE简单了解

    随着新能源三电 智能驾驶等新技术的应用 xff0c 汽车中衍生出很多的安全零部件 xff0c 如BMS VCU MCU ADAS等 xff0c 相应的软件在汽车中的比重越来越大 xff0c 随之而来的安全性 可靠性要求也越来越高 ANSYS
  • 冯诺依曼体系结构与操作系统

    文章目录 详解冯诺依曼体系结构与操作系统前言1 简要背景介绍2 五大部件介绍3 细节解释4 举例理解冯诺依曼机中数据走向 二 全面认识操作系统1 操作系统的概念2 计算机系统 比对 银行系统3 深入认识 管理 xff1a 5 操作系统存在的
  • ADAS系统安全架构设计及安全等级的分解

    已剪辑自 https mp weixin qq com s PaFQDUR iOnEeueYQ82m w 笔者从事功能安全领域工作八年有余 xff0c 结合个人经验分享一下对系统安全架构设计的理解 xff0c 希望能够解决部分同行对于安全架
  • 汽车电子电气架构演进驱动主机厂多重变化

    已剪辑自 https mp weixin qq com s P56MaFODVc eZ4JEOVJvfA 汽车电子电气架构 xff08 EEA xff0c Electrical Electronic Architecture xff09 把
  • 编写可移植C/C++程序的要点

    以前做过两年C C 43 43 程序移植工作 xff0c 从Win32平台移植到Linux平台 大约有上百万行C C 43 43 代码 xff0c 历时一年多 在开发Win32版本时 xff0c 已经强调了程序的可植性 xff0c 无奈Wi
  • 智能座舱域控制器技术发展趋势分析

    已剪辑自 https mp weixin qq com s ajmpg7ThTUBerLvb2Bng9g 提到座舱域控制器用的主控SoC芯片 xff0c 大家第一个会想到应该就是高通的SA8155P 目前 xff0c 在主机厂新上市的中高端
  • 一个单片机驱动LCD编程思路

    文章目录 LCD种类概述TFT lcdCOG lcdOLED lcd 硬件场景预备知识面向对象驱动与设备分离 LCD到底是什么LCD驱动框架代码分析GUI和LCD层驱动IC层接口层总体流程 用法和好处字库声明 已剪辑自 https mp w
  • TinyFlashDB:一种超轻量的可纠错的通用单片机Flash存储方案

    文章目录 一 TinyFlashDB设计理念二 TinyFlashDB使用示例三 TinyFlashDB API介绍四 TinyFlashDB设计原理五 TinyFlashDB移植和配置六 移植到STM32单片机 已剪辑自 https mp
  • VR游戏交互开发的一些体验

    VR游戏交互开发的一些体验 本文主要写Unity开发手游过程中VR交互输入控制的一些浅薄的经验交互方面 xff0c 头控和视线按钮依然较为主流 xff0c 可以获得传感器数据来获得输入除了实体按钮输入之外还可以探索其他交互方式 xff0c
  • FTP、FTPS和SFTP的简介与区别

    FTP FTPS和SFTP的简介与区别 参考链接 xff1a https blog csdn net Mr Fan97 article details 119539189 FTP FTPS和SFTP简介 FTP FTP 即 文件传输协议 x
  • 基于功能安全的车载计算平台开发:硬件层面

    作为车载智能计算平台功能软件与系统软件的载体 xff0c 硬件的失效可能直接导致功能软件输出不可信任的结果 xff0c 从而违背安全目标 由于硬件故障在硬件生命周期中发生时间的随机性 xff0c 在通过改善流程降低系统性失效的同时 xff0

随机推荐

  • 基于功能安全的车载计算平台开发:系统层面

    相对于功能安全概念阶段 xff0c 系统阶段更专注于产品的详细设计 xff0c 涉及系统工程 安全工程和架构设计等不同技术领域 同时 xff0c 系统阶段也经常扮演着供应链上 下游功能安全的DIA交互阶段 xff0c 是功能安全中非常重要且
  • 神器必会!特别好使的编辑器Source Insight

    已剪辑自 https mp weixin qq com s nA9VJeMjC4gDpDSI8r 2FA Source Insight xff08 以下简称SI xff09 是世界上最好的编辑器 xff0c 说这句话不知道会不会出门被打呢
  • QT-GUI应用程序设计基础

    这里有一个容易搞混的点 xff0c 那就是widget h中的命名空间中的类Widget和在该文件中定义的类Widget不是同一个类 这其实也是很好理解的 xff0c 命名空间的作用其实就是将变量和类型的作用范围给控制起来 xff0c 这样
  • QT中怎么设置定时器/周期任务/定时触发任务

    Qt中定时器的使用有两种方法 xff0c 一种是使用QObject类提供的定时器 xff0c 还有一种就是使用QTimer类 其精确度一般依赖于操作系统和硬件 xff0c 但一般支持20ms 下面将分别介绍两种方法来使用定时器 QObjec
  • C语言Socket编程,实现两个程序间的通信

    文章目录 server和client通信流程图实现两个程序间的通信1 服务端server2 客户端client3 怎么运行呢 xff1f 4 重写代码 已剪辑自 https www cnblogs com fisherss p 120851
  • 基于UDP的服务器端和客户端

    文章目录 再谈UDP和TCP基于UDP的服务器端和客户端UDP中的服务器端和客户端没有连接UDP服务器端和客户端均只需1个套接字基于UDP的接收和发送函数基于UDP的回声服务器端 客户端 再谈UDP和TCP 已剪辑自 http c bian
  • Windows下的socket演示程序及加载DLL

    Windows下的socket演示程序 已剪辑自 http c biancheng net view 2129 html 上节演示了 Linux 下的 socket 程序 xff0c 这节来看一下 Windows 下的 socket 程序
  • QT文件操作

    文章目录 QFile文件操作QFile 43 QTextStreamQFile 43 QDataStream 已剪辑自 http c biancheng net view 9430 html 很多应用程序都需要具备操作文件的能力 xff0c
  • C语言文件操作

    文章目录 C语言文件操作C语言中的文件是什么 xff1f 文件流 C语言fopen函数的用法 xff0c C语言打开文件详解fopen 函数的返回值判断文件是否打开成功 fopen 函数的打开方式关闭文件实例演示 文本文件和二进制文件到底有
  • Chapter-3_概率分布

    Chapter 3 概率分布 本文内容摘自 xff1a https seeing theory brown edu probability distributions cn html 概率分布描述了随机变量取值的规律 1 随机变量 随机变量
  • C++文件操作

    文章目录 计算机文件到底是什么 xff08 通俗易懂 xff09 xff1f C 43 43 文件类 xff08 文件流类 xff09 及用法详解C 43 43 open 打开文件 xff08 含打开模式一览表 xff09 使用 open
  • C语言文件操作、C++文件操作、QT文件操作汇总及对比分析

    前面对C语言文件操作 C 43 43 文件操作 QT文件操作进行了比较详细的说明 xff0c 文章链接如下 C语言文件操作 C 43 43 文件操作 QT文件操作 通过大致的了解 xff0c 我们知道C语言文件操作 C 43 43 文件操作
  • 破茧化蝶,从Ring Bus到Mesh网络,CPU片内总线的进化之路

    文章目录 为什么需要片内总线 xff1f 星型连接 环形总线 xff08 Ring Bus xff09 Mesh网络 结论 转载于 xff1a https zhuanlan zhihu com p 32216294 在大多数普通用户眼里 x
  • 片内总线在cpu扮演什么角色?他为什么能实现高效,不同的CPU为什么采用不同的总线协议?

    文章目录 各种新型片上总线维度 xff08 Degree xff09 跳 xff08 Hop xff09 和跳数 xff08 Hop Count xff0c HC xff09 直连拓扑和路由器 Intel的Ring和Mesh 43 总线双R
  • 如何一步一步成为一个技术领域专家

    已剪辑自 https mp weixin qq com s biz 61 Mzg4NjIxODk4Mg 61 61 amp mid 61 2247497216 amp idx 61 1 amp sn 61 12c8b2449baa2c236
  • 电子电气架构设计需要考虑哪些方面?

    当前车辆日益复杂 xff0c 车联网功能在各个细分领域都在不断增加 xff0c 而更强大的智能功能也逐步增加 所有这些高级功能都依赖于线束和控制器才能发挥作用 然而面对日益增加的车辆复杂性和产品开发周期缩短的压力 xff0c 导致汽车制造商
  • 深度解读汽车域控制器

    已剪辑自 https mp weixin qq com s biz 61 Mzg4NjIxODk4Mg 61 61 amp mid 61 2247496089 amp idx 61 1 amp sn 61 db5c08f97342decfa
  • 单片机硬件和软件延时、RTOS相对延时和绝对延时

    已剪辑自 https mp weixin qq com s RPLQn4KO9Aqu1fpfZeOKA 前不久有个读者在问关于延时的问题 xff0c 大概就是问 xff1a 软件延时和硬件延时是啥意思 xff1f 做项目时他俩有什么区别 x
  • 计算机端口的安全知识大全,整的明明白白!

    已剪辑自 https cloud tencent com developer article 1406267 看了网安众安的这篇计算机端口文章 xff0c 你要是学不会你来打我 鲁迅没有说过 端口是计算机的大门 xff0c 计算机的安全应该
  • 自然语言处理概述

    文章目录 本文系书稿选登 2 1 自然语言处理概述2 1 1 什么是自然语言处理2 1 2 自然语言处理的任务 已剪辑自 https mp weixin qq com s hSTkA2ffa1YWCoZOgQdrBQ 本文系书稿选登 2 1