腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

2023-11-06

感谢阅读腾讯AI Lab第45篇文章。本文将介绍大规模高质量的中文词向量数据的开源情况。


今日,腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯 AI Lab此次开源,可为中文环境下基于深度学习的自然语言处理(NLP)模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文NLP任务效果的提升。


数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html


近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本,离不开文本的向量化,即把一段文本转化成一个n维的向量。在大量任务中,作为千变万化的文本向量化网络架构的共同底层,嵌入层(Embedding Layer)负责词汇(文本的基本单元)到向量(神经网络计算的核心对象)的转换,是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明,使用大规模高质量的词向量初始化嵌入层,可以在更少的训练代价下得到性能更优的深度学习模型。


目前,针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。然而,目前公开可下载的中文词向量数据[3,4]还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。


腾讯AI Lab词向量的特点

腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI Lab的中文词向量着重提升了以下3个方面,相比已有各类中文词向量大大改善了其质量和可用性:


⒈ 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河


⒉ 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了


⒊ 准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

输入

刘德华

兴高采烈

狂奔

自然语言处理

相似词

刘天王

兴高彩烈

飞奔

自然语言理解

周润发

兴冲冲

一路狂奔

计算机视觉

华仔

欢天喜地

奔跑

自然语言处理技术

梁朝伟

兴致勃勃

狂跑

深度学习

张学友

眉飞色舞

疾驰

机器学习

古天乐

得意洋洋

飞驰

图像识别

张家辉

喜笑颜开

疾奔

语义理解

张国荣

欢呼雀跃

奔去

语音识别


得益于覆盖率、新鲜度、准确性的提升,在内部评测中,腾讯AI Lab提供的中文词向量数据相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。在腾讯公司内部的对话回复质量预测和医疗实体识别等业务场景中,腾讯AI Lab提供的中文词向量数据都带来了显著的性能提升。


腾讯AI Lab词向量的构建


为了生成高覆盖率、高新鲜度、高准确性的词向量数据,腾讯AI Lab主要从以下3个方面对词向量的构建过程进行了优化:


⒈ 语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。


⒉ 词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法 [5],可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。


⒊ 训练算法:

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。


此份中文词向量数据的开源,是腾讯AI Lab依托公司数据源优势,对自身基础AI能力的一次展示,将为中文环境下基于深度学习的NLP模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文NLP任务效果的提升。


除发布此份中文词向量数据外,腾讯AI Lab长期以来在文本表示学习方面有着持续的投入,相关研究成果近期在ACL、EMNLP、IJCAI等自然语言处理及人工智能顶级会议上发表[7,8,9,10],并被应用于多个落地场景。未来,腾讯AI Lab将着眼于常规文本与社交媒体文本两种不同的文本类型,继续探索词汇、词组/实体、句子/消息、篇章/对话等各粒度文本对象的语义建模和理解,为自然语言处理领域的重要应用提供基础支持。


[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.


640?wx_fmt=jpeg
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用 的相关文章

  • 将时间序列转成图像——马尔可夫转移场方法 Matlab实现

    目录 1 方法 2 Matlab代码实现 3 结果 若觉文章质量良好且有用 请别忘了点赞收藏加关注 这将是我继续分享的动力 万分感谢 其他 1 时间序列转二维图像方法及其应用研究综述 vm 1215的博客 CSDN博客 2 将时间序列转成图
  • BOOST升压电路PCB布局布线

    一 正确找出BOOST的高频电流环路 尽可能让di dt大的路径小 在boost中为开关管 二极管 与输出电容 二 输入环路 先经过Cin再到芯片输入脚 三 输出环路 重要 SW覆盖面积要小 四 反馈环路 重要 与FB相连的两个电阻越靠近F
  • 零拷贝内存 & 固定内存

    一 总览 虚拟内存是一种计算机内存管理的技术 它让程序认为程序自身有一段完整的连续可用的内存 一个地址空间 当程序运行时所占的内存空间大于物理空间容量 操作系统可以将暂时不用的数据放入到磁盘 用的时候再拿出来 这样磁盘有一部分空间就是用来存
  • log4cplus 分级显示控制

    前不久已经整理过一篇关于log4cplus介绍和使用基础的文章 这次来看看如何更好的使用log4cplus这个 功能强大的日志系统吧 层次结构 在log4cplus中 所有logger都通过一个层次化的结构 其实内部是hash表 来组织的
  • Python中@property和@setter的用法

    一 property 用法 可以使用 property装饰器来创建只读属性 property装饰器会将方法转换为相同名称的只读属性 这样可以防止属性被修改 实例 class DataSet object property def metho
  • mysql grouping sets_GROUPING SETS与GROUP_ID

    SELECT E DEPARTMENT ID DID E JOB ID JOB E MANAGER ID MID SUM E SALARY SUM SAL COUNT E EMPLOYEE ID CNT GROUP ID GG FROM E
  • FreeRTOS源码探析之——软件定时器

    软件定时器是FreeRTOS中的一个重要模块 使用软件定时器可以方便的实现一些与超时或周期性相关的功能 本篇从FreeRTOS的源码入手 来分析FreeRTOS软件定时器的运行机理 1 基础知识 1 1 软件定时器与硬件定时器的区别 硬件定
  • 开放-封闭原则

    我们在做任何系统的时候 都不要指望系统一开始就完全确定需求 然后再也不发生变化 这是不现实 也是不科学的想法 既然需求是一定会发生变化的 那么如何在面对需求的变化时 设计的软件可以相对容易修改 不至于说 新需求一来就要把整个程序都推倒重来呢
  • 【Python】利用format方法保留三位小数

    format方法是内置的Python字符串格式化方法 基本语法为 str format 它增强了字符串格式化的功能 基本语法是通过 和 来代替以前的 format 函数可以接收多个参数 位置可以不按顺序 具体实例如下 print 0f fo
  • UP-DETR:用无监督的方式对Transformer进行预训练来做物体检测

    点击上方 AI公园 关注公众号 选择加 星标 或 置顶 因公众号更改了推送规则 记得读完点 在看 下次AI公园的新文章就能及时出现在您的订阅列表中 作者 Synced 编译 ronghuaiyang 导读 不仅对CNN的backbone预训
  • ReactHooks之useEffect

    useEffect 副作用钩子 useEffect相当于 componentDidMount 组件挂载 componentDidUpdate 组件更新 和 componentWillUnmount 组件将要销毁 这三个生命周期函数的组合 u
  • 计算机处理器性能排名,电脑处理器性能排行榜

    cpu可以说是电脑的心脏 作为电脑的核心存在 cpu性能对电脑性能的影响不言而喻 虽然说因为人民币贬值 cpu价格全面上涨近10 那么电脑处理器性能的市场行情怎么样 下面给大家讲解电脑处理器性能排行榜了 电脑处理器性能排行榜 下面这个cpu
  • Windows 7下安装CentOS 7 Linux双操作系统

    参考文章 1 https blog csdn net zh175578809 article details 78576193 2 https jingyan baidu com article c275f6bacc3326e33c7567
  • Xmodem/Ymodem/Zmodem协议详解

    序 Xmodem Ymodem和Zmodem协议是最常用的三种通信协议 Xmodem协议是最早的 传输128字节信息块 之后也支持到1k的传输 Ymodem是Xmodem的增强版协议 具有传输快速稳定的优点 它可以一次传输1024字节的信息
  • 微信小程序tab切换,(scroll-view + swiper)可滑动切换,导航栏跟随滚动实现

    微信小程序tab切换 scroll view swiper 可滑动切换 导航栏跟随滚动实现 1 wxml tab
  • LeetCode 707. 设计链表

    题目链接 https leetcode cn problems design linked list C 代码如下 class MyLinkedList private 定义单链表的节点 struct ListNode int val Li
  • Qt中QMessageBox提示框设置样式表Qss美化并HTML修改字体大小和颜色

    QMessageBox中写Qss样式表的写法 QString中补上前端HTML的标签 void NetWorkInfo detail QString det QList
  • 客户通道短信平台开发—移动云短信系统

    一 平台能接入的通道接口 1 各种类型的 HTTP 通道 支持 GET POST 返回格式支持 XML JSON 2 支持CMPP通道的接入 3 支持回复通道 上行 支持客户回复在平台中可查看 4 状态通道 返回真实的状态 二 我们提供的服
  • PHP 实现 apple 苹果快捷登录

    实现原理 1 安装外部库php jwt 在项目的composer json 同级目录下运行 composer require firebase php jwt 执行失败的话可借鉴本文 https blog csdn net qq 24909
  • 数据结构---优先队列

    优先队列 实现方式 入队 出队 JAVA实现 总结 二叉堆是实现优先队列的基础 上一篇二叉堆博文 二叉堆 队列的特点是先进先出 FIFO 优先队列不再遵循先入先出的原则 而是分为两种情况 最大优先队列 无论入队顺序如何 都是当前最大的元素优

随机推荐