腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用

2023-11-06

感谢阅读腾讯AI Lab第45篇文章。本文将介绍大规模高质量的中文词向量数据的开源情况。

今日，腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。针对业界现有的中文词向量公开数据的稀缺和不足，腾讯 AI Lab此次开源，可为中文环境下基于深度学习的自然语言处理（NLP）模型训练提供高质量的底层支持，推动学术研究和工业应用环境下中文NLP任务效果的提升。

数据下载地址：https://ai.tencent.com/ailab/nlp/embedding.html

近年来，深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本，离不开文本的向量化，即把一段文本转化成一个n维的向量。在大量任务中，作为千变万化的文本向量化网络架构的共同底层，嵌入层（Embedding Layer）负责词汇（文本的基本单元）到向量（神经网络计算的核心对象）的转换，是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明，使用大规模高质量的词向量初始化嵌入层，可以在更少的训练代价下得到性能更优的深度学习模型。

目前，针对英语环境，工业界和学术界已发布了一些高质量的词向量数据，并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。然而，目前公开可下载的中文词向量数据[3,4]还比较少，并且数据的词汇覆盖率有所不足，特别是缺乏很多短语和网络新词。

腾讯AI Lab词向量的特点

腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇，其中每个词对应一个200维的向量。相比现有的中文词向量数据，腾讯AI Lab的中文词向量着重提升了以下3个方面，相比已有各类中文词向量大大改善了其质量和可用性：

⒈ 覆盖率（Coverage）：

该词向量数据包含很多现有公开的词向量数据所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

⒉ 新鲜度（Freshness）：

该数据包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

⒊ 准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

输入

刘德华

兴高采烈

狂奔

自然语言处理

相似词

刘天王

兴高彩烈

飞奔

自然语言理解

周润发

兴冲冲

一路狂奔

计算机视觉

华仔

欢天喜地

奔跑

自然语言处理技术

梁朝伟

兴致勃勃

狂跑

深度学习

张学友

眉飞色舞

疾驰

机器学习

古天乐

得意洋洋

飞驰

图像识别

张家辉

喜笑颜开

疾奔

语义理解

张国荣

欢呼雀跃

奔去

语音识别

得益于覆盖率、新鲜度、准确性的提升，在内部评测中，腾讯AI Lab提供的中文词向量数据相比于现有的公开数据，在相似度和相关度指标上均达到了更高的分值。在腾讯公司内部的对话回复质量预测和医疗实体识别等业务场景中，腾讯AI Lab提供的中文词向量数据都带来了显著的性能提升。

腾讯AI Lab词向量的构建

为了生成高覆盖率、高新鲜度、高准确性的词向量数据，腾讯AI Lab主要从以下3个方面对词向量的构建过程进行了优化：

⒈ 语料采集：

训练词向量的语料来自腾讯新闻和天天快报的新闻语料，以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合，使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模，也使得词向量数据的新鲜度大为提升。

⒉ 词库构建：

除了引入维基百科和百度百科的部分词条之外，还实现了Shi等人于2010年提出的语义扩展算法 [5]，可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式，在发现新词的同时计算新词之间的语义相似度。

⒊ 训练算法：

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG)，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

此份中文词向量数据的开源，是腾讯AI Lab依托公司数据源优势，对自身基础AI能力的一次展示，将为中文环境下基于深度学习的NLP模型训练提供高质量的底层支持，推动学术研究和工业应用环境下中文NLP任务效果的提升。

除发布此份中文词向量数据外，腾讯AI Lab长期以来在文本表示学习方面有着持续的投入，相关研究成果近期在ACL、EMNLP、IJCAI等自然语言处理及人工智能顶级会议上发表[7,8,9,10]，并被应用于多个落地场景。未来，腾讯AI Lab将着眼于常规文本与社交媒体文本两种不同的文本类型，继续探索词汇、词组/实体、句子/消息、篇章/对话等各粒度文本对象的语义建模和理解，为自然语言处理领域的重要应用提供基础支持。

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用的相关文章

将时间序列转成图像——马尔可夫转移场方法 Matlab实现

目录 1 方法 2 Matlab代码实现 3 结果若觉文章质量良好且有用请别忘了点赞收藏加关注这将是我继续分享的动力万分感谢其他 1 时间序列转二维图像方法及其应用研究综述 vm 1215的博客 CSDN博客 2 将时间序列转成图
BOOST升压电路PCB布局布线

一正确找出BOOST的高频电流环路尽可能让di dt大的路径小在boost中为开关管二极管与输出电容二输入环路先经过Cin再到芯片输入脚三输出环路重要 SW覆盖面积要小四反馈环路重要与FB相连的两个电阻越靠近F
零拷贝内存 & 固定内存

一总览虚拟内存是一种计算机内存管理的技术它让程序认为程序自身有一段完整的连续可用的内存一个地址空间当程序运行时所占的内存空间大于物理空间容量操作系统可以将暂时不用的数据放入到磁盘用的时候再拿出来这样磁盘有一部分空间就是用来存
log4cplus 分级显示控制

前不久已经整理过一篇关于log4cplus介绍和使用基础的文章这次来看看如何更好的使用log4cplus这个功能强大的日志系统吧层次结构在log4cplus中所有logger都通过一个层次化的结构其实内部是hash表来组织的
Python中@property和@setter的用法

一 property 用法可以使用 property装饰器来创建只读属性 property装饰器会将方法转换为相同名称的只读属性这样可以防止属性被修改实例 class DataSet object property def metho
mysql grouping sets_GROUPING SETS与GROUP_ID

SELECT E DEPARTMENT ID DID E JOB ID JOB E MANAGER ID MID SUM E SALARY SUM SAL COUNT E EMPLOYEE ID CNT GROUP ID GG FROM E
FreeRTOS源码探析之——软件定时器

软件定时器是FreeRTOS中的一个重要模块使用软件定时器可以方便的实现一些与超时或周期性相关的功能本篇从FreeRTOS的源码入手来分析FreeRTOS软件定时器的运行机理 1 基础知识 1 1 软件定时器与硬件定时器的区别硬件定
开放-封闭原则

我们在做任何系统的时候都不要指望系统一开始就完全确定需求然后再也不发生变化这是不现实也是不科学的想法既然需求是一定会发生变化的那么如何在面对需求的变化时设计的软件可以相对容易修改不至于说新需求一来就要把整个程序都推倒重来呢
【Python】利用format方法保留三位小数

format方法是内置的Python字符串格式化方法基本语法为 str format 它增强了字符串格式化的功能基本语法是通过和来代替以前的 format 函数可以接收多个参数位置可以不按顺序具体实例如下 print 0f fo
UP-DETR：用无监督的方式对Transformer进行预训练来做物体检测

点击上方 AI公园关注公众号选择加星标或置顶因公众号更改了推送规则记得读完点在看下次AI公园的新文章就能及时出现在您的订阅列表中作者 Synced 编译 ronghuaiyang 导读不仅对CNN的backbone预训
ReactHooks之useEffect

useEffect 副作用钩子 useEffect相当于 componentDidMount 组件挂载 componentDidUpdate 组件更新和 componentWillUnmount 组件将要销毁这三个生命周期函数的组合 u
计算机处理器性能排名,电脑处理器性能排行榜

cpu可以说是电脑的心脏作为电脑的核心存在 cpu性能对电脑性能的影响不言而喻虽然说因为人民币贬值 cpu价格全面上涨近10 那么电脑处理器性能的市场行情怎么样下面给大家讲解电脑处理器性能排行榜了电脑处理器性能排行榜下面这个cpu
Windows 7下安装CentOS 7 Linux双操作系统

参考文章 1 https blog csdn net zh175578809 article details 78576193 2 https jingyan baidu com article c275f6bacc3326e33c7567
Xmodem/Ymodem/Zmodem协议详解

序 Xmodem Ymodem和Zmodem协议是最常用的三种通信协议 Xmodem协议是最早的传输128字节信息块之后也支持到1k的传输 Ymodem是Xmodem的增强版协议具有传输快速稳定的优点它可以一次传输1024字节的信息
微信小程序tab切换，(scroll-view + swiper)可滑动切换，导航栏跟随滚动实现

微信小程序tab切换 scroll view swiper 可滑动切换导航栏跟随滚动实现 1 wxml tab
LeetCode 707. 设计链表

题目链接 https leetcode cn problems design linked list C 代码如下 class MyLinkedList private 定义单链表的节点 struct ListNode int val Li
Qt中QMessageBox提示框设置样式表Qss美化并HTML修改字体大小和颜色

QMessageBox中写Qss样式表的写法 QString中补上前端HTML的标签 void NetWorkInfo detail QString det QList
客户通道短信平台开发—移动云短信系统

一平台能接入的通道接口 1 各种类型的 HTTP 通道支持 GET POST 返回格式支持 XML JSON 2 支持CMPP通道的接入 3 支持回复通道上行支持客户回复在平台中可查看 4 状态通道返回真实的状态二我们提供的服
PHP 实现 apple 苹果快捷登录

实现原理 1 安装外部库php jwt 在项目的composer json 同级目录下运行 composer require firebase php jwt 执行失败的话可借鉴本文 https blog csdn net qq 24909
数据结构---优先队列

优先队列实现方式入队出队 JAVA实现总结二叉堆是实现优先队列的基础上一篇二叉堆博文二叉堆队列的特点是先进先出 FIFO 优先队列不再遵循先入先出的原则而是分为两种情况最大优先队列无论入队顺序如何都是当前最大的元素优

随机推荐

node+vue 文件下载和上传地址

http www jb51 net article 108457 htm 转载于 https www cnblogs com luoliangfei p 7479174 html
switch怎么一个账号绑定各种服务器,任天堂switch主副机器介绍，ns数字版游戏共享操作详解...

原标题任天堂switch主副机器介绍 ns数字版游戏共享操作详解任天堂在日前推送了switch主机的6 0系统其网络会员服务Switch Online也正式上线值得一提的是此次更新引入了主副机器的概念玩家可以绑定任天堂账号在swi
为什么写了value属性 jq赋值value值不显示_[Go基础]理解 Go 标准库中的 atomic.Value 类型

转载声明文章作者喵叔上次更新 2019 03 15 许可协议 CC BY NC ND 4 0 转载请注明出处原文链接 https blog betacat io post golang atomic value exploratio
计算机安全中心无法启动,windows安全中心,教您无法启动windows安全中心的解决方法...

最近小编在逛帖子的时候有看到一些小伙伴说自己家的电脑不知道怎么了突然间无法启动windows安全中心在寻求帮助看到这个之后小编决定帮小伙伴们解决这个问题那么接下来小编就告诉你们怎么解决windows安全中心无法启动的问题 win
VM虚拟机提示“vmware tools 的安装无法手动启动,自动安装正在进行中”

VM虚拟机提示 vmware tools 的安装无法手动启动自动安装正在进行中装了个VMWARE虚拟机但vmware tools总也装不上提示 vmware tools 的安装无法手动启动自动安装正在进行中网上搜索下解决方法如
cannot connect to 192.168. 由于目标计算机积极拒绝，无法连接或者AndroidStudio通过WIFI连接手机调试

由于在公司只有一根数据线不能同时两个手机用一个自己的一个测试机那有人说不会再买个吗穷啊买不起 AS可以通过WIFI 不需要数据线就可以连接到手机这个很符合现在的我嘻嘻本以为很简单粗暴但中间遇到了一些坑并解决了在此记
学习笔记（一）数据挖掘概念与技术

1数据仓库与数据库数据仓库是一种用于长期存储数据的仓库这些数据来自多个数据源是经过组织的以便支持管理决策这些数据在一种统一的模式下存放并且通常是汇总的数据仓库提供一些数据分析能力称作联机分析处理数据库传统关系型数据库的主
从数据爬取到构建基于知识图谱的问答系统（前端展示）

项目介绍项目地址整理了很久一定要给个star呀博主目前南京大学在读研究生有问题欢迎咨询 bravezhangw 163 com
数据中台盛行，DataOps兴起，数据架构才是未来

导读在数字化转型的浪潮下数据架构获得了越来越多的关注作为企业架构中的关键纽带数据架构解决了业务与数据间的映射规范了应用架构中的数据集成关系指导了技术架构的技术选型在企业中发挥着不可或缺的作用伴随DataOps等场景的出现数
【Leetcode】P5612 从仓库到码头运输箱子

Leetcode P5612 从仓库到码头运输箱子你有一辆货运卡车你需要用这一辆车把一些箱子从仓库运送到码头这辆卡车每次运输有箱子数目的限制和总重量的限制给你一个箱子数组 boxes 和三个整数 portsCount maxB
es 局部更新 DSL 语句

curl XPOST 192 168 1 47 9200 sub refresh 更新根据条件 curl XPOST 192 168 1 4 9200 sub update by query pretty H Content Type a
02-07GRE真题及答案解析整理

02 07年GRE真题及答案解析整理 2002年11月23日GRE笔考题 VERBAL部分 Section 1 填空 1 Although she gives badly titles to her musical compositions
std::match_result

英文文档 https cplusplus com reference regex match results 以下是我对此英文文档的翻译经过一定的加工改动和取舍并添加了我自己的理解可能翻译的比较差请轻喷有空我会更新的 match
数据库的添加与查询

创建数据库使用数据库创表添加数据 1 查询所有学生的信息 2 查询姓名是李白的学生信息 3 查询1班是上海的学生 4 查询家乡是北京或者上海的学生 5 查询小乔的年龄 6 查询家乡不在北京的学生 7 查询年龄小于20的女同学 8 查询
Obsidian 从本地到云端

原文 https www ftls xyz posts obcsapi fc simple 作者恐咖兵糖 Obsidian 从本地到云端 Obsidian 作为本地笔记软件在使用了多端同步插件 remotely save插件情况下我选
Flask类视图的使用

1 add url rule函数之前我们接触的视图都是函数所以一般简称视图函数其实视图也可以基于类来实现类视图的好处是支持继承但是类视图不能跟函数视图一样写完类视图还需要通过app add url rule 函数来进行注册 ap
Python如何自动操作电脑桌面应用程序

前言本文是该专栏的第2篇后面会持续分享python的各种黑科技知识值得关注熟悉python的朋友都知道python可以做自动化比如说selenium pyppeteer airtest等等但你是否听说过python可以来自动操
Office 365 官方原版镜像下载

中文说明专业增强版简体中文版文件名称 O365ProPlusRetail img 下载地址 https officecdn microsoft com db 492350F6 3A01 4F97 B9C0 C7C6DDF67D60 m
“M OP N“ 数值问题

M OP N 数值问题问题描述获得用户输入的一个字符串格式为 M OP N 其中 M和N是任何数字 OP代表一种操作表示为如下四种加减乘除根据OP 输出M OP N的运算结果统一保存小数点后2位注意 M和OP OP和N之间可
腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用

感谢阅读腾讯AI Lab第45篇文章本文将介绍大规模高质量的中文词向量数据的开源情况今日腾讯AI Lab 宣布开源大规模高质量的中文词向量数据该数据包含800多万中文词汇相比现有的公开数据在覆盖率新鲜度及准确性上大幅提高为

腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用

腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用 的相关文章

随机推荐

热门标签

腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用的相关文章