清华大学岂凡超：义原的介绍和义原的自动推荐

2023-11-13

义原（Sememe）在语言学中是指最小的不可再分的语义单位，而知网（HowNet）则是最著名的义原知识库。近些年来，包括知网在内的语言知识库在深度学习模型中的重要性越来越显著，然而，这些人工构建的语言知识库往往面临新词不断出现的挑战。知网也不例外，而且其只为中、英文词标注了义原，这限制了它在其他语言的 NLP 任务中的应用。

近日，在雷锋网 AI 研习社公开课上，清华大学计算机系在读博士岂凡超就分享了采用机器学习的方法为中文新词自动推荐义原，并进一步为其他语言的词语推荐义原。公开课回放视频网址：http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

岂凡超：清华大学计算机系在读博士，导师是孙茂松教授，主要研究方向为自然语言处理，其研究工作曾在 EMNLP 等发表。

分享主题：义原的介绍和义原的自动推荐

分享提纲：

义原和知网介绍

中文新词的义原推荐 [IJCAI 2017, ACL2018]

跨语言词汇的义原推荐 [EMNLP 2018]

雷锋网 AI 研习社将其分享内容整理如下：

今天跟大家分享义原的介绍和义原的自动推荐。

义原和知网介绍

首先讲一下义原的基本概念。在自然语言处理中，我们会对语言中不同的语义单位进行分析和处理，语义单位包括从比较大的篇章、段落到比较小的句子、短语和词。对一般的自然语言处理任务来说，最小的语义单位可能就是词了，但实际上比词更小的语义单位是存在的——义原。

根据语言学家的定义，义原是最小的不可分的语义单位。有的语言学家认为，包括词在内的所有概念的语义都可使用一个有限的义原集合去表示。而义原是比较隐含的语义单位，所以人们需要利用已经构建好的义原知识库才能够获取一个词所对应的义原。

提到义原知识库，最著名的就是知网（HowNet），它是由董振东和董强两位先生花费了十几年时间，通过人工标注而成的义原知识库，大概使用了 2000 多个义原标注了约 10 万个中文/英文词或短语。左边的图就是知网中对一个词的义原标注的例子。

【关于更多对知网的词的案例讲解，请回看视频 00：02：40 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

知网对词进行了更细粒度的义原标注，因而被广泛用于各项自然语言处理的任务中。比如 2017 年的 Improved Word Representation Learning with Sememes 这篇论文，通过引入义原可以解决词义消歧的问题，并进一步更细致地捕捉到词与词之间的关系来学习更好的词向量。另一例子是今年的一篇论文 Language Modeling with Sparse Product of Sememe Experts，它将义原作为我们称之为「专家」的信息引入语言模型中，也可以更好地预测到一个词出现后下一个词以怎样的方式出现，在义原层面又有一些怎样的关系。

实际上，上世纪 90 年代知网就已经发布，在零几年的时候非常热门，相关的论文也比较多。

【关于两篇论文及其他应用的详细讲解，请回看视频 00：04：50 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

刚刚我们也提到两位语言学家花费了十几年的时间为词标注义原，然而，每年都有新词不断出现，同时也需要不断去更新、纠正以及完善义原标注体系，而人工的方式非常耗时耗力，所以我们很自然地想到用机器学习来为新词自动标注义原，这是我们做义原预测主要的 motivation。

中文新词的义原推荐 [IJCAI 2017, ACL2018]

关于义原预测，我们组最早有一篇文章，定义了这项任务并提出了两个效果还不错的模型。我首先介绍一下这篇文章，它的核心思路是根据与待标注目标词相似的已标注词的义原标注信息来预测义原，其基本假设是：相似词的义原标注也相似。基于这个思路，这篇文章提出了两个基于推荐系统的模型：第一个是基于协同过滤（collaborative filtering ）的方法 SPWE；第二个是基于矩阵分解（matrix factorization ）的方法 SPSE。需要补充的是，这两个方法都做了简化，一是忽略了义原的层次结构；二是将词的多义性忽略掉了。

【关于这篇文章的两个模型的具体介绍，请回看视频 00：09：50 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

但是，这篇文章还有很多问题没有考虑到，比如刚刚提到的这两个模型只考虑了外部信息——预训练的词向量，而词向量是根据外部语料得到的。此外，它们对于语料中出现频率比较少的词的预测效果不好，另外这种方法也无法为语料中没有出现的词推荐义原。

因此我们进行了第二项工作，本次工作考虑到大部分中文词都是合成词——词最终的意义跟组成这个词的各个字的意义紧密相关，比如「铁匠」这个词的合成性就非常明显。由于这项工作利用的是词的内部信息，它对于低频词来说是非常有用的。在这个工作中我们提出了字增强的义原预测（Character-enhanced Sememe Prediction ）模型，将词的内部信息和从语料中学到的外部信息（词向量）都用上。

【关于这篇文章的两个模型的具体介绍，请回看视频 00：09：50 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

在利用词内部信息的模型中，我们用到的第一个方法是 Sememe Prediction with Word-to-Character Filtering（SPWCF），它利用了词到字的过滤来做义原预测，它认为词有三个位置（Begin、 Middle、End），首先统计某个字在某个位置出现时对应的词拥有某个义原的概率，将其作为该字在该位置出现时词拥有该义原的置信度，再把待预测词中各个位置的字所对应的义原置信度相加起来，得到当前待预测词的义原置信度，从而根据义原置信度的排序实现义原预测。

第二个方法是 Sememe Prediction with Character and Sememe Embeddings （SPCSE），这一方法采用了类似 SPSE 的矩阵分解的思路，但是用词中某个字的字向量作为词向量的代表参与分解，来得到义原向量。

【关于 SPWCF 和 SPCSE 这两个义原预测方法的具体讲解，请回看视频 00：23：18 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

下面讲一下实验，我们在这个实验中的设置有：

第一，义原筛选，去掉知网中出现频率低于 5 次的义原，剩余 1400 个比较常见的义原；

第二，选了知网中 6 万个高频词；

第三，训练集、开发集和测试集分别为 48000、6000 和 6000；

第四，词向量和字向量的学习用的语料是 Sogou-T。

第五，用 GloVe 的方法学习词向量，用 2015 年的一篇文章 Cluster-based Character Embeddings 来学习字向量

第六，做义原预测评价的指标是 Mean Average Precision （MAP）

其他设置大家可以看一下论文进行了解。

实验结果如下：

【关于实验结果的讲解，请回看视频 00：37：00 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

这里对我们的这两个工作做一下小结：

首先，我们定义了义原预测任务并对该任务做了简化。

在第一篇文章中，我们用了推荐系统中两个基本、主流的思路——协同过滤和矩阵分解做义原预测。

在第二篇文章中，我们考虑到第一篇文章只使用了外部信息，而没有用词的内部信息，于是将词的内部信息用到了义原预测中。

我们将来的研究方向包括使用义原的结构，将义原扩展到更加通用性的应用，以及更充分地利用词的内部信息——因为第二个工作使用的方法还是相对比较简单。另外，我们的代码都开源在 Github（https://github.com/thunlp/sememe_prediction, https://github.com/thunlp/Character-enhanced-Sememe-Prediction ）上了，大家可以去下载。

跨语言词汇的义原推荐 [EMNLP 2018]

接下来讲一下我们在跨语言义原预测方面所做的工作。这项工作的 motivation 是：大多数语言其实没有像知网这样的义原知识库。刚刚我们提到，义原的标注需要「专家」信息，往往需要耗费很大的时间和人力成本，因此我们想要利用机器学习方法自动进行跨语言义原预测。在这项工作中，我们方法的主要思路是，将现有的知网义原知识库迁移到其他语言。

由于跨语言的义原预测是一个全新的任务，对我们来说存在一些难度，比如直接将知网翻译成其他语言是行不通的，因为不同语言词的语义不完全一致。

我们在这个工作中采用的方法分为两个大模块：

第一个模块是双语词向量学习模块。其目标是学习在同一个语义空间的源语言和目标语言的词向量，其中源语言是指已知义原标注的语言，目标语言则是不知道义原标注的语言。该模块又可以分成三个子模块：单语词向量的学习、双语词向量的对齐以及将义原信息融入源语言词向量中，单语词向量学习采用了经典的 Skip-gram 方法；双语词向量对齐采用了种子词典作为跨语言信号，此外还借鉴了 Bilingual Lexicon Induction From Non-Parallel Data With Minimal Supervision 这篇文章中的匹配机制（Matching Mechanism）；义原信息的融入子模块中，分别采用了基于近义词（即义原标注相近的词）词向量靠近的方法 CLSP-WR 和基于矩阵分解的方法 CLSP-SE。

第二个模块使目标语言的义原预测模块。

【关于这两大模块的具体讲解，请回看视频 00：42：05 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

实验的数据集如下：

【关于实验数据集的讲解，请回看视频 00：52：20 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

跨语言义原预测主实验结果：

【关于跨语言义原预测主实验结果的讲解，请回看视频 00：54：15 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

然后我们也做了两个子实验。第一个是做了双语词典翻译的实验，因为模型中第一个模块是学习在一个空间的双语词向量，很自然可以去做这样中译英、英译中的翻译实验。第二个子实验是单语词相似度计算的实验。从两项实验结果中可以看到，我们的模型比基线方法 BiLex 直接学习中文或英文的双语词向量的效果都要好一些。同时，这两个子实验的结果也可以解释我们的模型为什么能够预测到更好的的义原。

关于实验，有两个具体的案例：

【关于两个具体的案例的讲解，请回看视频 00：57：40 处，http://www.mooc.ai/open/course/555?=aitechtalkqifanchao】

最后总结一下，我们第三个工作也是定义了一个新的任务——为跨语言词做义原推荐，提出了基于双语词向量学习的方法，并通过实验证明了我们方法的有效性。

将来的工作中，第一，我们会考虑到词的多义性，这是在我们现在的工作中被忽略掉的一个方面；第二是将义原的结构信息利用起来；第三是在其他语言上做测试，我们这项工作是在英文上做测试，因为英文已有语言标注，而其他的语言则需要我们人工去做标注。我们工作的数据和代码都放在了 Github（https://github.com/thunlp/Character-enhanced-Sememe-Prediction ）上，大家可以下载使用。

以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网(公众号：雷锋网) AI 研习社社区（https://club.leiphone.com/）观看。关注微信公众号：AI 研习社（okweiwu），可获取最新公开课直播时间预告。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

清华大学岂凡超：义原的介绍和义原的自动推荐的相关文章

概述：利用大模型 (LLMs) 解决信息抽取任务

论文标题 Large Language Models for Generative Information Extraction A Survey 论文链接 https arxiv org pdf 2312 17617 pdf 论文主要探讨
利用CHAT写个easywechat4 支付回调代码

CHAT回复以下是 EasyWechat4 的支付回调处理的基本代码这个代码需要放置在你的后端服务器中主要用于接收微信支付平台发送过来的支付结果通知 php
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

不走弯路，ubuntu系统GPU版本的Pytorch安装

需先查看电脑是否安装了显卡驱动 nvidia smi 有表格样页面输出则安装了如果没有 sudo ubuntu drivers devices 查看可安装版本选择最高安装 sudo apt install nvidia driver 5
用Python爬取了上W表情包。快拿去欢乐斗图吧~

导语表情包是一种利用图片来表示感情的一种方式表情包是在社交软件活跃之后形成的一种流行文化表情包流行于互联网上面基本人人都会发表情曾经你是否也有过找不到表情包去应对别人的时候别担心今天小编将分享如何用Python爬取批量表情
【核磁共振成像】单射成像和高速脉冲序列

目录一提高成像速度的手段二平面回波成像 EPI 序列三常用或基本EPI序列四 EPI变型序列五渐开平面螺旋 spiral 扫描序列六 RARE序列七 GRASE序列八 STEAM序列一提高成像速度的手段 MRI扫
Docker容器安装Mysql和Redis(3)

前言容器安装的好处是相互隔离互不影响相比于传统的一个linux下安装多个服务其中一个服务报错可能影响其他服务的问题现在一个服务就是一个容器互不影响目录 1 安装MySQL 1 1 拉取镜像 1 2 创建并启动 1 3 外部创建映
ES设置常规数据字段属性

index 是否可被搜索示例如下 PUT es 0001 mappings properties name type keyword index false POST es 0001 doc name James GET es 0001
两个苹果手机如何同步数据_旧苹果手机数据迁移到新手机教程

很多知友私信提问如何将旧苹果手机数据迁移到新苹果手机上由于没有像安卓那样一键操作的软件所以大部分机友束手无策今天我在这里给大家介绍几种方法一从icloud云备份恢复设备 1 打开您的iPhone 您应该会看到您好屏幕如果您的
为什么国内互联网公司喜欢用Centos而不是Ubuntu？

几乎所有新手接触Linux时都会被它的几百个发行版本搞得一头雾水在众多Linux 版本中 CentOS 和 Ubuntu 可以说是最有名的两个了而关于这两者的选择也是大家在网络上经常讨论的问题比如各大网站都有热门问题为什么国内互联
七、Linux中的进程管理

七 Linux中的进程管理 7 1 进程和线程定义程序是静态的代码文件进程进程是指程序运行时的形态是程序的一个副本进程是有生命周期的准备期运行期终止期线程当程序是多任务的 cpu是多核心多任务同时被每个核心处理每个核
ThinkPHP3.2.3学习笔记1---控制器

ThinkPHP是为了简化企业级应用开发和敏捷WEB应用开发而诞生的最早诞生于2006年初 2007年元旦正式更名为ThinkPHP 并且遵循Apache2开源协议发布 ThinkPHP从诞生以来一直秉承简洁实用的设计原则在保持出色的性
Python基本语法

文章目录 Python 基础语法行缩进代码行处理引用import 输入和输出 Python 基础语法本文主要讲解Python的特殊的语法行缩进 Python的代码块不是使用而是使用缩进正确示例 if True print An
深入浅出UML类图

在UML 2 0的13种图形中类图是使用频率最高的UML图之一 Martin Fowler在其著作 UML Distilled A Brief Guide to the Standard Object Modeling Language
数字电路设计之低功耗设计方法二：memory-partition

Memory partition是在进行内存寻址进行读或者写数据的时候我们寻找地址一般是全部比较一遍但是我们可以就是先比较第一位然后在比较接下来的位数这样就减少了近一般的内存访问次数大大降低了功耗在这里我定义了地址空间为十六
QT元对象

1 QT元对象系统简介 Qt的信号槽和属性系统具有运行时查询对象信息的能力但是C 查询对象信息的能力比较有限仅仅能够通过RTTI的typeid和dynamic cast关键字来实现 QT拓展了C 的这种能力但是没有采用C 标准库的RT
数据库系统原理（二）--ER模型

向关系模式转换实体类型的转换将每个实体类型转换成一个关系模式实体的属性即为关系的属性实体标识符即为关系的键联系类型的转换 1 实体间的联系是1 1 可以在两个实体类型转换成两个关系模式中的任意一个关系模式的属性中加入另一个关系模式
[云原生专题-28]：K8S - Kubernetes(K8S)Master集群构建与安装过程详细解读 - Dashboard的安装与访问

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 122788745 目录第1章 Das
弱网测试总结

一弱网测试网络请求代理proxy 进行目标操作修改返回值延迟丢包等返回给数据接收端二弱网测试的重要性 1 弱网情况下缺少丢包延时软件的处理机制程序处理出问题 2 实时同步性高的场景微信视频聊天远程会议同步书写等
SSM图书馆预约系统毕业设计源码21417

目录摘要 1 绪论 1 1研究背景与意义 1 2研究内容 1 3ssm框架介绍 1 4论文结构与章节安排 2 旅客行程智能推荐系统系统分析 2 1 可行性分析 2 1 1 技术可行性分析 2 1 2 经济可行性分析 2 1 3 法律可行
基于Matlab的贝叶斯网络优化卷积神经网络结合门控循环单元（CNN-GRU）的预测

基于Matlab的贝叶斯网络优化卷积神经网络结合门控循环单元 CNN GRU 的预测在深度学习领域卷积神经网络 Convolutional Neural Networks CNN 和门控循环单元 Gated Recurrent Unit
Kafka的相关知识

一 Kafka基本介绍 Kafka是一个分布式支持分区的 partition 多副本的 replica 基于zookeeper协调的分布式消息系统具有高吞吐量低延迟可扩展性持久性可靠性容错性高并发等特性常见的应用场景有
清华大学岂凡超：义原的介绍和义原的自动推荐

义原 Sememe 在语言学中是指最小的不可再分的语义单位而知网 HowNet 则是最著名的义原知识库近些年来包括知网在内的语言知识库在深度学习模型中的重要性越来越显著然而这些人工构建的语言知识库往往面临新词不断出现的挑战知网也

清华大学岂凡超：义原的介绍和义原的自动推荐

清华大学岂凡超：义原的介绍和义原的自动推荐 的相关文章

随机推荐

热门标签

清华大学岂凡超：义原的介绍和义原的自动推荐的相关文章