日本语语料库

2023-10-27

来自《日语语料库建设的现状综述》上海外国语大学 毛文伟 2009年

(1)EDR语料库(EDRコーパス)

该语料库由日本电子化辞书研究所开发,并于1995年推出。素材选自新闻报道和杂志, 规模为 20 万句, 另有 10 万
句左右的英语语料。在原始语料的基础上, 添加了句法信息, 是一个已赋码语料库。(http://www.iijnet.or.jp/edr/J_index.html)

(2) 京都大学语料库 (京都大学コーパス)
由京都大学长尾研究室开发。收录了日本 『毎日新聞』 光盘版1995年1月1日至1月17日的所有报道以及该年1月至12月的所有社论各约2万句。在此基础上, 运用语法信息自动解析技术, 添加形态素和句法信息, 并进行了人工修正。另外, 还对其中的5000句素材添加了格关系以及呼应等有关信息。 (http://www-nagao.kuee.kyoto-u.ac.jp/)

(3) 日语口语语料库(日本語話し言葉コーパス (CSJ) )
该语料库是作为 「話し言葉の言語的·パラ言語的構造の解析に基づく 『話し言葉工学』 の構築」 课题的一个组成部分, 由国立国语研究所、 通信综合研究所和东京工业大学联合研制的。其中包含约660小时的语音信息, 共计约700万词。其内容按照特别设计的方式记录下来, 有汉字假名混用和纯假名两个版本。还对这些文本进行了词性分析。从内容上看, 大部分为讲演和采访, 文体比较单一。(http://www2.kokken.go.jp/~csj/public/index_j.html)

(4) 太阳语料库 (太陽コーパス)
国立国语研究所推出的太阳语料库收录了1895 年、 1901 年、 1909 年、 1917 年、 1925 年刊登于博文馆发行的月刊 『太陽』 杂志上的3400篇作品,共计1450万字。所有语料都保存为xml文件形式,其中添加了各种语法信息。此外, 还提供了相应的 检 索 软 件 。(http://www.kokken. go.jp/lrc/index.php)

(5) 日本古典文学全文数据库(日本古典文学本文データベース)
该语料库收录了岩波书店旧版 『日本古典文学大系』 中的全部作品约580部, 目前由国文学研究 资 料 馆 管 理 。(http://base3.nijl.ac.jp/Rcgi-bin/hon_home.cgi)

(6) 中日对译语料库
中日对译语料库是北京日本学研究中心于2002年完成的一个双语平行语料库, 由中文原文子库、 日文原文子库、 中文译文字库和日文译文字库构成。收录的作品时间跨度很大, 既有 『坊っちゃん』(1906年)、 『蒲団』 (1907年) 等明治晚期作品, 也有『心の危機管理術』 (1993年)、 『五体不満足』 (1998年)等较新的著作。

(7) RWC文本数据库 (RWCテキストデータベース)
RWC 文本数据库是由日本新情报处理开发机构(新情報処理開発機構)推出的已赋码语料库, 收录了《日本的通商白皮书》、 日本电子工业振兴协会的报告书以及《每日新闻》1991 年至1995 年的所有报道。在形态素自动分析的基础上, 加以手工修正。此外, 还包含了岩波国语词典的赋码数据。
 

(8) IPA语料库 (IPAコーパス)
该语料库是由日本情报处理振兴事业协会(情報処理振興事業協会) 制作的研究用语料库。
其素材包括已公开的IPAL词典中收录的例句集约15000 句、 『日本語表現文型中級』 中的例句约 1600句、 面向外国留学生的中级日语教材、 岩波新书 13册 以 及 『岩波ジュニア新書』 7 册 中 的 内 容 约451000 句。日语教材和岩波新书部分进行了品词分析, 还对一部分内容进行了句法分析。

(9) ATR谈话数据库 (ATR対話データベース)
由日本国际电气通信基础技术研究所 (国際電気通信基礎技術研究所) 开发的这套口语语料库收录了关于参加国际会议的申请者和会务组的对话以及旅行社和客人之间的对话等内容, 规模约 80 万个形态素单位。所有素材都进行了品词和单词间相互关系的分析, 并附有英语对译。
 


 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

日本语语料库 的相关文章

  • Java ArrayList Class

    In this tutorial we will learn about the Java ArrayList class We will learn about different ArrayList operations and met

随机推荐

  • (Jquery功能篇) jquery 插件fancybox查看图片原图

    效果截图 fancybox相关介绍 1 可以支持图片 html文本 flash动画 iframe以及ajax的支持 2 可以自定义播放器的CSS样式 3 可以以组的形式进行播放 4 如果将鼠标滚动插件 mouse wheel plugin
  • ubuntu中.conf 文件的修改与保存

    命令行下输入 sudo vim etc 文件名 conf 进入编辑模式 按 i 键进入编辑模式 此时可以修改文本 按 esc 键 此时退出修改文本 输入 wq 保存退出
  • 自动

    合约地址 https remix ethereum org 代码地址 https pst klgrth io paste ptwko raw 注意 50行代码token值替换成自己的钱包地址 最少要用 3 个BNB 不然是抢不到的 代码 p
  • WPF DataGrid控制DataGridTextColumn的IsReadOnly属性问题

    DataGridTextColumn这个控件不是一个真正的Visual所以IsReadOnly的属性绑定没用 如果绑定为
  • 看完这篇 教你玩转渗透测试靶机Vulnhub——The Planets:Venus

    Vulnhub靶机The Planets Venus渗透测试详解 Vulnhub靶机介绍 Vulnhub靶机下载 Vulnhub靶机安装 Vulnhub靶机漏洞详解 信息收集 SSH登入 CVE 2021 4034漏洞提权 获取FLAG 缓
  • SylixOS电源管理概述以及接口介绍

    1 概述 电源管理是操作系统中重要的一部分 要实现电源管理功能 首先需要设备本身支持电源管理操作 其次是操作系统支持电源管理操作 SylixOS支持电源管理功能 电源管理分为两大部分 CPU功耗管理和外设功耗管理 1 1 CPU功耗管理 S
  • power query 如何实现group_concat功能

    power query 分组合并展示 网上答案 https www cnblogs com wsmwsm p 12910590 html 答案 用powerquery 第一步 从表格进入pq界面 第二步 将kid2name列和id列都转换成
  • redis:redis cluster集群实践

    redis集群参数配置 我们后面会部署一个Redis集群作为例子 在那之前 先介绍一下集群在redis conf中的参数 cluster enabled
  • python编译报错 ImportError: cannot import name ‘jaccard_similarity_score‘

    报错如下 问题代码 import numpy as np from sklearn metrics import jaccard similarity score y pred 0 2 1 3 y true 0 1 2 3 print ja
  • 认识传输层(UDP与TCP)

    传输层主要负责数据能够从发送端发送到接收端 要正确传输就要明确发送端和接收端 这时候IP地址和端口号一起就可以确定一端了 那么他们是怎么唯一标识的呢 1 端口号 port 端口号唯一标识一个主机上进行通信的不同应用程序 在TCP IP协议中
  • flutter Stack超出底图范围后,关闭按键点击效果失效

    既然是关闭按键超出了底图范围导致不能点击 那就让关闭按键不超出就可以了 可以给底图再添加一个大点的底图 这两个底图作为一个整体 关闭按键就可以点击了 如图 下面添加了一个黑色的底图用来扩充原来的底图范围 白色关闭按键就可以点击得到了 ret
  • 计算机硬件耗电,电脑中最耗电的三个硬件排行:这答案意料之外的情理之中!...

    众所周知 只要电脑工作的话就肯定会耗电 那么问题就来了 在电脑中哪个硬件的耗电量是最高的呢 耗电的多少又会有哪些标准进行判断呢 就像笔者的文章中反复强调的 我们既要知道结果但同时还需要知道 为什么 笔者今天就继续用打破砂锅问到底的死磕精神来
  • echarts地图map

    在vue中使用echarts绘制图表 npm install echarts save 全局安装echarts 具体代码及注释如下
  • mac上的matlab的设置工具箱cvx

    cvx的下载地址 http cvxr com cvx download 首先怎么做到在终端运行matlab程序呢 打开终端 vi bash profile 进行配置 加入 export PATH PATH Applications MATL
  • ixp协议服务器,ipx协议中的“内部网络号”是什么意思?

    1 IPX的协议构成 IPX协议簇包括如下主要协议 IPX 第三层协议 用来对通过互联网络的数据包进行路由选择和转发 它指定一个无连接的数据报 相当于TCP IP协议簇中的IP协议 SPX 顺序包交换 Sequenced Packet Ex
  • angular编译版本冲突解决办法总结

    刚刚涉足angular 对于node npm typescript等都不太熟悉 网上下载别人源码一编译 报一堆英文错误 死了的心都有了 先来感受一下吧 经过两天的踩坑 东看看 西查查 终于算是解决了目前项目的错误 虽然不知道为什么 但是可以
  • 三元运算符判断字符串是否为空

    有一个变量String userId 判断是否为null 如果为null 就赋值为空串 否则就不变 用if条件写是 if null userId userId 想用三元运算符写 常见错误写法 userId null userId 这样是错误
  • html禁止自动填充input表单的完美解决办法

    提交登陆等表单时 允许记录了密码则会保存起来 且每次都会自动填充入input 我们有时候不需要自动填充 试过网上的各种方法都没能完美解决 最后终于找到解决办法 废话不多说 直接上代码
  • STM8S105K4T6硬件IIC调试小结

    1 IIC初始化 具体时钟设置参考此篇文章 https blog csdn net u014397533 article details 46495905 void I2C Init void I2C CR1 0x00 禁止I2C外设 此句
  • 日本语语料库

    来自 日语语料库建设的现状综述 上海外国语大学 毛文伟 2009年 1 EDR语料库 EDR 该语料库由日本电子化辞书研究所开发 并于1995年推出 素材选自新闻报道和杂志 规模为 20 万句 另有 10 万 句左右的英语语料 在原始语料的