国内免费汉语语料库-NLP

2023-05-16

自转载https://www.sohu.com/a/196504864_236505

(一)国家语委

1国家语委现代汉语语料库http://www.cncorpus.org/

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词,词性标注软件,词频统计,字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

(二)北京大学计算语言学研究所

1“人民日报”标注语料库http://www.icl.pku.edu.cn/icl_res/

“人民日报”标注语料库中一半的语料(1998年上半年)共1300万字已经通过“人民日报”新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三)北京语言大学

汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

语言研究所:北京口语语料查询系统(BJKY)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

(四)台湾中央研究院

中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

1现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/

专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所,语言所词库小组完成,内含有简介,使用说明,现行的语料库是4.0的版本。

2古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw

古汉语语料库包含以下五个语料库:上古汉语,中古汉语(含大藏经),近代汉语,其他,出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

3近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/

为应用汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉),中古汉语(东汉魏晋南北朝),近代汉语(唐五代以后)大部分的重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

4树图数据库http://treebank.sinica.edu.tw/

「中文句结构树资料库」(Sinica Treebank Version 3.0)包含了6个档案,61,087个中文树图,361,834个词,是中央研究院词库小组从中央研究院平衡语料库(Sinica Corpus)中抽取句子,经由电脑剖析成结构树,并加以人工修正,检验后所得的成果。在中文句结构树中,我们标示了中文句语意和语法的讯息。此一「中文句结构树资料库」目前开放网上检索及资料移转,以供学者专家在中文句法,语意关系研究参考之用。另有1000个句结构树开放下载。

5中英双语知识本体词网http://bow.sinica.edu.tw/

结合词网,知识本体,与领域标记的词汇知识库。

6搜文解字http://words.sinica.edu.tw/

包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

7文国寻宝记http://www.sinica.edu.tw/wen/

在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

8唐诗三百首http://cls.admin.yzu.edu.tw/300/

以 国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作 者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入 诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

9汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/

包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

(五)中国传媒大学

1中国传媒大学文本语料库检索系统

http://ling.cuc.edu.cn/RawPub/

2在线分词标注系统

http://ling.cuc.edu.cn/cucseg/

3新词语研究资源库

http://ling.cuc.edu.cn/newword/web/index.asp

4音视频语料检索系统

http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)

(六)哈尔滨工业大学

1哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

(七)清华大学

汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

(八)香港教育学院

语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc

自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。 本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

(九)中国科学院计算技术研究所

跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级)

目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。

(十)中文语言资源联盟

中文语言资源联盟http://www.chineseldc.org/

(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源)

 

【网站】

语料库在线 http://www.cncorpus.org/

现代汉语语料库 http://ccl.pku.edu.cn/corpus.asp?item=1

古代汉语语料库 http://ccl.pku.edu.cn/corpus.asp?item=2

汉英双语语料库 http://ccl.pku.edu.cn/corpus.asp?item=3

HSK动态作文语料库 http://202.112.195.192:8060/hsk/login.asp

北京口语语料查询系统 http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

现代汉语平衡语料库 http://rocling.iis.sinica.edu.tw/new/20corpus.htm

LIVAC共時語料庫 http://www.livac.org/index.php

兰开斯特汉语语料库 http://ling.cass.cn/dangdai/LCMC/LCMC.htm

洛杉矶加州大学汉语语料库 http://www.lancs.ac.uk/fass/projects/corpus/UCLA/

中文新闻分类语料库 http://www.nlpir.org/?action-viewnews-itemid-145

NLPIR 500万条twitter内容语料库 http://www.nlpir.org/?action-viewnews-itemid-263

NLPIR微博博主语料库100万条 http://www.nlpir.org/?action-viewnews-itemid-232

現代漢語語料庫詞頻統計 http://elearning.ling.sinica.edu.tw/CWordfreq.html

欢迎关注新浪微博【对外汉语北京】

中文句結構樹資料庫 http://turing.iis.sinica.edu.tw/treesearch/

搜狗文本分类语料库 http://www.sogou.com/labs/dl/c.html

哈工大信息检索研究室对外共享语料库 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

传媒大学文本语料库 http://ling.cuc.edu.cn/RawPub/

词语研究资源库 对外汉语北京 http://ling.cuc.edu.cn/newword/web/index.asp

BFSU CQPweb多语言在线语料库检索平台 http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358

英汉双语平行语料库 http://www.luweixmu.com/ec-corpus/

babel汉英平行语料库http://icl.pku.edu.cn/icl_groups/parallel/default.htm

中国法律法规汉英平行语料库(大陆)http://corpus.zscas.edu.cn/lawcorpus1/index.asp

国家语言资源监测与研究中心http://www.clr.org.cn/

英国国家语料库http://www.natcorp.ox.ac.uk/

以下资源来自中国自然语言开源组织:http://www.nlpcn.org/ Google“纽约时报”标注数据集

Google公布了一个“纽约时报”标注数据集:http://t.cn/RPsjAyl训练集包括100,834文件,19,261,118标注实体。测试集合包括9,706文件,187,080标注实体.Google Code项目链接:http:// t.cn/RPsjAyl

360万中文词库包含,词性,词频

来源:互联网。共有词条3669276个。统计了每个词条的词频以及词性信息。尽请下来..下载地址:http://pan.baidu.com/s/1gdBtsTP提取码:7s4j

10亿字语言建模基准1.67G

10亿字 - 语言 - 建模 - 基准 - r13output.tar语言模型词语搭配语料链接:http://pan.baidu.com/s/1o6jZOtc密码:x4sb

某购物网站6瓦特多的商品数据

某购物网站6w多的商品数据。链接:http://pan.baidu.com/s/1o6DgcNS密码:vi4l包括商品名称价钱。以及图片链接地址分类ID

来源:HTTP://www.cnblogs.com/mo-wang/p/4444858.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

国内免费汉语语料库-NLP 的相关文章

  • sysctl

    sysctl命令用于运行时配置内核参数 xff0c 这些参数位于 proc sys 目录 xff0c 可以使用sysctl修改系统变量 xff0c 也可以通过编辑 etc sysctl conf文件来修改系统变量 sysctl 选项 参数
  • function declaration isn't a prototype解决办法

    对以上程序 xff0c 在编译驱动的时候会出现以下warning 在网上查到解决办法是 xff1a 即使函数括号内没有任何参数 xff0c 也要加一个void类型 xff0c 来避免这种warning xff1a 解决如下 xff1a
  • i2c信号的ACK与NACK

    nbsp nbsp nbsp nbsp nbsp nbsp nbsp 我们平时在调试I2C的时候可能很少去关注NACK信号 只知道如果Master发送数据 MSB先发 LSB后发 连续发送一个字节 8个bit 之后Slave会回复一个ACK
  • ubuntu的recovery mode

    偶尔会遇到Ubuntu无法正常启动的情况 xff0c 这时候需修改某些文件让系统正常启动 xff0c 如果直接进入 recovery 模式 xff0c 默认是文件权限只读 xff0c 无法修改文件 这时我们需要进入recovery 的单用户
  • oprofile库安装与使用

    一 概述 oprofile库是linux平台上的一个功能强大的性能分析工具 xff0c 支持两种采样方式 xff1a 基于事件的采样与基于时间的采样 1 xff09 基于事件的采样 xff1a oprofile只记录特定事件 xff08 比
  • 超声波模块

    HC SR04 简介 HC SR04超声波模块可提供2cm 400cm的距离感测功能 xff0c 测量精度可以达到3mm 模块包括超声波发射器 xff0c 接收器与控制电路 基本工作原理 1 采用Trig引脚触发 xff0c 给至少10us
  • /proc/interrupts

    proc interrupts中的字段依次是逻辑中断号 中断在各CPU上发生的次数 xff0c 中断所属父设备名称 硬件中断号 中断触发方式 电平或边沿 中断名称 proc interrupts的具体实现查看代码kernel irq pro
  • BGP-LS 简介

    BGP LS xff08 BGP Link state xff09 汇总IGP协议收集的拓扑信息上送给上层控制器 产生原因 BGP LS是收集网络拓扑的一种新的方式 BGP LS特性产生前 xff0c 路由器使用IGP xff08 OSPF
  • ubuntu下vnc使用

    使用apt cache search vncserver命令搜索可以用来安装vncserver的软件包 xff0c 这里选用vnc4server安装vnc 2 使用apt get install vnc4server命令安装vncserve
  • 使用“反射”将 Java 中一种对象类型转换为另外一种类型

    将一种对象类型转换为另外一种类型的常用场景 场景如下 xff1a 一般后端是使用 MVC 三层架构进行分层 实体类 User 用于接收数据库中的数据 xff1b 表现层 UserVo 将数据传给前端 这中间免不了要将实体类转换为表现层中的对
  • Ubuntu18.04 vnc灰屏问题

    vnc安装完以后 xff0c 用客户端登录发现只有5901端口可用 xff0c 但是其他端口登录上去以后都是灰屏的 查找了一下 xff0c 需要修改配置文件 vnc xstartup为如下内容 xff1a bin bash export d
  • 安装docker

    1 查看docker安装目录 whereis docker docker usr bin docker etc docker usr libexec docker usr share man man1 docker 1 gz 2 查询运行文
  • 关于PiBOT使用的一些问题汇总--ing

    xff1a 多机通讯是按照教程设置环境变量ROS MASTER URI 初始化 pibot init env sh xff0c 使用rostopic已经能够查看 xff0c 但是主机PC无法启动launch 原因 xff1a 个人测试是需要
  • ubuntu 19.10系统解决E: 仓库 “http://ppa.launchpad.net/webupd8team/java/ubuntu eoan Release” 没有 Release 文件。

    在终端换源后遇到E 仓库 http ppa launchpad net webupd8team java ubuntu eoan Release 没有 Release 文件 问题 解决方法 xff1a 将对应的ppa删除即可 第一步 xff
  • 使用org-mode生成晨检报告

    原文地址 https lujun9972 github io blog 2020 04 10 使用org mode生成晨检报告 index html 我们设置了每天8点多自动进行调用一次晨检脚本 xff0c 该脚本会将检查的一些数据存入本地
  • 使用Pi-hole屏蔽广告

    原文地址 https www lujun9972 win blog 2020 12 05 使用pi hole屏蔽广告 index html 目录 获取Pi的对外IP地址安装Pi hole配置DNS配置拦截域名 获取Pi的对外IP地址 我们一
  • 笑话理解之Mature

    原文地址 https www lujun9972 win blog 2020 12 09 笑话理解之mature index html 目录 The difference between government bonds and men T
  • 笑话理解之Hearing

    原文地址 https www lujun9972 win blog 2020 12 09 笑话理解之hearing index html 目录 The Hearing Problem The Hearing Problem In a chu
  • Emacs 作为 MPD 客户端

    原文地址 https www lujun9972 win blog 2022 06 26 emacs 作为 mpd 客户端 index html 今天才知道 xff0c Emacs居然内置了一个 mpc el 可以将 Emacs 转换为 M
  • 编译SONiC交换机镜像(转,参考2)

    sonic buildimage 编译SONiC交换机镜像 描述 以下是关于如何为网络交换机构建 ONIE 兼容网络操作系统 xff08 NOS xff09 安装程序镜像的说明 xff0c 以及如何构建在NOS内运行的Docker镜像 请注

随机推荐