自然语言处理(NLP)主要包括自然语言理解(NLU)和自然语言生成(NLG)。为了让NLU任务发挥最大的作用,来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解基准和分析平台,也就是GLUE(General Language Understanding Evaluation)。 GLUE包含九项NLU任务,语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。目前,大家要把预测结果上传到官方的网站上,官方会给出测试的结果。 GLUE的论文为:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding[1] GLUE的官网为:https://gluebenchmark.com/
MRPC(The Microsoft Research Paraphrase Corpus,微软研究院释义语料库),相似性和释义任务,是从在线新闻源中自动抽取句子对语料库,并人工注释句子对中的句子是否在语义上等效。类别并不平衡,其中68%的正样本,所以遵循常规的做法,报告准确率(accuracy)和F1值。
A text file containing 5800 pairs of sentences which have been extracted from news sources on the web, along with human annotations indicating whether each pair captures a paraphrase/semantic equivalence relationship. Last published: March 3, 2005. 一个包含5800对句子的文本文件,这些句子是从网络上的新闻来源中提取出来的,并带有人类注释,说明每一对句子是否包含释义/语义等价关系。最后出版日期:2005年3月3日。