读论文（五）MedDialog【参考性大】【可复现】

2023-11-13

Abstract

医疗对话系统有望帮助远程医疗增加医疗保健服务的可及性，提高患者护理质量并降低医疗成本。为促进医学对话系统的研发，我们构建了大规模的医学对话数据集——MedDialog，其中包含中文数据集340万条医患对话，英文数据集120条对话。

MedDialog 是迄今为止最大的医学对话数据集。我们在中文 MedDialog 数据集上预训练了几个对话生成模型，包括 Transformer、GPT、BERT-GPT，并比较了它们的性能。结果表明，在 MedDialog 上训练的模型能够生成临床上正确且类似于人类的医学对话。

我们还研究了在 MedDialog 上训练的模型对低资源医学对话生成任务的可迁移性。结果表明，通过对在 MedDialog 上预训练的模型进行微调的迁移学习，可以大大提高具有小数据集的医学对话生成任务的性能，如人工评估和自动评估所示。

Introduction

作为在医院和诊所进行的传统面对面医疗的重要补充，远程医疗具有许多优势。首先，它增加了获得护理的机会。其次，它降低了医疗保健成本。第三，远程医疗可以提高护理质量。

它也有一些缺点；增加了医生的负担。其次，与住院患者不同，临床医生可以轻松跟踪其病情进展，远程患者难以跟踪和监测。（提出了问题）

为了解决这些问题，人们越来越关注开发人工智能 (AI) 方法来协助远程医疗。特别是，正在开发医疗对话系统以充当“虚拟医生”。这些“虚拟医生”旨在通过自然对话与患者互动，询问患者的医疗状况和病史，并提供临床建议。他们还可以主动与患者联系，询问患者病情的进展并及时提供干预措施。

为了建立医疗对话系统，需要大量患者和医生之间的对话作为训练数据。由于数据隐私问题，此类数据难以获取。为了解决现有数据集的局限性，我们构建MedDialog，数据集几乎涵盖了从内科到家庭医学的所有医学专业，涵盖了广泛的疾病，包括癌症、肺炎等。据我们所知，它们是迄今为止最大的中英文医学对话数据集。

每次咨询都以描述医疗状况和病史开始，然后是医生和患者之间的对话。在某些会诊中，医生会做出诊断结论并给出治疗建议。对话有多个轮回。

我们在中文 MedDialog 数据集上预训练了几个对话生成模型，包括 Transformer、BERT-GPT 和 GPT，

BERT-GPT是一种预训练模型，其中编码器使用 BERT 进行预训练，解码器使用 GPT进行预训练。 GPT 是一种基于 Transformer 解码器的预训练语言模型。

如果直接在小规模数据集上训练大型神经模型，则该数据集的小尺寸会导致过度拟合的高风险。为了减轻这种风险，我们采用在大规模数据集上预训练的对话生成模型的权重，然后再应用到小规模数据集上，效果也很好。

第 2 节和第 3 节介绍了数据集和对话生成模型（DGM）。第 4 节给出了在 Chinese MedDialog 上开发 DGM 的实验结果，并研究了在 MedDialog-CN 上训练的 DGM 对其他低资源医学对话生成任务的可迁移性。第 5 节回顾了相关工作，第 6 节总结了论文。

在训练期间，给定一个包含患者和医生之间交替话语序列的对话，我们将其处理成一组对 {(si, ti)}，其中目标 ti 是来自医生的响应，源 si 是连接ti 之前的所有话语（来自患者和医生）。

建模（略）

预训练

在 MedDialog-CN 数据集上训练 Transformer 和 GPT 之前，我们可以先在比 MedDialog-CN 大得多的通用域文本数据集上对它们进行预训练，以获得权重参数的良好初始化。

Experiments

首先，BERT-GPT 实现了比 Transformer 更低的困惑度。这是因为 BERT-GPT 在大量语料库上进行了预训练，然后在 MedDialog-CN 上进行了微调。预训练使模型能够更好地捕捉单词之间的语言结构，从而降低困惑度。GPT的perplexity最高。

其次，在 NIST-4、BLEU-2、BLEU-4 和 METEOR 等机器翻译指标上，BERT-GPT 的表现比 Transformer 差。

模型的示例

Conclusions and Future Works

我们在 MedDialog-CN 上预训练 Transformer、GPT 和 BERT-GPT。结果表明，这些预训练模型生成的对话具有临床意义且类似于人类。我们使用迁移学习将这些预训练模型应用于低资源对话生成。在数据集较小的 COVID19 对话生成任务中，人工评估和自动评估表明，在 MedDialog-CN 上预训练的模型可以有效提高生成响应的质量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nlp读论文

1024程序员节