Abstract
医疗对话系统有望帮助远程医疗增加医疗保健服务的可及性,提高患者护理质量并降低医疗成本。为促进医学对话系统的研发,我们构建了大规模的医学对话数据集——MedDialog,其中包含中文数据集340万条医患对话,英文数据集120条对话。
MedDialog 是迄今为止最大的医学对话数据集。我们在中文 MedDialog 数据集上预训练了几个对话生成模型,包括 Transformer、GPT、BERT-GPT,并比较了它们的性能。结果表明,在 MedDialog 上训练的模型能够生成临床上正确且类似于人类的医学对话。
我们还研究了在 MedDialog 上训练的模型对低资源医学对话生成任务的可迁移性。结果表明,通过对在 MedDialog 上预训练的模型进行微调的迁移学习,可以大大提高具有小数据集的医学对话生成任务的性能,如人工评估和自动评估所示。
Introduction
作为在医院和诊所进行的传统面对面医疗的重要补充,远程医疗具有许多优势。首先,它增加了获得护理的机会。其次,它降低了医疗保健成本。第三,远程医疗可以提高护理质量。
它也有一些缺点;增加了医生的负担。其次,与住院患者不同,临床医生可以轻松跟踪其病情进展,远程患者难以跟踪和监测。(提出了问题)
为了解决这些问题,人们越来越关注开发人工智能 (AI) 方法来协助远程医疗。特别是,正在开发医疗对话系统以充当“虚拟医生”。这些“虚拟医生”旨在通过自然对话与患者互动,询问患者的医疗状况和病史,并提供临床建议。他们还可以主动与患者联系,询问患者病情的进展并及时提供干预措施。
为了建立医疗对话系统,需要大量患者和医生之间的对话作为训练数据。由于数据隐私问题,此类数据难以获取。为了解决现有数据集的局限性,我们构建MedDialog,数据集几乎涵盖了从内科到家庭医学的所有医学专业,涵盖了广泛的疾病,包括癌症、肺炎等。据我们所知,它们是迄今为止最大的中英文医学对话数据集。
每次咨询都以描述医疗状况和病史开始,然后是医生和患者之间的对话。在某些会诊中,医生会做出诊断结论并给出治疗建议。对话有多个轮回。
我们在中文 MedDialog 数据集上预训练了几个对话生成模型,包括 Transformer、BERT-GPT 和 GPT,
BERT-GPT是一种预训练模型,其中编码器使用 BERT 进行预训练,解码器使用 GPT进行预训练。 GPT 是一种基于 Transformer 解码器的预训练语言模型。
如果直接在小规模数据集上训练大型神经模型,则该数据集的小尺寸会导致过度拟合的高风险。为了减轻这种风险,我们采用在大规模数据集上预训练的对话生成模型的权重,然后再应用到小规模数据集上,效果也很好。
第 2 节和第 3 节介绍了数据集和对话生成模型(DGM)。第 4 节给出了在 Chinese MedDialog 上开发 DGM 的实验结果,并研究了在 MedDialog-CN 上训练的 DGM 对其他低资源医学对话生成任务的可迁移性。第 5 节回顾了相关工作,第 6 节总结了论文。
在训练期间,给定一个包含患者和医生之间交替话语序列的对话,我们将其处理成一组对 {(si, ti)},其中目标 ti 是来自医生的响应,源 si 是连接ti 之前的所有话语(来自患者和医生)。
建模(略)
预训练
在 MedDialog-CN 数据集上训练 Transformer 和 GPT 之前,我们可以先在比 MedDialog-CN 大得多的通用域文本数据集上对它们进行预训练,以获得权重参数的良好初始化。
Experiments
首先,BERT-GPT 实现了比 Transformer 更低的困惑度。这是因为 BERT-GPT 在大量语料库上进行了预训练,然后在 MedDialog-CN 上进行了微调。预训练使模型能够更好地捕捉单词之间的语言结构,从而降低困惑度。GPT的perplexity最高。
其次,在 NIST-4、BLEU-2、BLEU-4 和 METEOR 等机器翻译指标上,BERT-GPT 的表现比 Transformer 差。
模型的示例
Conclusions and Future Works
我们在 MedDialog-CN 上预训练 Transformer、GPT 和 BERT-GPT。结果表明,这些预训练模型生成的对话具有临床意义且类似于人类。我们使用迁移学习将这些预训练模型应用于低资源对话生成。在数据集较小的 COVID19 对话生成任务中,人工评估和自动评估表明,在 MedDialog-CN 上预训练的模型可以有效提高生成响应的质量。