是否可以使用 Google BERT 来计算两个文本文档之间的相似度?据我了解,BERT 的输入应该是有限大小的句子。一些作品使用 BERT 来计算句子的相似度,例如:
https://github.com/AndriyMulyar/semantic-text-similarity https://github.com/AndriyMulyar/semantic-text-similarity
https://github.com/beekbin/bert-cosine-sim https://github.com/beekbin/bert-cosine-sim
是否有 BERT 的实现来将其用于大型文档而不是句子作为输入(包含数千个单词的文档)?
BERT 并未经过训练来确定一个句子是否紧随另一个句子。这只是其中之一胶水任务 https://openreview.net/pdf?id=rJ4km2R5t7还有更多。所有的 GLUE 任务(和强力胶)都被 ALBERT 淘汰了。
BERT(以及 Albert)绝对是自然语言理解领域的最先进技术。 Doc2Vec 还差得很远。 BERT 不是词袋方法。它是一个基于 Transformer 的双向注意力编码器,它是 Google Brain 论文的化身注意力就是你所需要的 https://arxiv.org/abs/1706.03762。另请参阅此视觉分解 http://jalammar.github.io/illustrated-transformer/的 Transformer 模型。
这是一种看待自然语言的全新方式,它不使用 RNN、LSTM、tf-idf 或任何类似的东西。我们不再将单词或文档转换为向量。GloVes:单词表示的全局向量 https://nlp.stanford.edu/projects/glove/LSTM 已经很老了。 Doc2Vec 已经很旧了。
BERT 非常强大——就像轻松通过图灵测试一样强大。看一眼
See 强力胶 https://w4ngatang.github.io/static/papers/superglue.pdf刚刚出来的。滚动到底部看看这些任务有多么疯狂。这就是 NLP 的用武之地。
好的,现在我们已经放弃了 tf-idf 是最先进的想法 - 您想获取文档并查看它们的相似性吗?我会在 Databricks 上分两层使用 ALBERT:
执行提取或抽象摘要:https://pypi.org/project/bert-extractive-summarizer/ https://pypi.org/project/bert-extractive-summarizer/(注意这些文本文档有多大——并将文档缩减为摘要。
在单独的步骤中,获取每个摘要并执行第 3 页中的 STS-B 任务GLUE https://openreview.net/pdf?id=rJ4km2R5t7
现在,我们在这里谈论绝对前沿的技术(阿尔伯特在过去几个月才出现)。你需要非常熟练才能完成这个任务,但这是可以完成的,我相信你!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)