我需要一个文本文件来包含 .txt 文件中每个标题/每个主题的标题/每个项目的标题,每个标题都占一行。
如果我已经下载了 freebase rdf 转储,我该如何执行此操作或进行此操作?
如果可能,我还需要一个单独的文本文件,其中每个主题/项目的描述位于一行,每个描述位于其自己的行上。
我怎样才能做到这一点?
如果有人能帮助我从 Freebase rdf 转储中制作这些文件,我将不胜感激。
提前致谢!
根据谓词/属性过滤 RDF 转储ns:type.object.name
。如果您只想要一种特定的语言,也可以按该语言进行过滤,例如@en
.
编辑:我也错过了关于所需描述的第二部分。这是一个由三部分组成的正则表达式,它将为您提供所有行:
- 英文名
- 英文说明
- /common/topic 的一种类型
将三者结合起来作为读者的练习。
zegrep $'\tns:(((type\\.object\\.name|common\\.topic\\.description)\t.*@en)|type\\.object\\.type\tns:common\\.topic)\\.$' freebase-rdf-2013-06-30-00-00.gz | gzip > freebase-rdf-2013-06-30-00-00-names-descriptions.gz
似乎有一个性能问题,我必须考虑一下。在我的笔记本电脑上对整个文件进行简单的 grep 大约需要 11 分钟,但它已经运行了好几次。不过我稍后还要看看...
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)