我想使用维基百科的转储为其类别构建一个层次结构。我已经下载了主转储 (enwiki-latest-pages-articles) 和类别 SQL 转储 (enwiki-latest-category)。但我找不到层次结构信息。
例如,SQL 类别的转储包含每个类别的条目,但我找不到有关它们如何相互关联的任何信息。
另一个转储(最新页面文章)以无序的方式表示每个页面的父类别。它只是说明了所有的父母。
我看过 wikiprep 的类别层次结构(http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/ http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/)...那是如何构造的? Wikiprep 列出了类别 ID,而不是其名称。有没有办法获取每个ID的名称?
MediaWiki中的类别层次结构信息存储在categorylinks table https://www.mediawiki.org/wiki/Manual:Categorylinks_table,所以你需要categorylinks
dump.
您还需要page
(not pages-articles
) 转储页面 id 到标题的映射。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)