我正在尝试构建维基百科文章及其类别的树形图。我需要做什么才能做到这一点?
从这个网站(http://dumps.wikimedia.org/enwiki/latest/ http://dumps.wikimedia.org/enwiki/latest/),我已经下载了:
- enwiki-最新-page.sql.gz
- enwiki-latest-categorylinks.sql.gz
- enwiki-20141106-category.sql.gz
我尝试按照这里的答案(转储中的维基百科类别层次结构 https://stackoverflow.com/questions/17432254/wikipedia-category-hierarchy-from-dumps),但类别链接似乎没有相同的架构(没有 pageId 列)。
构建层次结构的正确方法是什么?
额外问题:我如何判断 enwiki-latest-page.sql.gz 中的 35M 页面中哪些是文章(根据维基百科统计,大概有 5M 左右)
Thanks
是的,事实证明是这样的堆栈溢出答案 https://stackoverflow.com/questions/17432254/wikipedia-category-hierarchy-from-dumps是正确的。它引用了正确的数据集,但我太笨了,无法理解如何将它们联系在一起。
感谢 @svick 在私人聊天中引导我完成各个步骤。
为了其他人的利益,我在我的博客中明确详细介绍了数据集之间的关系以及遍历图表的确切步骤,这是我们私人聊天的摘要。
解析维基百科页面层次结构 http://kodingnotes.wordpress.com/2014/12/03/parsing-wikipedia-page-hierarchy/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)