如何构建维基百科类别层次结构?

2024-01-29

我正在尝试构建维基百科文章及其类别的树形图。我需要做什么才能做到这一点?

从这个网站(http://dumps.wikimedia.org/enwiki/latest/ http://dumps.wikimedia.org/enwiki/latest/),我已经下载了:

  • enwiki-最新-page.sql.gz
  • enwiki-latest-categorylinks.sql.gz
  • enwiki-20141106-category.sql.gz

我尝试按照这里的答案(转储中的维基百科类别层次结构 https://stackoverflow.com/questions/17432254/wikipedia-category-hierarchy-from-dumps),但类别链接似乎没有相同的架构(没有 pageId 列)。

构建层次结构的正确方法是什么?

额外问题:我如何判断 enwiki-latest-page.sql.gz 中的 35M 页面中哪些是文章(根据维基百科统计,大概有 5M 左右)

Thanks


是的,事实证明是这样的堆栈溢出答案 https://stackoverflow.com/questions/17432254/wikipedia-category-hierarchy-from-dumps是正确的。它引用了正确的数据集,但我太笨了,无法理解如何将它们联系在一起。

感谢 @svick 在私人聊天中引导我完成各个步骤。

为了其他人的利益,我在我的博客中明确详细介绍了数据集之间的关系以及遍历图表的确切步骤,这是我们私人聊天的摘要。

解析维基百科页面层次结构 http://kodingnotes.wordpress.com/2014/12/03/parsing-wikipedia-page-hierarchy/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何构建维基百科类别层次结构? 的相关文章

  • 为什么我无法使用 LWP::Simple 获取维基百科页面?

    我正在尝试使用获取维基百科页面LWP 简单 但他们不会回来了 这段代码 usr bin perl use strict use LWP Simple print get http en wikipedia org wiki Stack ov
  • 获取所有维基百科信息框模板和使用它们的所有页面

    给定一个维基百科页面 例如维基百科 堆栈溢出通常会有信息框 主要位于页面顶部的右侧 截图示例 DBPedia 将所有这些属性列为 RDF 三元组 您可以在以下位置查看示例DBPedia 堆栈溢出 在那里你可以看到该房产dbpprop wik
  • 使用python的urllib2和Beautifulsoup爬取维基百科时删除html标签

    我正在尝试抓取维基百科以获取一些用于文本挖掘的数据 我正在使用 python 的 urllib2 和 Beautifulsoup 我的问题是 有没有一种简单的方法可以从我阅读的文本中删除不必要的标签 例如链接 a 或 span 对于这种情况
  • dbpedia 获取英语以外语言的实体

    我正在尝试使用 sparql 从 dbpedia 中提取包含人名等的实体字典 PREFIX owl
  • XPath 获取两个标题之间的标记

    我正在尝试编写一个小应用程序来从维基百科页面中提取内容 当我第一次想到是否可以时 我认为我可以只使用 XPath 来定位包含内容的 div 但在研究了 Wikipedia 如何构建他们的文章后 我很快发现这并不是那么容易 当我获取页面时分离
  • 如何使用 Python 抓取类别维基百科页面的子类别和页面

    因此 我尝试抓取类别页面的类别标题下的所有子类别和页面 类别 基于类的编程语言 位于 https en wikipedia org wiki Category 基于类的编程语言 我已经找到了一种使用 url 和 mediawiki API
  • 如何获取多语言的维基百科页面?

    我怎样才能获得另一种语言的相同维基百科页面 例如我想获得日语页面 http en wikipedia org wiki Cloud http en wikipedia org wiki Cloud 结果是 http ja wikipedia
  • Antlrworks - 无关输入

    我是这方面的新手 因此我需要你的帮助 我正在尝试解析 Wikipedia Dump 我的第一步是将它们定义的每个规则映射到 ANTLR 不幸的是我遇到了第一个障碍 第 1 行 8 外部输入 需要 我不明白发生了什么事 请帮助我 My cod
  • 如何在Python中对维基百科类别进行分组?

    对于我的数据集的每个概念 我都存储了相应的维基百科类别 例如 考虑以下 5 个概念及其相应的维基百科类别 高甘油三酯血症 Category Lipid metabolism disorders Category Medical condit
  • 如何获取维基百科页面的所有链接及其维基数据 ID?

    什么时候 以下的事情可能实现 在单个查询 API 调用中获取维基百科页面上的所有链接及其各自的维基数据 ID 的列表 通过查询接收各个维基数据项的附加信息 例如属性值 要获取您必须使用的所有维基百科页面链接维基百科API https en
  • 多流维基百科转储

    我下载了德语维基百科转储 dewiki 20151102 pages articles multistream xml 我的简短问题是 在这种情况下 多流 意味着什么 转储使用 bz2 进行压缩 bz2 支持并行版本 使其能够更快地压缩 解
  • 如何从维基百科中获取纯文本

    我想编写一个仅获取维基百科描述部分的脚本 也就是说 当我说 wiki bla bla bla 它将转到维基百科页面为bla bla bla http en wikipedia org wiki Bla Bla Bla 获取以下内容 并将其返
  • 如何构建维基百科类别层次结构?

    我正在尝试构建维基百科文章及其类别的树形图 我需要做什么才能做到这一点 从这个网站 http dumps wikimedia org enwiki latest http dumps wikimedia org enwiki latest
  • 有没有API可以从wiki页面获取图像

    我想从维基百科页面获取主图像 我有所有维基百科实体名称 我从中创建维基链接并从该页面获取主图像 我尝试过 https github com richardasaurus wiki api https github com richardas
  • 维基百科与 Python

    我有这个非常简单的 python 代码来读取 wikipedia api 的 xml import urllib from xml dom import minidom usock urllib urlopen http en wikipe
  • MYSQL插入GB大小的巨大SQL文件

    我正在尝试创建 Wikipedia DB 副本 大约 50GB 但在处理最大的 SQL 文件时遇到问题 我使用 linux split 实用程序将 GB 大小的文件拆分为 300 MB 的块 例如 split d l 50 enwiki 2
  • 使用 Python 抓取维基百科数据

    我正在尝试从以下内容中检索 3 列 NFL 球队 球员姓名 大学球队 维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手 一直在尝试使用 beautifulsoup 来
  • 导出维基百科翻译标题的简单方法

    有没有一种简单的方法可以导出维基百科的翻译标题以获得这样的集合 russian title gt english title 我试图从ruwiki 最新 页面 meta current xml bz2 and ruwiki 最新 pages
  • Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

    我想获得维基百科与搜索词相关的可能且可接受的名称列表 在这种情况下是 电晕 当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
  • 维基百科模板参数中的等号无法正确显示

    我注意到使用带有等号的链接似乎无法正常工作 当链接放置在 missing information 模板 有什么方法可以解决此限制 以便可以将带有等号的链接包含在 MediaWiki 模板中 missing information https

随机推荐

  • Java 编译速度 vs Scala 编译速度

    我已经用 Scala 编程有一段时间了 我喜欢它 但令我恼火的一件事是编译程序所需的时间 这似乎是一件小事 但使用 Java 我可以对我的程序进行一些小更改 单击 netbeans 中的运行按钮 然后 BOOM 它正在运行 随着时间的推移
  • 什么是运行时环境?

    有人可以用简单的术语解释一下这意味着什么吗 是指应用程序代码运行的环境 DOS Windows Linux 等 吗 将其与开发环境和构建环境区分开来 您往往会在这里找到层次结构 运行时环境 执行程序所需的一切 但没有工具可以更改它 构建环境
  • 如何P/Invoke“__arglist”函数?

    背景 我用 C 编写了以下函数 extern C declspec dllexport int test const char 我使用 P Invoke 从 C 调用它 DllImport foo bar dll EntryPoint te
  • 使用 GPU PyOpenCL 优化 python 代码的不同方法:内核 GPU/PyOpenCL 内的 extern 函数

    我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后 我可以全局可视化不同贪婪函数的重新
  • 基类中的 Autofac 属性注入

    我正在开发 Windows Phone 8 1 应用程序 并且有一个具有公共属性的基类 public class ViewModelBase public ISomeClass MyProp get set 我的派生类看起来像这样 publ
  • 使用哪种 Micro ORM? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • ViewPager与当前Fragment的通信

    我正在使用 ViewPager http developer android com reference android support v4 view ViewPager html http developer android com r
  • 在 WPF xaml 文件中引用另一个项目中的名称空间

    我引用另一个项目的命名空间 类库 所有模型都驻留在其中 正如相关问题中提到的 他们通过将程序集添加到 xaml 文件中解决了问题 但这对我不起作用 这就是我发帖的原因 我有 2 个项目 WPF 项目本身 类库 包含所有视图模型 WPF项目有
  • 使用pysftp下载文件

    我正在尝试加载 并直接保存在本地 csv文件存储在 FTP 服务器 SFTP 协议 上 我将 Python 与 pysftp 库结合使用 当我检查文件是否存在时 它返回 TRUE 但是当尝试加载文件时 无论我尝试什么 它似乎都是空的 如何将
  • 在特定时间启动和停止 MediaElement

    我正在将应用程序更改为 WPF 它根据定时事件播放音频 视频和图片 我使用了 string MciCommand string Format 播放帧从 0 到 1 2 前 我现在一直在 WPF c 中搜索并尝试解决这个问题 我有一个视频 w
  • 如何为 Wget 设置代理?

    我想使用代理通过 Wget 下载一些东西 HTTP Proxy 127 0 0 1 Port 8080 代理不需要用户名和密码 我怎样才能做到这一点 对于系统的所有用户 通过 etc wgetrc或仅适用于用户 wgetrc file us
  • 实体框架迁移添加列两次

    我正在运行 Entity Freemework Code First 迁移 尝试运行应用程序时 出现错误 列 ID 在规范中出现多次 我在配置中将 AutomaticMigrationsEnabled 设置为 true 因为当我运行项目时
  • highchart 和 .clone() 的问题

    我不明白当我克隆 highchart 时应该如何使用 jQuery clone 我知道 clone 不会链接对象上的方法 因此 高图的克隆看起来是正确的 但您无法再与它交互 所以 我一直在尝试以下操作 function clonage sr
  • 553 5.7.1 :发件人地址被拒绝:不属于用户 [电子邮件受保护]

    在 Rails4 应用程序中 我尝试通过配置 smtp 设置来发送电子邮件 但收到以下错误 553 5 7 1 发件人地址被拒绝 不属于用户所有 电子邮件受保护 cdn cgi l email protection 我正在使用以下设置 co
  • 2022 年 5 月 30 日之后如何通过 Google 使用 MailKit?

    到目前为止 我很高兴使用类似于以下的方法连接到我的 Gmail 帐户 public async Task
  • iOS7 UITableView 部分中的最后一个单元格强制全宽分隔符

    The UITableView下面有定制UITableViewCells我可以使用自定义中的这条线来调整分隔符UITableViewCell self separatorInset UIEdgeInsetsMake 0 kDefaultSe
  • 从链接打开 iOS 笔记应用程序并粘贴剪贴板的内容

    我希望能够通过网页或 Web 应用程序内部的链接在 iPhone 上打开 iOS 笔记应用程序 并自动粘贴剪贴板中的任何内容 或者打开已加载字符串的笔记 我知道可以使用如下链接打开笔记应用程序 a href Open notes a 有什么
  • 如何保存数据并重新打开上次使用的Activity

    我已经完成了游戏的大部分机制 现在我需要能够 Save一切data当前活动和retrieve回来时 我希望有一个例子SharedPreferences如果这就是我需要的 开背相同Activity I left from and在相同的tim
  • 如何在 Android 上显示来自 Base64 字符串的 PDF?

    我正在开发一个 Android 应用程序 我将 PDF 数据作为 blob 类型保存在 MYSQL 数据库中 我正在将 base64 发送到 Android 应用程序 如何在 Android 应用程序中显示 pdf 当您拥有 yourBas
  • 如何构建维基百科类别层次结构?

    我正在尝试构建维基百科文章及其类别的树形图 我需要做什么才能做到这一点 从这个网站 http dumps wikimedia org enwiki latest http dumps wikimedia org enwiki latest