转储中的维基百科类别层次结构

2024-04-24

我想使用维基百科的转储为其类别构建一个层次结构。我已经下载了主转储 (enwiki-latest-pages-articles) 和类别 SQL 转储 (enwiki-latest-category)。但我找不到层次结构信息。

例如,SQL 类别的转储包含每个类别的条目,但我找不到有关它们如何相互关联的任何信息。

另一个转储(最新页面文章)以无序的方式表示每个页面的父类别。它只是说明了所有的父母。

我看过 wikiprep 的类别层次结构(http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/ http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/)...那是如何构造的? Wikiprep 列出了类别 ID,而不是其名称。有没有办法获取每个ID的名称?


MediaWiki中的类别层次结构信息存储在categorylinks table https://www.mediawiki.org/wiki/Manual:Categorylinks_table,所以你需要categorylinks dump.

您还需要page (not pages-articles) 转储页面 id 到标题的映射。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

转储中的维基百科类别层次结构 的相关文章

  • 要安装多少个 wiki 实例?

    我被要求安装 Mediawiki 来保存公司内部网的文档 此外 我被要求安装several实例 每个贡献组一个 非技术用户获得一个 开发人员获得一个 管理人员获得一个 等等 我们的想法是为每个组提供单独的网络空间 有没有一种方法可以在一个实
  • 有没有办法使用增量更新 SQLITE 数据库?

    我想知道 SQLite 是否提出了基于某些增量文件的更新机制 例如 Oracle 数据库可以与 sql 重做日志或快照日志同步 SQLite是否提出了一种优化机制来更新自身 我的用例如下 我有一个本地数据库 必须与一些远程数据同步 在理想的
  • 静态库中的 Objective-C 类别

    你能指导我如何正确地将静态库链接到 iPhone 项目吗 我使用添加到应用程序项目中的静态库项目作为直接依赖项 目标 gt 常规 gt 直接依赖项 并且所有工作正常 但类别 静态库中定义的类别在应用程序中不起作用 所以我的问题是如何将某些类
  • MySQL:了解映射表

    当为具有多对多关系的业务目录构建类别导航系统时 我知道创建映射表是一个很好的做法 类别表 类别 ID 类别名称 企业表 企业名称 企业名称 品类映射表 BusinessId CategoryId 当我连接类别表和业务表来创建映射表时 这会给
  • mysql、转储、数据库恢复

    我已使用以下命令转储数据库 mysqldump uuser ppassword db name gt file 然后我完全删除了我的数据库 drop database db name 然后我创建了一个新数据库 create database
  • 如何在Python中正确编码json转储[重复]

    这个问题在这里已经有答案了 我有一个 python 3 脚本 应该从 csv 文件获取一些数据并将其写入 json 文件 在我的处理过程中 编码是正确的 因此德语变音 或度数符号 就像它们本来的样子 coding cp1252 在头部 但是
  • 如何使用 SBCL 正确保存 Common Lisp 图像?

    如果我想创建我的程序的 Lisp 映像 我该如何正确地做到这一点 有什么先决条件吗 它与 QUICKLISP 配合得很好吗 现在 如果我启动 SBCL 仅预加载 QUICKLISP 并保存图像 save lisp and die core
  • 以编程方式检索所有维基百科语言的列表

    我需要检索某个 wiki 项目的所有现有语言的列表 例如 所有维基导游 https www wikivoyage org or all 维基百科 https www wikipedia org语言 就像他们的登陆页面一样 我更喜欢通过这样做
  • MediaWiki 类别不会自动更新

    我有一个MediaWiki在 Linux 服务器上运行的实例似乎不会在提交页面编辑时自动更新其类别 我从未在我使用过的任何其他维基上看到过这一点 所以我想知道是否有一些脚本配置不正确 定期运行rebuildAll php or refres
  • 如何在codeigniter中获取父类别的所有子类别和孙类别?

    I want to get all the child and grandchild categories of a parent category upto any level My table structure goes like t
  • 在Google搜索时如何从第一页获取图像?

    通常使用Google搜索城市后 右侧会出现维基百科页面的一部分 其中包含图像和地图 谁能告诉我如何访问该图像 我应该知道怎么下载 实际上 主图像 与右侧地图图像一起 很少来自维基百科 因此您无法使用维基百科 API 来获取它 如果您想访问实
  • 如何对 r 中的数值范围进行分类

    我有一个数据框 其中每一列对应于患者ID 每一行对应于特定的基因值 df lt data frame Hugo Symbol c CDKN2A JUN IRS2 MTOR NRAS A183 c 0 19 NA 2 01 0 4 1 23
  • 使用 jQuery 的 MediaWiki API 没有响应

    我尝试从 Wikipedia 获取一些 JSON 内容 getJSON http en wikipedia org w api php action query prop revisions rvprop content titles ti
  • 破译vtable转储

    我正在 玩 C 中的虚拟继承 我想知道类对象是如何布局的 我有这三个课程 class A private int a public A this gt a 47 virtual void setInt int x this gt a x v
  • 生成转储并导致非托管代码崩溃?

    当我的应用程序突然崩溃时 有没有办法获得完整的故障转储 问题是 我怀疑这是由于非托管代码杀死了 net 框架本身 因此 除非在崩溃时应用程序附加了调试器 否则应用程序甚至没有机会处理崩溃 我无法附加调试器并等待 因为崩溃是随机发生的 而且我
  • 制作 SQL Server 转储并将该转储导入另一个 SQL Server 的最佳(最简单)方法

    我想从一台服务器在 SQL Server 中实现数据库导出 转储 并将该转储导入到另一台 SQL Server 中 并且不一定使用相同的架构名称 例如 如果我准备了一个数据库 其中包含用于为新客户实施新数据库的所有数据集 则该数据库名为 D
  • Magento 如何通过静态块/页面中的 id 链接到类别

    我正在寻找使用以下方法从静态块链接到一个类别category id 有什么想法吗 我已经进行了通常的搜索 但没有结果 目前我可以做类似的事情 a href 但这并不稳健 使用类别链接小部件内联链接代码 widget type catalog
  • 将 Sandcastle 帮助文件生成器输出(网站)转换为 MediaWiki 格式

    我需要 转换我的 Sandcastle 帮助文件 Web 生成器 SHFB 输出 站点 HTML 转媒体 wiki 格式 找到一种方法来转移 包含 直接将转换后的页面转换为 我们已经建立了 MediaWiki 有任何想法吗 我们的网站中有超
  • Magento - 将特定父类别的子类别列为链接

    我是 php 的初学者 并且一直试图将一个父类别的子类别作为链接调用 我得到了这个 它调出了 getName 但 getUrl 根本没有返回任何 URL 输出代码只是 li a href name of sub a li
  • 运行 NUnit 并指定类别时,是否也可以包含所有未分类的测试?

    我们有数百个测试类 其中几十个测试类标记有以下属性 测试治具 明确 类别 集成测试 因此它们只会在我们通宵自动构建中运行 其余的 TestFixtures 没有指定类别 也没有标记为显式 这是我们运行来执行测试的 NAnt 任务

随机推荐