维基百科 MediaWiki API 解析

2023-11-15

使用开放的 API 做一个自己的小项目,是一个很好的学习方法。但好像开放的 API 选择并不多。这里给大家多一个选择,简单介绍一下维基百科使用的 MediaWiki API。

简介

先简单介绍几个容易混淆的概念。

Wiki

Wiki 是一种在网络上开放且可供多人协同创作的超文本系统。Wiki 站点可以由多人维护,不同人可以对同一个主题进行拓展和探讨。

MediaWiki

MediaWiki 是一个免费、开放的 Wiki 引擎,很多著名的 wiki 网站都采用这套系统。

Wikipedia

我们常说的维基百科,一般是指 Wikipedia,它是基于 MediaWiki 的一个网络百科全书。

但要理解的是,除了 Wikipedia,还有很多别的 Wiki 站点。从这个角度考虑的话,维基(Wiki)也有可能是指别的网站,不过 Wikipedia 太出名了,以至于很多人直接将 Wikipedia 等同于 Wiki。

文档

在了解到维基百科的 API 是开放的之后,我就找到了官方的 API 文档,但以我目前的水平,这个文档几乎完全看不懂。在网上找了很久,希望可以有一篇文章以中文看得懂的方式,告诉我这些 API 是怎么用的,但很可惜并没有。

没办法,自己对着官方文档琢磨了很久,勉强总结出一些比较常用的调用方法。希望本文可以让你对 MediaWiki 的内容获取有一个大概的了解,让你能用它做出自己的项目。

本文所有内容都来自以下官方文档,如果能看懂,就不用再往下看啦。

MediaWiki API

Wikipedia API

为了方便理解,下面的说明都会有例子,用的是「灰机wiki」的「冰与火之歌中文维基」站点,域名是 asoiaf.huijiwiki.com,并通过 api.php 访问。当然,只要是基于 MediaWiki 的 Wiki 站点,下面说明都是适用的。

action

接口中的 action 用来指定请求相应的动作,他的可取值非常非常多。我们这里只考虑内容的获取,不进行用户管理、内容编辑等操作,所以只要知道一个值就行了,所有接口都是 action = query。query 就是代表获取数据。

format

这个用来指定数据返回的格式,我们统一用 JSON 格式,即 format = json。

但我在使用过程中发现,返回的 JSON 数据很多都是用「*」号或者是数字作为字段名的,解析起来很麻烦。这种情况下可以尝试增加 formatversion = 2,让返回的数据更正常一些,便于解析。

list

在 action = query 的情况下,会增加一些可用的参数,其中 list 是比较常用的一个。list 的可选值也很多,下面是几个我认为比较常用的值。

allcategories

在对一个站点还不是很了解的情况下,我们可以先看一下它有哪些分类。list = allcategories 代表列举出所有分类:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&list=allcategories&aclimit=50

其中,aclimit 指定了返回的条目数量,默认值是 10,不能超过 500。

当数据存在下一页的时候,返回的数据里会有 continue 字段,比如:

continue: {
    accontinue: "Castle_Black",
    continue: "-||"
}
复制代码

要获取下一页,把 accontinue 这个参数带上就行:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&list=allcategories&aclimit=50&accontinue=Castle_Black

categorymembers

现在我们知道有哪些分类了,接下来想看一下某个分类下有哪些内容,就要用到 categorymembers,它用于列出指定分类中的所有页面。分类名传入 cmtitle,需要包括「Category:」这个前缀。

假如我想看一下「史塔克家族」有哪些页面:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&list=categorymembers&cmtitle=Category:史塔克家族&cmlimit=50

这里控制返回数量的是 cmlimit,获取下一页的是 cmcontinue。

random

要是我想给用户一种新鲜感,每次在首页随机展示一些内容,list = random 是你需要的,它用于随机返回一些内容:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&list=random&rnlimit=50&rnnamespace=0

rnlimit 控制返回的数量,默认是 1。同理,获取下一页要用 rncontinue。后面也是类似的。

这里还有一个命名空间 NameSpace 的概念。当 rncontinue = 0 代表指定返回的是页面,rncontinue = 6 是文件,rncontinue = 14 是分类,别的我还没有用到过。

search

搜索功能肯定是少不了的,我们用 list = search,将关键字传给 srsearch 进行搜索。

搜索含有「史塔克」的页面:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&list=search&srsearch=史塔克&srnamespace=0&srlimit=10

目前我用到的 list 取值就这些。下面讲一下另一个重要的参数。

prop

如果是要获取某个页面的相关数据,就涉及到 prop 这个参数。它用来指定要获取的数据类型,它的可选值也很多,下面也挑几个常用的说。

categories

这个用来获取页面所属的所有分类,比如艾德·史塔克属于史塔克家族,也属于国王之手:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&prop=categories&titles=艾德·史塔克&cllimit=20

images

除了文字描述,图片也是内容里的一个重要信息,prop = images 用来获取指定页面的所有文件。虽然是 image,但是它能获取到各种文件,包括视频:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&prop=images&titles=艾德·史塔克&imlimit=50

pageimages

prop = pageimages 也是用来获取页面图片的,按我的理解,它是用来获取页面封面的。比如我们获取「艾德·史塔克」的封面:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&prop=pageimages&titles=艾德·史塔克&pithumbsize=500

pithumbsize 用来指定图片的尺寸,默认只有 50 px。另外要注意,不是每个页面都是有封面的。

revisions

接下来是最重要的获取页面内容了。revisions 文档解释是用来获取修订版本信息的,可以用来获取最新的页面数据。

我这样来获取「艾德·史塔克」的页面数据:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&prop=revisions&titles=艾德·史塔克&rvprop=content&rvparse=true

rvprop = content 表示需要返回页面的文本内容。rvparse = true 表示将文本内容解析为 html,否则是纯文本内容。

除了 content,rvprop 还有很多可选值,同时需要多种内容,可以用「|」分隔。比如同时返回修订时间戳、修订的用户及修订内容,可以这样表示:rvprop=timestamp|user|content。

其实很多参数的取值都是支持使用「|」的,将多条数据一起返回。比如我们将上面提到的 prop 取值一次全部获取到,可以这样调用:

http://asoiaf.huijiwiki.com/api.php?action=query&format=json&formatversion=2&prop=categories|images|pageimages|revisions&titles=艾德·史塔克&rvprop=timestamp|user|content&rvparse=true

总结

上面介绍的这些只能算是接触到 MediaWiki API 的一点皮毛而已,但我还是花了些时间才总结出来的。想要有很深入的了解,还是要去研究一下官方文档。

我用冰与火中文维基的接口写了一个 Android App,叫「冰与火维基」,但还有一些没优化好的地方,感兴趣的可以在这里下载到。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

维基百科 MediaWiki API 解析 的相关文章

  • 在 Laravel 视图中使用 CSS?

    我刚刚开始学习 Laravel 并且可以掌握控制器和路由的基础知识 我的操作系统是 Mac OS X Lion 它位于 MAMP 服务器上 我的routes php代码 Route get function return View make
  • PDO 返回不正确但重复的数据。密钥不在数据库中。

    我刚开始使用 pdo 语句 所以可能是一些简单的东西 我还没有在 php net 上读过 查询数据库时我收到重复的结果 Result 0 gt Array umeta id gt 31 0 gt 31 user id gt 2 1 gt 2
  • 如何使用 JSON 结果更新 Extjs 进度条?

    我在让进度条从 Json 结果中检索进度并根据每 10 秒的计时器检查更新进度条时遇到一些困难 我可以创建这样的 json 结果 success true progress 0 2 我想总体思路是 我需要一个间隔设置为 10 秒的任务 并让
  • 有没有办法在 Windows 上全局安装 Composer?

    我读过全局安装文档 http getcomposer org doc 00 intro md globally对于 Composer 但仅适用于 nix 系统 curl s https getcomposer org installer p
  • 作为数据流写入 div

    考虑写入 div 的 AJAX 调用 recent req post result php d data function returnData content html returnData PHP 脚本位于result php执行一些需
  • 如何使用 PHP 调整缩略图大小时提高图像质量?

    我在网上找到了这个脚本 它可以从图像中创建缩略图 但创建的缩略图质量很差 如何提高图像的质量 有没有更好的方法来创建缩略图 如果有的话 您能给我指点一下如何使用 PHP 创建缩略图的教程吗 这是下面的代码
  • 回显 HTML 并内置 PHP

    请帮助我使用 echo 与 HTML 和 PHP 使用数组范围将其转换为动态
  • 如何正确转义反斜杠以匹配单引号和双引号 PHP 正则表达式模式中的文字反斜杠

    为了匹配字面上的反斜杠 很多人和PHP 手册 http www php net manual en regexp reference escape php说 总是三重转义吧 就像这样 Note 单引号和双引号 PHP 字符串具有反斜杠的特殊
  • PHP 特性 - 定义通用常量

    定义可由命名空间内的多个类使用的常量的最佳方法是什么 我试图避免过多的继承 因此扩展基类不是理想的解决方案 并且我正在努力寻找使用特征的良好解决方案 这在 PHP 5 4 中是否可行 或者应该采取不同的方法 我有以下情况 trait Bas
  • php_zip 在 php 5.3.5 中不存在

    我正在使用 PHPExcel 要求之一是我需要启用 php zip 如果您需要 PHPExcel 来处理 xlsx 或 ods 文件 您将需要 邮政编码扩展名 我正在使用 PHP v5 3 5 并在我的php ini文件中 我有以下几行 e
  • PHP shell_exec 使用 ssh 运行 shell 脚本

    我有一个 shell 脚本 使用 ssh 和密钥连接到另一台机器 因此它不需要用户名和密码 当我从命令行运行这个脚本时 它工作正常 但是当我从 php shell exec 运行这个脚本时 它不起作用 如果我与 PHP 建立 ssh 连接并
  • 使用 jquery 迭代 json 数组

    已经有一些帖子和我遇到了类似的问题 如何使用 PHP 中的 jQuery AJAX 调用迭代 JSON 数组 https stackoverflow com questions 6472338 how do i iterate over a
  • 自动安排并执行 PHP 脚本

    我编写了一个 PHP 脚本 它生成一个包含数据库中所有表的 SQL 文件 我想要做的是每天或每 n 天执行这个脚本 我读过有关 cron 作业的内容 但我使用的是 Windows 如何在服务器上自动执行脚本 您需要添加计划任务来调用 URL
  • PHP 中比较运算符“==”的混淆

    In PHP null 0 0 0 如果将这两者结合起来 您会期望 null 0 但是这是错误的 有人可以向我解释一下吗 在第一种情况下 null 0 null评估为false 与 一样0其评估结果为false 所以两者都是false所以比
  • 在php中将数组写入文件并获取数据

    我有一个数组 使用后如下所示print r Array 0 gt Array 0 gt piklu name gt piklu 1 gt Array 0 gt arindam name gt arindam 2 gt Array 0 gt
  • 如何在 PHP 中使用 foreach 循环仅回显一次特定的多个相同记录?

    我在 PHP 中使用 foreach 循环得到这些输出 现在 foreach 内部的输出如下所示 PHP代码 table thead tr th ACCOUNT NUMBER th th CATEGORY th th AMOUNT th t
  • Android - 从服务器获取响应时验证 JSON 以避免 JSONException

    在我的一些与服务器通信并使用 http 获取响应的应用程序中 我使用 json 来格式化数据服务器端 当它到达设备时 我使用类似于我在 stackoverflow 上找到的代码 private class LoadData extends
  • PHPExcel输出乱码

    我正在尝试 PHPExcel 附带的简单示例 01simple xls 我得到乱码输出 它 LibreOffice 想要导入文件 它认为字符集是西欧 DOS OS2 861 icelandic 输出是这样的
  • Mysqli 准备好的语句从数组动态构建 INSERT 查询

    我正在尝试用 PHP 而不是 OOP 开发我的函数 以创建 CRUD 目标是对任何表使用相同的函数 但我已经陷入了第一个表中 不知道该怎么做 我现在拥有的 function to avoid injections function vali
  • 无法读取解析推送通知包数据

    我尝试使用 Parse 推送通知服务发送自定义数据 但从 Bundle 中提取时总是返回 null 值 自定义广播接收器 Override public void onReceive Context context Intent inten

随机推荐

  • 面试官:HBase 有哪些优化点?

    这是个相对开放的问题 问题没有那么得细 面对这种问题千万不要乱了阵脚 其实这种问题答得好是很加分的 可以从几个不同的方向来回答 这样显得有条理 而且可以向面试官展现你的多维度思考和总结的能力 两个角度 一个从使用者的角度 一个从维护者的角度
  • CopyFile()的使用方法

    1 设置工程默认的Unicode字符集为Not Set 编写代码如下 函数CopyFile source destination false 表示 如果目标文件夹已经有相同的文件 则该文件会被替换 函数CopyFile source des
  • 什么是weak symbol?

    weak symbol 我们用nm看动态库时 会发现有些符号类型是 V 手册里解释如下 V The symbol is a weak object When a weak defined symbol is linked with a no
  • 【报告分享】2021年元宇宙发展报告-数据观(附下载)

    摘要 2021年被公认为是 元宇宙元年 这距被称为 虚拟现实元年 的2016年已过去5年之久 业界将元宇宙视为新增长点和下一个具有战略意义的竞争领域 将引发全球科技产业的新一轮洗牌 学术界和产业界普遍认为 元宇宙本身不是一种技术 而是整合多
  • 正则表达式中.*的作用

    今天看正则表达式的书籍是看到这么个例子 要求匹配 文章中的xml 匹配使用的正则表达式为 lt xml gt 一开始没有理解 是做什么用处的 百度了一番后明白了 原来 中 代表任意单个字符 包括空格 代表前面任意单个字符的重复次数 因此 l
  • mysql 获取当前时间戳

    ysql 获取当前时间为select now 运行结果2012 09 05 17 24 15 mysql 获取当前时间戳为select unix timestamp now 运行结果 unix timestamp now 134683698
  • ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

    关于这个问题是在 基于MySQL Yum存储库在Linux 7 2上安装MySQL 5 7 21数据库服务 实战篇 时遇到的问题 这是 mysql 初始化时 使用临时密码 修改自定义密码时 由于自定义密码比较简单 就出现了不符合密码策略的问
  • maven工程下 读取resource下配置文件

    在maven工程中 我们会将配置文件放到 src main resources 下面 例如 我们需要确认resource 下的文件 编译之后存放的位置 它编译的路径直接位于classes下面 这个路径其实就是classPath的路径 所以
  • 【C语言基础】学生成绩管理系统(方法:数组)

    涉及 字符型数组 代码 include
  • 两款免费、好用的数据库连接工具

    一 Navicate Navicat是一套快速 可靠的数据库管理工具 专为简化数据库的管理及降低系统管理成本而设 它的设计符合数据库管理员 开发人员及中小企业的需要 Navicat 是以直觉化的图形用户界面而建的 让你可以以安全并且简单的方
  • 《5分钟说完一个概念》:什么是Bootstrap采用

    想知道中国人的平均身高 群体均值 群体方差为 每次抽样 1000 人 抽样了 次 每次抽样的 1000人 的平均身高是一次随机抽样 这
  • 网络带宽和吞吐量

    转载网络带宽和吞吐量
  • crmeb 多商户小程序配置

    一 小程序下载并提交审核 下载微信小程序代码 位置 平台后台 gt 应用 gt 小程序 1 首先需要填写这里的小程序信息 然后在这里就可以下载 如果未开启直播要选择 否则会无法使用 2 下载编译后的小程序代码 没有配置小程序的需要先配置小程
  • 计算机视觉实验:直方图均衡化、Hough变化应用

    实验结果
  • npm指令执行前执行自定义代码

    1 基本逻辑 npm start执行前执行node bin wb handle scripts wb node bin wb handle npm start wb handle源码 删除deleteNodeModules配置的最后一级目录
  • OA项目之项目整体业务分析【附项目原型图演示】

    Welcome Huihui s Code World 接下来看看由辉辉所写的关于OA项目的相关操作吧 目录 Welcome Huihui s Code World 一 项目简介 1 目的 2 人员名词解释 3 主界面展示 二 会议管理 1
  • UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position

    爬虫爬取网页 将其写入文档 出错 错误如下 coding utf 8 和数据流IO操作时的编码转化都已经在程序中加入了 gbk哪里来的呢 其实就是win中新文件的默认编码是gbk 当我们遇到编码问题的时候 有三个地方需要注意的 文件的编码
  • 计算机网络:计算机网络拓扑结构的五种分类方式

    计算机网络拓扑分类 计算机网络的拓扑结构指网络节点和链路之间的分布和互连形成的物理形状 分类一 星形拓扑结构 一种以中央节点为中心 把若干外围节点连接起来的辐射状互联结构 优点 易扩充 控制简单 中央节点实施对全网的控制 缺点 中央节点会成
  • 数据拟合

    数据拟合 MATLAB实现RBF径向基神经网络多输入数据拟合 目录 数据拟合 MATLAB实现RBF径向基神经网络多输入数据拟合 基本介绍 程序设计 模型差异 参考资料 基本介绍 RBF神将网络是一种三层神经网络 其包括输入层 隐层 输出层
  • 维基百科 MediaWiki API 解析

    使用开放的 API 做一个自己的小项目 是一个很好的学习方法 但好像开放的 API 选择并不多 这里给大家多一个选择 简单介绍一下维基百科使用的 MediaWiki API 简介 先简单介绍几个容易混淆的概念 Wiki Wiki 是一种在网