wikiextractor 提取维基百科语料报错的解决办法

2023-11-05

我提取维基百科语料的时候，刚开始使用的wikiextractor ，后来发现总是报错，于是就没有用了，由于很多人都在问我是怎么提取的，现在把代码公布下

代码不是我写的，是从一个网站找到的，由于太久了，忘记了网站的地址，就没办法贴原网址了，如果作者看到了请私信我原网址

作者的邮箱是：panyangnlp@gmail.com

使用方法：命令行输入命令:

python data_pre_process.py zhwiki-latest-pages-articles.xml.bz2(维基百科语料库) wiki.zh.text(保存的文件)

源码：

# -*- coding: utf-8 -*-
# Author: Pan Yang (panyangnlp@gmail.com)
# Copyrigh 2017
from __future__ import print_function

import logging
import os.path
import six
import sys

from IPython.core.page import page
from gensim.corpora import WikiCorpus

page.encoding = 'utf-8'

# 将维基百科xml语料库封装成txt格式
# python data_pre_process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)

    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    # check and process input arguments
    if len(sys.argv) != 3:
        print("Using: python process_wiki.py enwiki.xxx.xml.bz2 wiki.en.text")
        sys.exit(1)
    inp, outp = sys.argv[1:3]
    space = " "
    i = 0

    output = open(outp, 'w', encoding='utf-8')
    wiki = WikiCorpus(inp, dictionary={})
    for text in wiki.get_texts():
        if six.PY3:
            output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
            #   ###another method
            #   output.write(space.join(map(lambda x: x.decode("utf-8"), str(text))) + '\n')
        else:
            output.write(space.join(text) + "\n")
        i = i + 1
        if i % 10000 == 0:
            logger.info("Saved " + str(i) + " articles")

    output.close()
    logger.info("Finished Saved " + str(i) + " articles")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

python

开发语言

wikiextractor 提取维基百科语料报错的解决办法的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers

随机推荐

jdk1.8的Future特性简介及使用场景

文章目录 Future简介什么是Future Future的使用场景 Future接口内部的常用方法 Future的常见用法一基础用法重写Callable接口的call方法放到异步线程的 submit方法中执行代码实例二进阶
UEFI 之 Capsule Update （固件更新）

概要什么是UEFI Capsule Update呢 Capsule 顾名思义是胶囊的意思所以UEFI Capsule Update可以理解为胶囊式固件更新 UEFI规范定义了Firmware Management Protocol
【华为OD机试真题 JS】靠谱的车

标题靠谱的车时间限制 1秒内存限制 262144K 语言限制不限程序员小明打了一辆出租车去上班出于职业敏感他注意到这辆出租车的计费表有点问题总是偏大出租车司机解释说他不喜欢数字4 所以改装了计费表任何数字位置遇到数字4就
[Scala]001-初识

Scala 发音 sk l 取自于 Scalable 可伸缩可扩展的 Language简写 01 基本概念 1 多范式多种编程方法目前有四种程序设计方法面向过程面向对象函数式泛型编程范式 programming paradi
latexit使用教程

必备条件下载MacTex mpkg zip并安装写好test bib文件和test tex文件
Flutter一天一控件之ListTile（列表的实现）

ListTile简介 Flutter中的ListTile控件是一种常用的列表项控件它可以用于显示列表中的每一个项通常包含标题副标题图标等内容 ListTile控件的外观和行为类似于Android中的ListView中的列表项一个简
基于相干解调法和基于相位比较法的2DPSK数字通信系统 MATLAB Simulink仿真

1 课程设计目的通过课程设计巩固已经学过的通信原理课程中有关数字调制系统的知识加深对相关知识的理解和应用学会应用Matlab Simulink工具对通信系统进行仿真和调试设计与实现的过程中充分利用图书馆和网络资源提高发现问题和自
linux虚拟机中和主机三种网络连接方式的区别

在介绍网络模式之前关于网络的几个简单命令的使用 ifup eth0 启动网卡eth0 ifdown eth0 关闭网卡eth0 etc network interfaces 网络配置文件 etc init d networking 网络服
软件实训之从调研到设计，产品设计的从0到1

软件实训之从调研到设计产品设计的从0到1 内容关键词调研设计产品课程软件项目实训授课老师张森鹏新浪ID sunlifestyle 中城投丝路 720科技知识来源网络资源汇总整理张森鹏讲课视频汇总整理在互联网产品开发
滴滴社招三面（已拿offer）

一面项目基础技术算法都有项目部分 1 业务流程 2 具体负责的部分 3 工作职责 4 碰到的问题以及怎么解决的每个问题展开说技术部分 1 JVM内存模型具体细节结合实际说每个空间的作用 2 哪些垃圾回收算法各个垃圾回收器
如何给家人购买保险

一保险的本质保险是为了防范分散风险保险的本质是杠杆是风险对冲和风险转移工具杠杆用低成本的投入获得风险发生时高额的索赔买保险就是买一份协议一纸合同二保险的分类保险主要有两大类分别是社会保险和商业保险社会保险主
计算机网络重点知识解析（2）

计算机网络重点知识的总结接上一篇文章文章目录 HTTP协议 HTTP协议简介 HTTP请求响应的步骤 HTTP常见状态码 GET请求和POST请求 Cookie和Session HTTPS协议 Socket 简介总结 HTTP协议 h
Mybatis的xxxMapper.xml文件节点的statementType属性说明

概述在xxxMapper xml文件中可以使用statementType标记使用什么的对象操作SQL语句说明 StatementType取值说明 1 STATEMENT 直接操作sql 不进行预编译获取数据 gt gt Stateme
给模型的模块添加触摸点击等交互事件

给camera添加组件 Component Event Physics Raycaster 给模型添加碰撞体选中要交互的模块 Component Physics Box Collider 调整collider的size直到合适最后同时给
Windows下python（conda）加载spatialite模板

如果在python调用spatialite的函数报错no such function MBRContains ST Contains python则需要加载spatialite扩展共两步 1 先在The Gaia SINS federa
java创建request_java ->HttpServletRequest

HttpServletRequest HttpServletRequest概述我们在创建Servlet时会覆盖service 方法或doGet doPost 这些方法都有两个参数一个为代表请求的request和代表响应response
[JSP暑假实训] 三.MySQL数据库基本操作及Servlet网站连接显示数据库信息

本系列文章是作者暑假给学生进行实训分享的笔记主要介绍MyEclipse环境下JSP网站开发包括JAVA基础网页布局数据库基础 Servlet 前端后台数据库交互 DAO等知识前一篇文章讲解了MyEclipse环境下创建JSP注册表
Java锁性能提高（锁升级）机制总结

锁的使用很难避免如何尽量提高锁的性能就显得比较重要了锁偏向所谓的偏向锁是指在对象实例的Mark Word 说白了就是对象内存中的开头几个字节保留的信息如果把一个对象序列化后明显可以看见开头的这些信息为了在线程竞争不激烈的情况下减
机器学习极好的入门学习视频推荐

首先说明本人最早看的机器学习视频是吴恩达的机器学习后来发现并不适合我如果你以前了解过一些算法不妨看看我以下推荐的视频对于一点都不了解机器学习的小白那就更要看我推荐的视频了当然吴恩达的机器学习也很好但是相信我看下面我推荐的视频是
wikiextractor 提取维基百科语料报错的解决办法

我提取维基百科语料的时候刚开始使用的wikiextractor 后来发现总是报错于是就没有用了由于很多人都在问我是怎么提取的现在把代码公布下代码不是我写的是从一个网站找到的由于太久了忘记了网站的地址就没办法贴原网址了如果

wikiextractor 提取维基百科语料报错的解决办法

wikiextractor 提取维基百科语料报错的解决办法 的相关文章

随机推荐

热门标签

wikiextractor 提取维基百科语料报错的解决办法的相关文章