将 xml 转换为 json 以将文件处理为 Bigquery

2024-02-11

我想将 stackexchange 原始数据处理到 BigQuery 中，但首先数据使用 7z 压缩格式，因此我解压缩数据以将其移植为 gz 格式，但内部文件是 xml。所以我需要将文件从 xml 转换为 json。有任何想法吗？我使用 p7zip 解压缩并使用 xml2json 尝试移植 xml 文件，但不起作用。

<?xml version="1.0" encoding="utf-8"?> <comments> <row Id="1" PostId="1" Score="3" Text="We need to all post more questions. Last time, we kinda &quot;rushed&quot; to get a w hole bunch of people to sign up at the last minute (and pulled some funny stuff" CreationDate="2014-02-12T01:01:14.257" UserId="52" />..

我使用了 xml2json xml2json -t json2xml -o xxx.xml yyy.json

使用 xml-json 的其他测试 **David 建议

使用来自 stackoverflow.com-Users.7z 的文件 Users.xml（大小 895M），命令为：xml-json Users.xml row > Users.json

xml-json Users.xml row > Users.json /usr/local/lib/node_modules/xml-json/node_modules/xml-nodes/index.js:19 this.soFar += String(chunk)
RangeError: Invalid string length
at XmlNodes._transform (/usr/local/lib/node_modules/xml-json/node_modules/xml-nodes/index.js:19:15)
at XmlNodes.Transform._read (_stream_transform.js:183:22)
at XmlNodes.Transform._write (_stream_transform.js:167:12)
at doWrite (_stream_writable.js:265:12)
at writeOrBuffer (_stream_writable.js:252:5)
at XmlNodes.Writable.write (_stream_writable.js:197:11)
at Duplexify._write (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/index.js:197:22)
at doWrite (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/node_modules/readable-stream/lib/_stream_writable.js:237:10)
at writeOrBuffer (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/node_modules/readable-stream/lib/_stream_writable.js:227:5)
at Writable.write (/usr/local/lib/node_modules/xml-json/node_modules/pumpify/node_modules/duplexify/node_modules/readable-stream/lib/_stream_writable.js:194:11)
at ReadStream.ondata (_stream_readable.js:539:20)
at ReadStream.emit (events.js:107:17)
at readableAddChunk (_stream_readable.js:162:16)
at ReadStream.Readable.push (_stream_readable.js:125:10)
at onread (fs.js:1581:12)
at Object.wrapper [as oncomplete] (fs.js:482:17)

David M Smith 的答案是正确的，转换为 CSV 也可以。

经过几次尝试（并编辑了我的答案，因为我在回答之前没有彻底测试），我设法使用一个小的 Python 脚本创建了一个正确的 json 文件，如下所示：

#!python
from __future__ import print_function
import sys
import fileinput
import xml
from xml.dom import minidom
import json

for line in fileinput.input():
        try:
                xmlDoc = minidom.parseString(line)
                print(json.dumps(dict(xmlDoc.childNodes[0].attributes.items())))
        except xml.parsers.expat.ExpatError:
                print("Unable to process line : ", line, file=sys.stderr)
        except KeyboardInterrupt:
                sys.exit(0)

然后您可能需要重新启动 shell 来更新路径（或任何其他方法）。

对于最大的文件，我之前需要将它们拆分，因为 BigQuery 接受最大 4GB 的文件。这是完整的流程：

7z x -so ../orig/stackoverflow.com-Posts.7z 2> /dev/null | ./xmltojson.py > PostHistory3.json
split -e -d -C3G --additional-suffix=.json Posts.json Postssplit
ls Postssplit*.json | xargs -ifile gzip file 
gsutil cp Postssplit*.json.gz gs://YOURBUCKET
bq --project_id=YOURPROJECT load --source_format=NEWLINE_DELIMITED_JSON YOURDATASET.YOURTABLE gs://YOURBUCKET/Postssplit01.json,gs://YOURBUCKET/Postssplit03.json,gs://YOURBUCKET/Postssplit04.json,#ETCETERA 'Id:INTEGER,PostTypeId:INTEGER,AcceptedAnswerId:INTEGER,ParentId:INTEGER,CreationDate:TIMESTAMP,Score:INTEGER,ViewCount:INTEGER,Body:STRING,OwnerUserId:INTEGER,OwnerDisplayName:STRING,LastEditorUserId:INTEGER,LastEditorDisplayName:STRING,LastEditDate:TIMESTAMP,LastActivityDate:TIMESTAMP,Title:STRING,Tags:STRING,AnswerCount:INTEGER,CommentCount:INTEGER,FavoriteCount:INTEGER,ClosedDate:TIMESTAMP,CommunityOwnedDate:TIMESTAMP'

The gsutil部分不是强制性的，但我更愿意将文件上传到云存储中，然后导入。这样，如果导入失败我可以重试。

如果 Google 团队的有人正在阅读，那么将其作为公共数据集就太好了:-)

请注意，这不适用于任何 XML，仅适用于格式类似于当前 Stack Exchange 导出格式的 XML。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

json

googlebigquery

stackexchange

opendata

将 xml 转换为 json 以将文件处理为 Bigquery 的相关文章

为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
Elasticsearch：预期的字段名称，但得到了 START_OBJECT

我一直在尝试运行以下查询但每次运行时都会收到以下错误 nested ElasticsearchParseException Expected field name but got START OBJECT field value fact
如何使用C#在asp.net中下载xml文件

我正在使用网络应用程序ASP NET 与 MVC3 我是 mvc3 的新手我的网页上有一个下载按钮当我要单击下载按钮时我希望能够打开该 XML 文件我尝试过一些代码更改动作结果但我没有打开文件通过使用下面提到的代码我收到一个下载
在 Android 中存储和访问 XML 的最佳方式是什么？

虽然我意识到资源本身是在 XML 文件中定义的但如果我有一个我希望使用的自己类型的 XML 文件我是否应该将它们存储在 res xml 中有没有更好的方法来做到这一点例如使用资产然后将它们加载为二进制文件以供另一个 XML 库解析
如何反序列化键名.Net中包含点（.）的Json字符串[重复]

这个问题在这里已经有答案了 odata metadata sometext odata nextLink sometext value odata type SP Data RegionsListItem odata id 07404daa
如何将我的 json 字符串 avro 二进制编码为字节数组？

我有一个实际的 JSON 字符串我需要将其 avro 二进制编码为字节数组在经历了Apache Avro 规范 http avro apache org docs 1 7 7 spec html 我想出了下面的代码我不确定这是否是正确
自定义 XML 文件比较

我看过很多关于 XML 比较的帖子但我看过的没有一个能解决我的问题我们有一些 XML 格式的文本文档产品描述带有标题和段落正在更新即版本化我的任务是制作变更摘要也就是说我们想要获取两个连续的文件并生成第三个标题结构大纲
Rails 3.2：用 json 序列化中的空字符串替换 null 值

我正在使用 Rails 3 2序列化 http www simonecarletti com blog 2010 04 inside ruby on rails serializing ruby objects with json 将 ru
从 php 到 JavaScript 的数组

我正在尝试使用 json 将数组列表从 php 传输到 javascript 但它不起作用 JS ajax url getProfilePhotos php type post post or get method data if you
在 Android 中使用 DataOutputStream 在 POST 正文中发送特殊字符 (ë ä ï)

我目前正在开发一个具有大量服务器端通信的 Android 应用程序昨天我收到一份错误报告称用户无法发送简单特殊字符例如我搜索过但没有找到任何有用的东西可能重复没有答案 https stackoverflow com que
Text::平衡和多行 xml

看来我有点失落了我需要解析一个大的大约 100 mb 且相当难看的 xml 文件如果我使用parsefile 它返回错误文档元素后的垃圾但它会很乐意解析文件的较小元素所以我决定将文件分解为元素并解析它们由于不鼓励使用正则表达式
在 bash 脚本中提取 XML 值 [重复]

这个问题在这里已经有答案了我正在尝试从 xml 文档中提取一个值该文档已作为变量读入我的脚本中原始变量 data is
D3 将现有 SVG 字符串（或元素）追加（插入）到 DIV

我到处寻找这个问题的答案并找到了一些我认为可能有用的资源但最终没有让我找到答案这里有一些外部SVG http bl ocks org mbostock 1014829 嵌入SVG https stackoverflow com qu
如何更换HXT中的节点？

给定一个示例 xml 文件
编码：类型错误：write() 参数必须是 str，而不是 bytes

我对 python 有初步的了解但不清楚处理二进制编码问题我正在尝试运行 firefox webextensions 示例中的示例代码其中 python 脚本发送由 javascript 程序读取的文本我不断遇到编码错误蟒蛇代码是
通过标识引用对象的标准方法（例如循环引用）？

JSON 中是否有通过身份引用对象的标准方法例如具有大量可能是循环引用的图形和其他数据结构可以被合理地序列化加载吗 Edit 我知道做一次性解决方案很容易列出图中所有节点的列表然后我想知道是否有一个标准的通用的解决方案来解
使用 json_encode() 函数在 PHP 数组中生成 JSON 键值对

我正在尝试以特定语法获取 JSON 输出这是我的代码 ss array 1 jpg 2 jpg dates array eu gt 59 99 us gt 39 99 array1 array name gt game1 publishe
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
shell-out 值到 md5（加密）函数

我正在寻找一种解决方案我正在构建 JSON 记录并需要在 JQ 中生成一些文本但将此文本通过管道传输到 MD5 求和函数并将其用作键的值 echo first John last Big jq id first last md5 通过
基于xsd模式生成xml（使用.NET）

我想根据我的 xsd 架构 cap xsd 生成 xml 文件我找到了这篇文章并按照说明进行操作使用 XSD 文件生成 XML 文件 https stackoverflow com questions 6530424 generatin

随机推荐

在带有 CLion 的 Windows 中使用 CMake (mingw) 在 C++ 中未定义的 Qt5 引用

我在尝试着使用 CMake 学习 Qt5 http doc qt io qt 5 cmake manual html在新的CLion C C IDE https www jetbrains com clion 我对这些工具还比较陌生所以
如果没有 TLS 1.0，WCF .NET 4.0 将无法工作

在我工作的公司中我们有一个产品在 NET Framework 4 0 中使用 SSL 通过 net tcp 使用 WCF 在特定客户端中出于安全原因需要禁用 SSL 2 SSL 3 和 TLS 1 问题是如果没有 TLS 1 0 通信
从 PHP 脚本运行 PHP 脚本而不阻塞

我正在构建一个蜘蛛它将遍历各个站点并对它们进行数据挖掘由于我需要单独获取每个页面这可能需要很长时间可能 100 页我已经将 set time limit 设置为每页 2 分钟但 apache 似乎无论如何都会在 5 分钟后杀死脚
Firebase函数：支持跨函数的全局变量

我想在 http firebase 函数中缓存最近的记录比如最近 24 小时在 http firebase 函数例如 fetchLastXRecords 中我在缓存定义的全局变量来存储记录中查找记录如果找不到则从数据库中获取
pandas KeyError，使用浮点数时找不到索引

我遇到以下问题 import pandas as pd import numpy as np df pd DataFrame np random rand 401 index np linspace 0 1 401 print np lin
通过VBA插入Excel公式

作为另一个问题的延续我试图解决通过 VBA 在宏上插入公式的问题这是我的代码 Range F1 Select ActiveCell Formula IF C1 LPPD MIPRU IF C1 LPGR DCT IF OR C1 LPF
Grails 中具有一个域类的依赖下拉菜单

因此我有一个域类它有很多字段我在 GSP 中准备了五个下拉菜单并且数据在任何下拉菜单的 onChange 上正确过滤但存在问题对于在下拉列表中选择的几组组合我们在数据库中没有数据并且这些组合不是固定的所以我在想是否有可能
如何将 asp:SiteMapPath 的输出转换为列表？

我对 NET 和 VB NET 都非常不熟悉不太清楚如何做到这一点假设我有这样的代码 div class breadcrumb div
WPF 在 InitializeComponent 期间获取 Control null 引用

So my InitializeComponentWindow 构造函数中的方法调用通过 XML 运行并添加控件并将它们插入到事件中因此当其中一个控件的属性发生更改时它会调用订阅该事件的方法该方法引用尚未构建的控件为什么这里会按这
如何在c中绘制直方图

如何在 c 中从 2 个数组绘制直方图您可以用这个字符来表示图表中的计数这是一个可以打印的字符 printf c char 254u 考虑一些随机的float arr and hist保存计数的数组 Code Function gen
越野车弹跳球

我在处理中制作碰撞球草图时遇到了一个奇怪的错误尽管有从墙上弹起的条件有些球粘在上面我在这里找不到错误的根源有人可以帮忙吗我还意识到可能很少很多糟糕的编码实践但我事先道歉我在下面发布代码 1 主要 https pasteb
Webpack / ES6：如何导入样式表

我看到像 bootstrap 这样的存储库开始在它们的中包含额外的标签package json 文件例如 style 和 less https github com twbs bootstrap blob v4 0 0 alpha 2 p
在文本区域“内部”加粗文本

我有一个文本区域 myarea我正在其中输入文本我已经输入了这段文字这是一个句子只有这个词最终会被加粗现在我的侧面有一个按钮就像一个粗体按钮我想选择想要加粗的字母单击按钮然后看到这些字母在文本区域内变成粗体它与许多编辑器
UITableViewCell - 如何在重用之前重置内容

有一个烦人的错误我无法修复我有一个CustomCell 其中我有一个子视图可以根据对象的值更改其颜色 UITableViewCell tableView UITableView tableView cellForRowAtIndexPa
如何使用 jQuery 选择的插件重置表单？

我有一堆select元素的形式为我正在使用 Jquery Chosen 插件 https github com harvesthq chosen 如何重置表格以下不起作用
Three.js 图块具有使用平面几何的多个纹理

所以我正在尝试构建一个由图块组成的基于 3D 的世界我已经成功地使用平面几何和高度值等做到了这一点但现在我已经到了我可能必须改变一切的地步问题是我希望一个图块具有多个纹理使用着色器因为我想混合它们我能够在全球范围内执行此操作因
获取任意变换的 MatrixTransform

我在 WPF 堆栈中工作我希望能够为任何 Transform 获取 MatrixTransform 根据链接here http msdn microsoft com en us library system windows media t
Swing 数据绑定框架

几乎同样的问题被问过year ago https stackoverflow com questions 510655 jgoodies binding vs jsr 295 但是这方面已经有了一些新的发展为 Swing 应用程序选择一个
尝试获取 PDO 中非对象的属性

首先我知道这可能是一个重复的问题但我做了一些搜索例如这个问题 https stackoverflow com questions 5891911 trying to get property of non object in但我不明白
将 xml 转换为 json 以将文件处理为 Bigquery

我想将 stackexchange 原始数据处理到 BigQuery 中但首先数据使用 7z 压缩格式因此我解压缩数据以将其移植为 gz 格式但内部文件是 xml 所以我需要将文件从 xml 转换为 json 有任何想法吗我使用 p

将 xml 转换为 json 以将文件处理为 Bigquery

将 xml 转换为 json 以将文件处理为 Bigquery 的相关文章

随机推荐

热门标签