将 Elastic 包（嵌套列表？）的 R 输出转换为 data.frame 或 JSON

2024-01-04

我正在使用 R 和“elastic”包来查询包含 JSON 格式的 Twitter 数据的弹性搜索数据库。查询工作正常，我得到了我期望的输出内容（out）。

class(out) 
[1] "list"

和 out$hits$hits 返回

> out$hits$hits
[[1]]
[[1]]$`_index`
[1] "twitter_all_geo-2014-11-01"

[[1]]$`_type`
[1] "ctweet"

[[1]]$`_id`
[1] "ubicity-twitter-160f0964-6fc7-43ef-af2a-0e1b8c8184c7"

[[1]]$`_version`
[1] 1

[[1]]$`_score`
[1] 2.10757

[[1]]$`_source`
[[1]]$`_source`$id
[1] "528330489049120770"

[[1]]$`_source`$created_at
[1] "2014-10-31T23:39:39+0000"

[[1]]$`_source`$user
[[1]]$`_source`$user$name
[1] "afterlifetemis"


[[1]]$`_source`$place
[[1]]$`_source`$place$geo_point 
[[1]]$`_source`$place$geo_point[[1]]
[1] 30.4529

[[1]]$`_source`$place$geo_point[[2]]
[1] 50.61104


[[1]]$`_source`$place$city
[1] "Ukraine"

[[1]]$`_source`$place$country
[1] "Ukraine"

[[1]]$`_source`$place$country_code
[1] "UA"

[[1]]$`_source`$msg
[[1]]$`_source`$msg$text
[1] "u had one job artemis\none"

[[1]]$`_source`$msg$lang
[1] "EN"

[[1]]$`_source`$msg$hash_tags
list()

[[2]]
[[2]]$`_index`
[1] "twitter_all_geo-2014-11-01"

[[2]]$`_type`
[1] "ctweet"
...
...

基本上我想将数据保存为 .csv 文件，所以我输入

> write.csv(out$hits$hits,'out.csv')
Error in data.frame(text = "u had one job artemis\none", lang = "EN",   : arguments imply differing number of rows: 1, 0

我认为有必要将其转换为 data.frame，所以我尝试：

> df <- ldply (out, data.frame)

data.frame 中的错误（文本 =“你有一份工作 artemis\none”，lang =“EN”，：参数意味着不同的行数：1、0

（我也尝试了其他几种乐观的尝试，比如这个：）

> t(sapply(out$hits$hits, '[', 1:max(sapply(out$hits$hits, length))))
  _index                       _type    _id                                                        _version _score  _source
[1,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-160f0964-6fc7-43ef-af2a-0e1b8c8184c7" 1        2.10757 List,5 
[2,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-ba071fff-cafb-4d3f-947d-13c934905c1b" 1        2.10757 List,5 
[3,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-dd64af32-4d59-4008-a3db-74471ad269d1" 1        2.10757 List,5 
[4,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-4ba0d3d0-642d-4f9f-aaf9-c55929c35dc4" 1        2.10757 List,5 
[5,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-d7b8cbbc-87b3-44b5-8c9c-91c7b62f1458" 1        2.10757 List,5 
[6,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-76353a7c-44c9-4863-a59d-adb16716ca18" 1        2.10757 List,5 
[7,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-2aec0798-9918-4b66-9b2a-ef5a4d1f3711" 1        2.10757 List,5 
[8,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-c9e7637d-358a-40ee-a06c-85af04c22191" 1        2.10757 List,5 
[9,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-8928c1ef-f46a-4682-99c4-4dbc55270b03" 1        2.10757 List,5 
[10,] "twitter_all_geo-2014-11-01" "ctweet" "ubicity-twitter-d6b19975-b310-46c4-af11-af56971b7c4b" 1        2.10757 List,5

一开始看起来不错，但实际的推文消息不再在矩阵中

我很乐观，认为可能首先将其转换（返回）为 JSON（使用 RJSON）

toJSON（输出） toJSON(out) 中的错误：无法转义字符串。字符串不是utf8

最后我有一个列表，无法保存，无法转换为 JSON、data.frame 或 data.table （因为它不统一）。有谁可以给我一个提示：a) 将其转换为 JSON 或如何将列表保存到 .csv 文件或将其放入 data.frame 中？

非常感谢，我想我不太明白。

-Tobias

I think unlist() and matrix()可以完成这项工作。

转换的示例Search()-return out进入数据框：

# get the first 3 hits from elasticsearch store
out <- Search(index="shakespeare", size=3)

# (optional) verify that all hits expand to the same length
# (should be true for data intended to be in a table format)
stopifnot(
    sapply(
        out$hits$hits, 
        function(x) {!(length(unlist(x)) - length(unlist(out$hits$hits[[1]])))}
    )
)

# count number of columns, use unlist() to convert 
# nested lists to a vector, use the first hit as proxy
nColumns <- length(unlist(out$hits$hits[[1]]))

# fetch column names ... as above
nNames <- names(unlist(out$hits$hits[[1]]))

# unlist all hits and convert to matrix with ncol Columns, don't forget byrow=TRUE!
df <- data.frame(matrix(unlist(out$hits$hits), ncol=nColumns, byrow=TRUE))

# setting the column names
names(df) <- nNames

# do whatever you want with df
print(df)

Cheers!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

r

twitter

elasticsearch

将 Elastic 包（嵌套列表？）的 R 输出转换为 data.frame 或 JSON 的相关文章

更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
jq中如何分组？

这是 json 文档 name bucket1 clusterName cluster1 name bucket2 clusterName cluster1 name bucket3 clusterName cluster2 name bu
Facet从elasticsearch中的对象获取所有键

假设我有以下文档 title Some Title options key5 1 key3 0 key1 1 title Some Title options key2 0 key3 0 key5 1 我想从中获取所有钥匙options使用
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
更改绘图区域背景颜色

我想使用我们公司的颜色在 R 中制作一个图表这意味着所有图表的背景应为浅蓝色但绘图区域应为白色我正在寻找答案发现绘制一个矩形就可以完成这项工作几乎然而绘图区域现在是白色的并且图形不再可见这可能吗 getSymbols SP
斯皮尔曼相关性和联系

我正在一小组配对排名上计算斯皮尔曼的 rho 斯皮尔曼因处理领带不当而闻名例如取2组8个排名即使两组中有6个是平局相关性仍然很高 gt cor test c 1 2 3 4 5 6 7 8 c 0 0 0 0 0 0 7 8 met
如何从 R 中的多列中获取计数？

我有一个包含三列的数据框 State1 State2 State3 有没有一种方法可以使用所有三列最好使用 dplyr 并且没有显式循环来获取一个数据帧中每个状态的计数我只知道如何做一栏 df gt group by State1 g
如何在 R 中 fork 进程

我试图了解 R 多核包实现的分叉系统包的例子是 p lt fork if inherits p masterProcess cat I m a child Sys getpid n exit I was a child cat I m t
_实际_ Twitter 主题标签格式？不是你的正则表达式，也不是他的代码——真正的代码？

更新如果可以的话请使用 Twitter 的实体他们为您以及其他项目找到了解决方案我的情况是我只有没有实体的推文和所有额外的元数据我花了我认为不合理的时间试图找到actual主题标签的格式据我搜索得知 Twitter 尚未发布任
tidyverse - 将命名向量转换为 data.frame/tibble 的首选方法

使用tidyverse我经常面临将命名向量转换为向量的挑战data frame tibble列是向量的名称执行此操作的首选 tidyverse 方式是什么编辑这与 this https github com hadley dplyr
如何缓存 twitter api 结果？

我想缓存 twitter api 结果的结果并将其显示给用户缓存结果的最佳方法是什么我正在考虑根据时间限制将结果写入文件可以吗还是应该使用任何其他方法最重要的是理想的缓存时间是多少我想显示来自 twitter 的最新内容但
在 R 中显示变量的精确值

gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢抱歉如果这是一个愚蠢的问题我尝试在谷歌上搜索 R 和精确或圆形但我得到的只是有关如何舍入的文章先感谢您所
将 OpenCV Mat 转换为数组（可能是 NSArray）

我的 C C 技能很生疏 OpenCV 的文档也相当晦涩难懂有没有办法获得cv Mat data属性转换为数组 NSArray 我想将其序列化为 JSON 我知道我可以使用 FileStorage 实用程序转换为 YAML XML 但这不
用数组反向查找对象

假设我有一个这样的对象 resourceMap a 0 1 2 3 4 5 6 7 8 9 10 b 11 12 c 21 23 d 54 55 56 57 510 确定是否的最佳方法是什么resourceId 21将会 c 我们不知道钥匙
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
如何在 C# 中获取 Json 数组？

我有一个像这样的 Json 字符串我想将它加载到 C 数组中当我尝试这样做时我收到异常我的字符串 customerInformation customerId 123 CustomerName Age 39 Gender Male
函数速度测试的奇怪结果

我编写了一个使用递归来查找最大公因数分母的函数 gt gcd function a b if length a length b gt 1 warning Only scalars allowed using first element
在java中创建一个XML树并将其转换为json对象

我尝试创建也能够转换为 json 的树但对于只有一个xpath 当我尝试实现多个 xpath 时我无法获得所需的输出这里我分享一下我的实现 private static Document addElemtbypath List
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法

随机推荐

共享模块无法立即使用 - Angular 13

我读过其他答案但没有成功地使用 Angular 13 实现联合模块我总是收到共享模块不可用于急切消费的消息 TL DR 仔细检查自定义 webpack 配置中的公共路径它可能缺少尾随 WebPack 可能会错误地报告为无法立即使
Android 会话在 IBM Websphere Server 中丢失

每当我从 Android 设备点击登录页面时都必须创建并维护一个会话直到用户点击注销按钮但是 IBM Websphere 服务器似乎存在一个奇怪的问题我能够成功登录但是当我尝试请求一些其他数据但会话从服务器丢失在 Apache
如何从一个类（窗口 UI）访问另一个类中的 QString 值？

我即将编写一个小型桌面应用程序来记录同事的工作时间它必须根据我们的需求进行定制因此商业解决方案不是一种选择我们没有钱我正在使用 Qt 5 11 2 和 C 我有一个 MainWindow 第一个窗口 UI 它使用自动完成功能从 sq
用 twig 对对象数组进行排序

我需要订购我收到的带有内部属性的对象列表 I receive a list of objects like that match italy germany date 27 01 2019 competion World cup match
使用 Python 的 optparse 模块，如何创建一个采用可变数量参数的选项？

与 Perl 的Getopt Long您可以轻松定义采用可变数量参数的命令行选项 foo pl files a txt verbose foo pl files a txt b txt c txt verbose 有没有办法直接用Pytho
Windows Phone 7 和本机 C++/CLI

Microsoft 最近为其新的 Phone 7 平台发布了工具和文档令那些拥有大量 C 代码库如我的人感到沮丧的是该平台不再支持本机开发尽管我发现有人猜测这一决定会被推翻但我对此表示怀疑所以我在想通过将这个代码库调整为在
将未知高度的文本垂直居中于未知高度的 div 中

我知道这是一个常见问题而且我已经问过类似的问题但这次我找不到解决方案我正在尝试将文本垂直居中该文本在可以具有不同高度的 DIV 中可以具有不同的高度我试图仅使用 CSS 来解决这个问题而不涉及 HTML 例子 http jsfi
如何在响应式表单中使用对象数组作为控件

我需要动态创建textarea对于表格我有以下模型 this fields isRequired true type options label Option 1 value 1 label Option 2 value 2 并形成 th
在 LLVM 下的 Makefile 中通过 LDFLAGS 加载 zlib 的正确方法是什么？

我的 CFLAGS 有 I usr local sys usr include 正确加载 zlib h LDFLAGS 是 LDFLAGS L usr local sys usr lib lxml2 lzlib 但是当链接器尝试链接时会发生
C# 中的套接字问题

Socket socket new Socket ipe AddressFamily SocketType Stream ProtocolType Tcp socket SetSocketOption SocketOptionLevel S
.Net CultureInfo 月份名称返回额外的空字符串

我有以下代码来获取月份名称列表 var monthNames System Globalization CultureInfo CurrentCulture DateTimeFormat MonthNames 由于某种原因这会不断返回一个
有哪些有用的 TextMate 快捷键？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何导入 3D 场景（.obj 文件和 .mtl 文件）

我买了一个房间的 3D 模型该模型位于 obj格式现在我正在尝试将此模型导入到 Unity3D 中该模型附带 5 x obj files 5 x mtl files n x jpg files n x tga files The m
将 ActiveMQ 嵌入 JBoss 7

我们以前用过ActiveMQ 5 5作为嵌入式服务JBoss 5 通过 ActiveMQ 资源适配器以便 JMS 代理始终在与客户端应用程序本身相同的 JVM 上的本地主机上运行我们按照此说明进行配置 http activemq apa
设置 Nsight 与现有 Makefile 项目一起运行

我通常使用 emacs 或 Kate 但我决定尝试现代 IDE 来运行我的代码我有一个已经工作的 CUDA C makefile 项目我想在 nsight 上运行它但我不知道如何满足我的需求如何告诉 nsight eclipse
在 SQL Server 2008 中返回可变的列数

我的表包含以下字段 Name Age Salary Phone DOB 根据设置表我只需选择一些字段例如我在设置中说仅Name and Phone是必须的我怎样才能使用存储过程来做到这一点 EDIT 哪一个好从表中选择所需字段
内部 .NET Framework 数据提供程序错误 1025

IQueryable
在单独的 WebView 上进行多次登录？（安卓）

我对 Android 开发相当陌生我有一个关于 WebViews 如何处理数据在 Java 中的问题我假设这属于 cookie 类别但我在应用程序的不同选项卡上有两个不同的 webView 我想要一个 webView 称之为web
MATLAB如何自动读取多个文件

我想从不同的数据文件中绘制许多 3D 图表例如我正在使用 fid fopen SS 1 dat r 读取第一个文件然后绘制图表如何设置程序自动将名称更改为 SS 2 dat 同样对于第十个文件名称变为 SS 10 dat 它比第一
将 Elastic 包（嵌套列表？）的 R 输出转换为 data.frame 或 JSON

我正在使用 R 和 elastic 包来查询包含 JSON 格式的 Twitter 数据的弹性搜索数据库查询工作正常我得到了我期望的输出内容 out class out 1 list 和 out hits hits 返回 gt out

将 Elastic 包（嵌套列表？）的 R 输出转换为 data.frame 或 JSON

将 Elastic 包（嵌套列表？）的 R 输出转换为 data.frame 或 JSON 的相关文章

随机推荐

热门标签