如何本地读取羽毛/箭头文件？

2024-02-16

I have feather格式文件sales.feather我用来在之间交换数据python and R.

在 R 中我使用以下命令：

df = arrow::read_feather("sales.feather", as_data_frame=TRUE)

在 python 中我使用了：

df = pandas.read_feather("sales.feather")

将数据从该文件加载到内存中运行的 Spark 实例的最佳方法是什么pyspark？我也想控制pyspark.StorageLevel用于从羽毛读取的数据。

我不想使用 pandas 加载数据，因为它对我的 19GB Feather 文件（从 45GB csv 创建）存在段错误。

丑陋的黑客 - 使用箭头地图 https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.mapInArrow.html.

import pyarrow as pa


def read_arrow(spark, filename, schema=None):

    def mapper(iterator):
        with pa.memory_map(filename, "rb") as source:
            f = pa.ipc.open_file(source)
            for batch in iterator:
                for i in batch['id']:
                    yield f.get_batch(i.as_py())

    tmp_reader = pa.ipc.open_file(filename)
    num_batches = tmp_reader.num_record_batches
    if schema is None:
        # read first batch and convert just one row to pandas
        tmp_row = tmp_reader.get_batch(0)[:1]
        schema = spark.createDataFrame(tmp_row.to_pandas()).schema
    return spark.range(num_batches).mapInArrow(mapper, schema)


df = read_arrow(spark, "some-data.arrow")
df.show()

（奖励：在 Spark 中使用零复制的内存映射值！雅虎！）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

pyarrow

apachearrow

feather

如何本地读取羽毛/箭头文件？的相关文章

Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引

随机推荐

列出预训练模型中 spaCy 中最相似的单词

有了 Gensim 在我训练了自己的模型之后我可以使用model wv most similar cat topn 5 并获取最接近的 5 个单词的列表cat在向量空间中例如 from gensim models import Word
FireStore 不生成添加复合查询的链接 - 只说找不到索引 - 没有创建索引的链接 - 手动索引不起作用 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案新 FireStore 中的重大破坏性错误没有链接正在生成或打印在日志中为查询多个创建复合索引它用来生成并点击此链接直接构建索引现在没
如何做到随机优先？ [复制]

这个问题在这里已经有答案了这是我的代码例如
microsoft.identityModel 上的 Web 配置转换 - 未声明“http://schemas.microsoft.com/XML-Document-Transform”属性

我有一个 Web Release config 正在成功转换连接字符串当我添加 microsoft identityModel 部分时我收到一条警告 http schemas microsoft com XML Document Tra
Xcode 将 iOS 应用程序归档为 Mac 应用程序

我有一个 iOS 应用程序在过去的一年里我已经构建了好几次并且已经部署了无数的临时构建没有出现任何问题然而今天 Xcode 决定在归档我的应用程序时应将其视为 Mac App Store 应用程序而不是构建我可以共享的 ipa
根据字符串长度调整字体大小

我有一个垂直菜单我想使其可本地化但菜单元素中的本地化字符串经常超出边缘所以问题是如何根据 CSS 中的字符串长度调整字体大小如果可能的话不使用 JavaScript Thanks UPD JQuery 不可接受纯JS有什么办法吗
使用selenium java提取dataLayer对象

我正在尝试找到一种使用 selenium webdriver 通过 java 从网站提取数据层对象的方法我正在尝试自动发送到 gtm 的内容有人可以给我一些如何继续的指导吗只需使用 WebDriver 进行 JavaScript 调用
Django - 如何为注册网站用户和非网站用户建立模型？

我有一个Trip该模型可以让多个参与者和一个所有者订阅一次给定的旅行参与者是在网站上注册的用户但我也希望能够将离线用户添加到旅行中即在网站上没有帐户的用户以便我可以跟踪所有即将到来的用户所有者和参与者链接到 Userena 用
where 子句中的动态列名。实体框架

我想在我的选择查询中动态放置列名称我怎样才能做到这一点 public IEnumerable MyTable MySelect string colName string param using MyEntities db new MyE
我应该使用 ReactDOMServer.renderToString() 或任何其他方式将反应组件渲染为字符串吗？

我正在使用以下命令从应用程序上的较大地图组件中提取一个微小组件Leafet http leafletjs com 并且似乎不可能将 JSX 包含到 Leafet DivIcon 的 html 字符串中更大的地图组件渲染部分 render
使用 SFINAE 的代码可与 GCC 配合使用，但不能与 Clang 配合使用

我正在尝试在 C 11 中使用 SFINAE 来实现序列化库我的代码可以在 GCC 中正常运行但不能在 Clang 中运行我在这里将其简化为最少的代码 template
带过滤器的 Mongo 日期范围索引

我们有以下查询 db Comment find and reportCount gt 0 assignee exists false creationDate gt new Date 1507831097809 creationDate l
如何获取 kotlin 代码中 'gradle.properties 中定义的自定义属性？

我添加了一个自定义属性gradle properties libraryVersion 0 1 0 beta 如何在我发布的代码中阅读此内容我想在我的 Kotlin 库中使用这个值而不需要对其进行硬编码您可以访问中定义的系统属性gra
消耗 System.Threading.Channels.Channel 中的所有消息

假设我有一个多个生产者 1个消费者未绑定Channel 与消费者 await foreach var message in channel Reader ReadAllAsync cts Token await consume messa
使用情节提要时，“-(id) init”不会在 ViewController 中触发

我注意到使用 Storyboard 时 ViewController 中的 id init 不会被执行是否有任何其他方法可以替代 init 或者是否有办法强制启动 init 尝试使用 id initWithCoder NSCoder aD
休眠中的魔法 npe

当我写作时 Session session sessionFactory getCurrentSession List
在OpenCV中的findContours()中使用层次结构？

在查找轮廓时我使用了 CV RETR CCOMP 参数这应该创建一个两级层次结构第一级用于外部轮廓第二级用于孔的边界然而我以前从未使用过层次结构所以我对此并不熟悉有人可以指导我如何仅进入孔的边界吗我想忽略外部轮廓只绘制孔
尝试从 Windows 中的 Docker 访问 USB 设备

我无法准确地找到有关如何从 Windows 中的 Docker 访问 USB 设备的任何说明尽管这些说明here http reprage com post configure android development environmen
使用 c# .net 通过 Google Calendar Api v3 创建日历时出现错误 404

我正在尝试使用 Google Calendar API v3 创建日历如果它尚不存在我的实现成功检索了我的所有日历和事件并且可以更改日历但我在添加新日历方面遇到了困难这就是我为了尝试为用户添加新日历而所做的 var calend
如何本地读取羽毛/箭头文件？

I have feather格式文件sales feather我用来在之间交换数据python and R 在 R 中我使用以下命令 df arrow read feather sales feather as data frame TRU

如何本地读取羽毛/箭头文件？

如何本地读取羽毛/箭头文件？ 的相关文章

随机推荐

热门标签

如何本地读取羽毛/箭头文件？的相关文章