Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

2024-05-02

In nodeJS，我正在尝试读取镶木地板文件（压缩='snappy'）但没有成功。

I used https://github.com/ironSource/parquetjs https://github.com/ironSource/parquetjsnpm 模块打开本地文件并读取它，但 reader.cursor() 抛出神秘错误'尚未实现'。无论使用哪种压缩（plain、rle 或 snappy）来创建输入文件，都会引发相同的错误。

这是我的代码：

const readParquet = async (fileKey) => {

  const filePath = 'parquet-test-file.plain'; // 'snappy';

  console.log('----- reading file : ', filePath);
  let reader = await parquet.ParquetReader.openFile(filePath);
  console.log('---- ParquetReader initialized....');

  // create a new cursor
  let cursor = reader.getCursor();

  // read all records from the file and print them
  if (cursor) {
    console.log('---- cursor initialized....');

    let record = await cursor.next() ; // this line throws exception
    while (record) {
      console.log(record);
      record = await cursor.next();
    }
  }

  await reader.close();
  console.log('----- done with reading parquet file....');

  return;
};

致电阅读：

let dt = readParquet(fileKeys.dataFileKey);
dt
  .then((value) => console.log('--------SUCCESS', value))
  .catch((error) => {
    console.log('-------FAILURE ', error); // Random error
    console.log(error.stack);
  })

更多信息： 1.我已经使用 pyarrow.parquet 在 python 中生成了 parquet 文件 2.我在写入文件时使用了“SNAPPY”压缩 3.我可以在python中读取这些文件，没有任何问题 4. 每次编写镶木地板文件时，我的架构都不是固定的（未知）。我在写作时不创建模式。 5. error.stack 打印不明确的在控制台中 6. console.log('--------失败', 错误);打印“尚未实施”

我想知道是否有人遇到过类似的问题并有想法/解决方案可以分享。顺便说一句，我的镶木地板文件存储在 AWS S3 位置（与此测试代码不同）。我仍然需要找到从 S3 存储桶读取镶木地板文件的解决方案。

任何帮助、建议、代码示例将不胜感激。

Use var AWS = require('aws-sdk');从S3获取数据。

然后使用node-parquet将镶木地板文件读入变量。

import np = require('node-parquet');

// Read from a file:
var reader = new np.ParquetReader(`file.parquet`);
var parquet_info = reader.info();
var parquet_rows = reader.rows();
reader.close();
parquet_rows = parquet_rows + "\n";

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）的相关文章

Sails.js - 如何更新嵌套模型

attributes username type email validated by the ORM required true password type string required true profile firstname s
s3 中托管的静态网站：页面刷新后返回 404

使用此存储桶策略 Version 2012 10 17 Statement Sid PublicReadGetObject Effect Allow Principal Action s3 GetObject Resource arn aw
如何在启用导航栏的情况下打开新的浏览器窗口？

我有这个JS方法 function OpenLink strDestination var features left 10 top 10 location 0 menubar 0 resizable 0 scrollbars 1 stat
Javascript：通过将路径作为字符串传递给对象来获取对象的深层值[重复]

这个问题在这里已经有答案了可能的重复使用字符串键访问嵌套的 JavaScript 对象 https stackoverflow com questions 6491463 accessing nested javascript obje
使用 jQuery/JavaScript 将文本框值复制到剪贴板

我有一个文本框和按钮如下所示 div class col xs 11 style padding 20px 0 div
属性访问器（getter）的扩展运算符问题

我很难理解为什么以下代码存在一些问题https jsfiddle net q4w6e3n3 3 https jsfiddle net q4w6e3n3 3 Note 所有示例均在 chrome 版本 52 0 2743 116 中进行测试
将数组中的所有元素相乘

我在这里找不到我真正想要的例子我想将所有数组元素相乘因此如果数组包含 1 2 3 总和将为 123 6 到目前为止我已经得到了这段代码但它返回未定义 function multiply array var sum 1 for var
很奇怪！调用 window.location 或 location.replace 会重定向到该页面，然后再次返回！

我处于调试模式因此我可以看到正在访问哪个页面当我打电话时window location or window location replace 它会转到该页面然后返回原始页面怎么会这样解决方案是添加 window location
全局未在 ../node_modules/socket.io-parser/is-buffer.js 中定义

预先感谢您帮助我我正在尝试在我的一个角度组件中连接套接字但在浏览器的控制台中它会抛出一个错误指出 Global 未在 Object node modules socket io parser is buffer js 中定义这是我的
大型应用的回流/布局性能

我正在使用 GWT 构建一个 HTML 应用程序其性能总体上是正确的有时它会加载 DOM 中的许多对象并且应用程序会变得很慢我使用 Chrome 开发者工具分析器来查看时间花在哪里在 Chrome 下一旦应用程序被编译即没有
如何上传文件 - sails.js

我可以下载图像和 pdf 但无法下载文档文件 doc pptx odt 下载文档 doc pptx odt 时仅将其下载为 ZIP XML 文件我可以做什么我在用着填写上传文件文档 https github com balderda
使用 Socket.IO 时如何访问会话标识符？

我有一个聊天我需要管理独特的连接我四处搜寻但我找到的解决方案似乎都已被弃用那么如何使用 Socket IO 获取套接字的会话 ID 我在用着Node js http en wikipedia org wiki Node js Ex
从未使用 mimeType 初始化的 MediaRecorder 获取 mimeType

我正在使用 MediaRecorder API 在页面上录制一些媒体在我的 MediaRecorder 初始化中我没有指定内容类型因为我不需要任何特别的内容浏览器可以选择它想要的 var mediaRecorder new Medi
如何仅突出显示嵌套表的最里面的表行？

我有几个嵌套表我想突出显示鼠标指针下方的最里面的行我怎样才能做到这一点一些提示我使用嵌套表来显示递归表格数据表可以嵌套 10 层嵌套正如您所期望的那样 table tr td table tr td table tr td 可能
从

我有一个 html 画布如下所示 output is a base64string of image data var oldImage new Image oldImage onload function var resizeRatio
window.open 使用 css 样式

我想设计我的 window open 目前我的网页上有一些项目由于解析了某个类而打开然后在新窗口中打开指定的文本我想更改字体大小字体和填充等这是我的 JavaScript 代码
指定在任何 Jest 设置发生之前运行的代码

tl dr 是 1 我怎样才能让Jest使用原生的require函数可以在任何地方加载我的测试中的所有模块 2 我将在哪里如何进行修改即替换为esm加载程序 https github com standard things esm ht
使用 div 或表格来包含链接列更好吗？

我的页面底部有 3 列链接每列都放入一个 div 中所有三个 div 都包装在页面中央的一个大 div 中这是更适合桌子的东西还是桌子不适合这项工作您还可以使用 ul http www w3schools com tags tag
使用 QtWebEngine 将 C++ 对象暴露给 Qt 中的 Javascript

使用 QtWebkit 可以通过以下方式将 C 对象公开给 JavascriptQWebFrame addToJavaScriptWindowObject如中所述https stackoverflow com a 20685002 5959
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac

随机推荐

Firebug 分析问题：“没有要分析的活动”

我想用一些 javascript jQuery 尝试一些不同的选项看看哪个是最快的但是我无法让分析正常工作这是我要测试的代码 this keypress function e console profile test retrieve
在工厂和控制器之间共享 http.get 数据

我成功创建了一个获取 php 文件输出 JSON 的工厂我的问题是如何从控制器内访问它 myApp angular module myApp myApp factory mainData http gt http get gethome
Kotlin 构造函数（主构造函数）

我有一个关于 Kotlin 构造函数的问题 class abc constructor a Int constructor a Int e Int class def a Int constructor a Int e Int this a
NSubstitute 不匹配 Linq 表达式

我正在实现一个存储库模式查询类并使用 NSubstitute 进行测试存储库接口 public interface IMyRepository IQueryable
在 PHP 中获取日期和数字工作日

我正在用 PHP 开发一个应用程序我需要使用日期和工作日的数字表示我尝试过以下方法 today date Y m d number date N strtotime today echo Today today weekday numb
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
google api 时刻错误 Google.GoogleApiException

我正在使用谷歌API 我尝试插入时刻但出现错误 Google GoogleApiException 未处理 Message 发生错误但错误响应无法反序列化来源 Google Apis 服务名称任务我的代码创建服务 var serv
是否可以限制仅 Microsoft Graph 应用程序的权限？

我正在开发一个应用程序来通过 Microsoft Graph 管理房间预订最后应用程序需要读取并取消预订到某个房间资源帐户的会议不幸的是只有许可Calendars ReadWrite这使应用程序有权读取和写入租户中的每个用户日历包
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000
如何使用 GWT 检测操作系统？

Basically what I want to know is to find out if my GWT application is running on a MacOS or any other operating system t
Java 将函数添加到 json 对象而不使用引号。

我正在用 java 构建一个 json 对象我需要将一个函数传递到我的 javascript 中并使用 jquery isFunction 对其进行验证我遇到的问题是我必须将 json 对象中的函数设置为字符串但 json 对象将周围
我可以在 Rust 中将 const 与重载运算符一起使用吗？

在此代码中 allow dead code use std ops Add struct Foo i32 const X i32 1 const Y i32 X X const A Foo Foo 1 const B Foo A A imp
pentaho 从不同的 csv 中相互划分 2 列

在pentaho中我有2个csv文件我需要将列彼此分开并将结果写入新表中 1 csv No A B 1 10 14 2 8 20 2 csv No A B 1 2 7 2 4 10 输出应该是输出 csv No A B 1 5 2 2
JS 中的展开/休息运算符如何工作？ [复制]

这个问题在这里已经有答案了我正在努力完全理解扩展休息运算符在 JS 中的工作原理我已经阅读了 MDN 文档但我仍然不完全清楚我在下面提供了一个示例我在其中使用了它并且它按预期工作 const users name Samir a
如何从 AppDelegate.m 设置 tabBarItem 的徽章（tabBarView 不是根视图）[重复]

这个问题在这里已经有答案了我可以通过以下代码更改 AppDelegate m 中的徽章值 UITabBarController tabController UITabBarController self window rootViewCo
Python list.extend() 是保序的吗？

我想知道扩展函数是否保留两个列表中的顺序 gt gt list 1 2 3 gt gt list extend 4 5 gt gt list 1 2 3 4 5 扩展总是这样工作吗 Yes list extend just extends给
类和结构在填充和继承方面的区别

以下所有操作都将在 GCC 9 1 上使用编译器资源管理器 https github com mattgodbolt compiler explorer 在 x86 64 中使用 O3 我有这个代码 struct Base Base do
Xcode 项目/应用程序名称带有空格问题 - 找不到框架

Xcode 6 1 是否可能因为我的 3 个单词应用程序名称而找不到我之前导入的框架我正在使用 Parse 从来没有遇到过任何问题但实际上当我在 Xcode 中打开我的项目时我收到一个错误提示框架未找到这是荒谬的因为它之前运行
预提交钩子 git 错误

我正在尝试在 python 中执行预提交 git hook 以检查文件的行长度是否小于 80 个字符但是我收到没有此类文件目录的错误我在 fedora 上并设置了 usr bin python help 将不胜感激 usr bin e
Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

In nodeJS 我正在尝试读取镶木地板文件压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet

Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩） 的相关文章

随机推荐

热门标签

Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）的相关文章