如何处理 AWS Athena 中的嵌入换行符

2024-02-03

我在 AWS Athena 中创建了一个表，如下所示：

CREATE EXTERNAL TABLE IF NOT EXISTS default.test_line_breaks (
  col1 string, 
  col2 string
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
 'separatorChar' = ',',
 'quoteChar' = '\"',
 'escapeChar' = '\\'
)
STORED AS TEXTFILE
LOCATION 's3://bucket/test/'

在存储桶中，我放置了一个具有以下上下文的简单 CSV 文件：

rec1 col1,rec2 col2
rec2 col1,"rec2, col2"
rec3 col1,"rec3
col2"

When I run data preview request SELECT * FROM "default"."test_line_breaks" limit 10; then Athena returns the following response:

我应该如何设置ROW FORMAT正确处理字段值内的换行符？以便rec3\ncol2出现在col2.

这里的问题是 OpenCSV 序列化器-反序列化器

不支持 CSV 文件中嵌入换行符。

See 此文档来自 AWS http://docs.aws.amazon.com/athena/latest/ug/csv.html.

但是，也许可以使用正则表达式串行器 https://hive.apache.org/javadocs/r1.2.2/api/org/apache/hadoop/hive/serde2/RegexSerDe.html。请记住，该解串器将采用“爪哇味 https://stackoverflow.com/questions/47846031/how-to-regex-apache-log-date-and-time-into-hive" 正则表达式。因此，请务必在调试中使用支持该语法的在线正则表达式工具。

编辑：仍在研究处理嵌入换行的语法\n。但是，这里是一个处理带有可选引号的两列的示例。以下正则表达式"*([^"]*)"*,"*([^"]*)"* worked https://regex101.com/r/hF4fP8/13在您的线路上带有嵌入式回程托架。但是，我thinkPresto 引擎只是为其提供动力rec3 col1,"rec3。我继续努力。

CREATE EXTERNAL TABLE IF NOT EXISTS default.test_line_breaks (
  col1 string, 
  col2 string
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = '"*([^"]*)"*,"*([^"]*)"*'
)
STORED AS TEXTFILE
LOCATION 's3://.../47936191';

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

amazonathena

如何处理 AWS Athena 中的嵌入换行符的相关文章

有人试图破解我的服务器吗？请告诉我我能做什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在我的服务器日志文件中找到了这些请求我在亚马逊EC2上使用nodejs manager html manager html manag
AWS CLI s3 复制失败并出现 403 错误，尝试管理用户上传的对象

尝试将文件从 S3 存储桶复制到我的本地计算机 aws s3 cp s3 my bucket name audio 0b7ea3d0 13ab 4c7c ac66 1bec2e572c14 wav fatal error An error
如何更改AWS ECS集群中的实例类型？

我在 AWS EC2 容器服务中有一个集群设置完毕后我使用了 t2 micro 实例因为这些实例足以进行开发现在我想使用更强大的实例例如 m4 large 我想知道是否可以仅更改实例类型这样我就不需要重新创建整个集群我找不到如
如何通过 API Gateway 使用事件调用类型调用 Lambda 函数？

文件说默认情况下 Invoke API 采用 RequestResponse 调用类型您可以选择通过将 Event 指定为 InitationType 来请求异步执行因此我可以发送到我的函数 python 的就是到处都是 Inspi
AWS Api Gateway + Lambda + 自定义域 (Route53) 缺少身份验证令牌问题

我知道这里已经发布并回答了许多类似的问题但没有一个与我所经历的完全相同我有一个 Lambda 函数来处理传入请求 GET 和 POST 我还设置了一个 API 网关作为面向公众的端点此外我设置了以下自定义域为 API 主机名设置自定
如何将 API Gateway 与 Cognito 联合身份和 Cognito 用户池集成

在AWS中我构建了一个调用Lambda函数的API网关用户通过登录与 Cognito 联合身份池关联的 Cognito 用户池来获得访问权限并且关联的 IAM 角色包含 API 调用权限 API网关方法是POST请求如果我使用用户池
GPU 上的 AWS SageMaker [已关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试在 AWS 上训练神经网络 Tensorflow 我有一些 AWS 积分据我了解 AWS
转换失败：某些目录没有执行权限

我正在尝试创建一个AWS Lambda 层 in AWS 云形成但发生错误层转换失败部分目录没有执行权限服务 AWSLambdaInternal 状态代码 400 错误代码 InvalidParameterValueException
Servlet 从 Amazon S3 读取数据非常慢

我需要一个 Servlet 来从 Amazon S3 服务器返回文件只有服务器有访问凭据 S3 存储桶不公开我无法改变这一点有人告诉我使用数据流但它们太慢了为了进行测试我有一个带有缩略图的小项目当您单击一个项目时它会打开一个
无法从亚马逊Windows实例的公共IP访问node.js服务器

我正在 Windows 服务器的亚马逊微实例上运行 Node js 服务器我无法使用亚马逊实例的公共IP访问node js服务器我可以使用 localhost 12345 从实例访问 node js 服务器但无法使用实例的公共 IP
如何在发送的电子邮件上设置来源/发件人属性的名称？

我正在使用 aws sdk for php 并使用 AmazonSES 发送电子邮件问题是我想设置电子邮件的名称例子指定 lt email address gt 这是我的源代码 mailer new AmazonSES aws con
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
AWS S3 生成签名 URL“AccessDenied”

我正在使用 NodeJs 将文件上传到 AWS S3 我希望客户端能够安全地下载文件因此我尝试生成签名 URL 该 URL 在使用一次后就会过期我的代码如下所示上传中 const s3bucket new AWS S3 access
如何在 Windows Docker 容器中启动 PowerShell (x86)？

我正在尝试从 PowerShell 启动 Windows Docker 容器中的 PowerShell x86 但它不会启动新的 shell 我正在从 AWS Windows EC2 运行 DockerWindows Server 2019
当方括号（“[”，“]”）位于路径中时，AWS API 网关返回 400 错误

我使用 Lambda Integration 设置 API 网关并遇到了这个问题 OK case 请求URI https api gateway host stage hoge hoge 不是配置的路径因此返回正常缺少身份验证令牌 h
有没有办法修复 Elastic Beanstalk 中的 Gem::LoadError

我对 Elastic Beanstalk 比较陌生因此希望得到一些建议将 RoR 应用程序部署到 EB Puma 使用在 64 位 Amazon Linux 上运行的 Ruby 2 6 后当我转到环境链接时它不会呈现我的应用程序
使用 Application Load Balancer + EC2 容器服务时，目标组端口是什么

我正在尝试设置一个侦听端口 443 的 ALB 在随机端口上对 ECS Docker 容器进行负载平衡假设我有 2 个同一任务定义的容器实例侦听端口 30000 和 30001 当我尝试在 AWS EC2 管理控制台中创建目标组时出现
如何获取 URL 端点详细信息作为无服务器框架的 `serverless.yml` 文件中的变量？

Using 无服务器框架 https serverless com framework 到部署 AWS Lambda 函数 Serverless 创建或接收特定 URL 端点字符串我想使用该字符串作为变量在另一部分serverl
S3 REST API 和 POST 方法

我在用着AWS S3 REST API http docs aws amazon com AmazonS3 latest API APIRest html 在解决了一些令人烦恼的签名问题后它似乎可以工作但是当我使用正确的 REST 动
AWS EC2 反向 DNS (PTR) 失败

到处寻找找不到答案我有域名 mydomain com root 和 www 记录指向我的主服务器它运行我的网站我现在使用单独的 AWS ec2 实例为我的域设置电子邮件服务器这是在子域上运行的mail 我的 DNS 看起来像这样

随机推荐

在 UITableView 中点击单元格时显示 UIMenuController 时出现问题

当用户长按分组 UITableView 中的单元格时我尝试显示自定义 UIMenuController 但是在成功检测到长按后我似乎无法显示 UIMenuController 任何帮助是极大的赞赏 MyViewController h
第一个 Mac 应用程序 - Push viewcontroller

我有一个问题我做了一些 iphone 应用程序现在我想做一些 mac 应用程序从一个干净的应用程序中我在 MainMenu xib 上添加一个按钮然后使用一个操作将 NSViewController 添加到 MainMenu 来自
如何在 C++ 中反转字符串向量？ [复制]

这个问题在这里已经有答案了我有一个字符串向量我想反转该向量并打印它或者简单地说以相反的顺序打印该向量我该怎么做呢如果你想以相反的顺序打印向量 include
将 Cakephp 项目从 Cakephp 2.6.2 升级到 3.8 的最佳方法

我的任务是将遗留系统从 Cakephp2 6 2 升级到 Cakephp3 8 显然这两个是截然不同的但是有没有一种简单的方法可以让旧项目与新蛋糕版本一起工作或者有人可以引导我走向正确的方向找到最好的方法来做到这一点不存在适合所有
如何使用@Index JPA注释在主键上设置索引名称？

我的工具 gt Java 8 JPA 2 1 和 Hibernate 4 我只使用 JPA2 1 注释码头中的代码 gt Entity Table indexes Index name INDEX PK columnList ID pub
如何正确“关闭”node.js 服务器？

根据文档 http nodejs org api net html net server close callback呼叫server close 停止服务器接受新连接并保留现有连接所以我的代码是 var http require htt
如何在 ASP .NET CORE Identity 中通过 SignInManager 登录后获取用户声明？

I have an ASP NET Core 2 0 project in which I am using Microsoft s Identity framework for authentication authorization I
对多个 git 项目使用单个 git 存储库

我很便宜我不想为很多 github 帐户付费我有一个看起来像这样的项目结构 repo是项目根 repo 项目1是我有一个Java项目的地方 repo herokurails1是我有一个 Ruby Rails 项目的地方该项目部署到 h
cuda：扭曲发散开销与额外算术

当然扭曲发散通过if and switch语句在 GPU 上要不惜一切代价避免但是扭曲发散的开销是多少仅调度some执行某些行的线程与额外无用的算术考虑以下虚拟示例版本1 device int get D int A int
Android 4.4 不允许我保存使用 adb 命令捕获的图片

我的目标是使用前置和后置摄像头自动执行捕获和保存图片的过程我使用的是运行 Android 版本 4 4 2 的 Nexus 5 但尚未对其进行 root 我使用以下命令分别打开前置和后置摄像头 gt adb shell am start
即使没有析构函数，非静态类成员也会被销毁吗？

在 Bjarne Stroustrup 的 C 编程语言第 4 版第 17 6 节生成默认操作中提到了这一点如果程序员声明了复制操作移动操作或类的析构函数无复制操作移动操作或为该类生成析构函数因此我很困惑为什么Sub
导入错误：无法导入名称操作

尝试运行 django 项目安装了requirements txt 中的所有内容但仍然出现错误 from django contrib admin import ModelAdmin actions ImportError cannot
为什么 binding() 在 e2e 测试中找不到双向绑定？

The binding 函数似乎在 e2e 测试中找不到双向绑定假设有以下绑定
如何在 doInBackground 中的 AsyncTask 中显示 toast

在我正在使用的一项活动中AsyncTask In doInBackground 我正在调用各种方法在其中一种方法中我遇到了异常因此在 catch 块中我想在 Toast 中显示错误我知道我可以使用Log但我还是更喜欢吐司那么如何
将 XML 数据插入 Oracle 数据库

我的任务是从一个数据库非oracle db 获取数据并将该数据插入到另一个数据库 oracle 中我能够以 XML 形式从源数据库获取数据现在我必须将此 XML 作为输入传递到 oracle 数据库以便将 XML 内的所有数据插入到
aufs au_opts_parse:1155:docker[2010] 未知选项 dirperm1

我安装了 Docker 现在当我的 Ubuntu 14 04 Trusty 系统尝试启动时我收到以下消息 aufs au opts parse 1155 docker 2010 unknown option dirperm1 这意味着什
为什么 webpack 需要一个空扩展名

我试图弄清楚为什么 webpack 需要这个空扩展名 Inside resolve extensions总是有这样的配置 extensions js jsx 为什么不能只是这样 extensions js jsx 在较新的 Webpack
如何下载 TFS 搁置集

我需要将 TFS 中的搁置集下载到本地文件夹 Visual studio 2010 有没有下载工具集的工具或插件如果你只需要将文件从搁置集中获取到本地文件夹这是一个正常的过程称为Unshelve http msdn microsoft
即使 IP 更改或浏览器数据已清除，我如何识别网站上的唯一用户？

我正在开发一个视频流网站我想计算每个视频的独特观看次数我参考了互联网上的一些网站甚至询问了其他一些程序员他们说要么使用 cookie 要么使用会话要么使用 IP 地址但这些事情会随着时间的推移而改变另外如果可能的话我们可以
如何处理 AWS Athena 中的嵌入换行符

我在 AWS Athena 中创建了一个表如下所示 CREATE EXTERNAL TABLE IF NOT EXISTS default test line breaks col1 string col2 string ROW FORM

如何处理 AWS Athena 中的嵌入换行符

如何处理 AWS Athena 中的嵌入换行符 的相关文章

随机推荐

热门标签

如何处理 AWS Athena 中的嵌入换行符的相关文章