解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件

2024-03-27

我有如下示例数据：

id,log,code,sequence
100,sample <(>&<)> O sample ? PILE UP - 3 sample,20,7^M$
101,sample- 4/52$
sample$
CM,21,7^M$
102,sample AT 3PM,22,4^M$

在第二行 (id=101) 中，日志列有换行符，一行中包含 3 行。我在 vim 编辑器中启用了“:set list”选项来显示换行符 ($) 和行尾符 (^M)。

处理换行符AWS 在此处建议 OpenCSVSerde https://docs.aws.amazon.com/athena/latest/ug/csv.html。我尝试使用 OPENCSVSerde 序列化escapeChar=\\, quoteChar=\", seperatorChar=, 尽管如此，它显示的数据为 5 行，而我需要 3 行。当我在 Athena 中查询时，id=101 仅显示第一行，其余部分丢失：

id,log,code,sequence
101,sample- 4/52

有关如何处理 csv 文件列中的多行字符的任何提示或示例？

我正在探索自定义分类器，但还没有运气。

根据这个文档https://docs.aws.amazon.com/athena/latest/ug/csv.html https://docs.aws.amazon.com/athena/latest/ug/csv.htmlopencsvserde 不支持换行符。

我看到你正试图在那里放某种日志。您的选择是：

清理日志以不包含换行符。或者，
使用 regexserde，如果您的日志格式不断变化，则它没有用。或者，
如果两者都不是选项，您可以将格式从 csv 更改为 parquet 或其他格式，这样就不会出现换行问题

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

amazonathena

awsgluedatacatalog

解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件的相关文章

AWS Athena 扁平化来自嵌套 JSON 源的数据

我想从 Athena 中的嵌套 JSON 创建一个表描述的解决方案here http docs aws amazon com athena latest ug json html使用 hive Openx JsonSerDe 等工具尝试在
Blazor 服务器端 - AWS 环境中频繁出现 504 错误

通过 AWS Elastic Beanstalk 将 blazor 服务器端项目部署到 Amazon Web Services 环境后该网站经常断开连接我不明白测试时这些断开连接不会在本地发生 Errors 2020 04 30T16
使用 Ref 作为 Fn::Sub 内部函数中的第一个参数

我在编译模板时遇到了非常奇怪的问题我在其中引用了一个字符串参数Fn Sub 而docs http docs aws amazon com AWSCloudFormation latest UserGuide intrinsic funct
不允许为 VPC 创建 EC2 实例

是否可以将 EC2 实例模板的 VPCId 定义为属性我想做的是 Resources Ec2Instance Type AWS EC2 Instance Properties SecurityGroups Ref AWSSecurityG
部署在aws上时如何使用环境变量

我正在构建一个在本地利用环境变量的 Web 应用程序我想将其投入生产在线我正在尝试了解如何在 AWS 上设置环境变量这是一个 Node js 应用程序我在 AWS 上使用 Elastic beanstalk 进行部署我已经看过了
如何在AWS中将AMI从爱尔兰区域复制到中国区域

我在 AWS 爱尔兰区域有一个设置现在我希望在中国使用该 AMI 有谁知道完成任务的最佳实践是什么任何帮助将不胜感激提前致谢中国地区目前不支持 AMI 复制根据AWS 将 AMI 从美国传输或复制到中国北京 https foru
服务无法放置任务

好吧我不知道在哪里可以解决这个问题我正在尝试启动一个堆栈其中有一个在 ECS 中运行的基本应用程序我将在下面展示云信息但我不断得到服务 sos ecs SosEcsService 1RVB1U5QXTY9S 无法放置任务因为没
导入错误：无法导入名称 md5

真的不知道这里发生了什么我需要在弹性beanstalk上部署我的flask应用程序但不知何故改变了路径并且无法再运行python application py dotnet info NET Core SDK reflecting an
AWS Api Gateway：缺少身份验证令牌

所以我有一个链接到 lambda 函数的 api 网关的自定义域名设置如果我这样做的话我就可以正常工作https api domain com something https api domain com something行为符合预期
如何通过 SSL 将文件直接上传到 S3？

我已经使用基于浏览器的 Amazon S3 直接 POST 上传有一段时间了最近想开始通过 HTTPS 发布普通的 HTTP 帖子就可以正常工作但是当我将相同的表格发布到https s3 amazonaws com https s
使用 Cloudformation SAM 的 AWS::Serverless::Api 资源策略

最近AWS宣布是否可以将资源策略附加到通过 Cloudformation 使用 SAM 创建的 AWS Serverless Api 我还没有机会尝试这个但我假设您可以像使用 S3 存储桶策略一样使用它对你来说最棘手的部分是抓住api
Terraform - 如果在 for_each 内。我可以过滤 for_each 吗？

通过以下内容我可以循环遍历资源块轻松地将路由表关联添加到所有子网但是我只需要为我的公共子网创建关联我怎样才能使这个 if 语句起作用或者任何其他方式来过滤each value class pub 对于这个问题 resourc
Amazon VPC NACL 默认规则评估顺序

据我了解 NACL 网络访问控制列表就是子网防火墙我试图了解创建 NACL 时的默认值规则 100 默认情况下允许来自所有 IP 的所有端口否则一切都被否定那么底线是是全部允许还是全部拒绝我知道根据 AWS 最佳实践默认
不需要 VPC 运行的 AWS 服务列表

谷歌再次让我失败或者可能是我的问题不太清楚有没有一种简单的方法或者更确切地说我们如何确定哪些服务是 VPC 绑定的哪些服务是非 VPC 的例如 EC2 RDS 需要 VPC 设置 Lambda S3 是公开可用的服务不需要 V
如何随机生成文件的链接？

我有一个 PDF 文件我不想通过我网站上的 URL 公开访问该文件作为轻微安全层我想通过电子邮件向用户发送一个唯一的随机生成的 URL 他们可以从中下载 PDF 我将把该 PDF 存储在 AWS 或类似的地方我感觉自己被困在r
AWS ios SDK - 弹性转码器作业的 http post 请求

查看AWS弹性转码器有几个问题对于我的用例来说首先使用转码器是否具有重要价值我正在制作一个允许用户选择视频的 ios 应用程序当他们这样做时我会将其上传到 S3 存储桶据我了解我应该使用弹性转码器对这些视频进行转码并将它们
更新AWS S3过期时间

我想知道如何延长密钥的有效期我指的不是访问对象的签名 URL 而是密钥本身我将 AWS 设置为存储桶中的所有对象应在 90 天后过期的规则在大多数情况下这就是我希望发生的事情有时我需要将单个密钥的使用寿命最多再延长 90 天事实
将文件从 CodeCommit 部署到 S3

我想将推送到 CodeCommit 存储库中的某些文件部署到 S3 存储桶中我正在尝试使用存储库上的 Lambda 触发器来执行此操作但是我无法获取提交中更改的文件列表也无法使用 AWS CodeCommit API 从 CodeC
使用 AWS SSO 时 AWS Java SDK 未找到配置文件

当我使用 AWS SSO 登录时我无法访问 aws 我使用以下方式从计算机登录 aws sso login profile staging 配置文件的配置如下 profile staging sso start url https som
AWS cognito身份池ABAC如何映射自定义多值属性？

来自身份提供商的开放 ID 令牌示例本例中为 Cognito 用户池 cognito groups testers admins email verified false 我想使用ABAC 就像这里给出的例子一样 https docs a

随机推荐

Rmarkdown：在选项卡集下添加标题

在 Rmarkdown 中我使用 tabset 将块拆分为选项卡 Tabset 1 tabset A Text under tab A B Text under tab B 我想在一些选项卡下添加一个大标题 Tabset 1 tabset
Java 中的 ArrayList 与 String

我正在实现LZW算法我已经成功地针对字符串和文本文件实现了它并且当前正在修改我的代码以处理二进制文件例如图像或可执行文件因为我无法将这些文件作为字符串读取我已经更换了String输入我的代码ArrayList
如何在不使用 try-catch 的情况下检查路径是否有效？

我想检查文件夹是否存在如果不存在则创建它但我不知道提供的路径是否有效当路径无效时会发生以下情况 string path this is an invalid path if Directory Exists path Directo
PayPal 的 Python 接口 - urllib.urlencode 非 ASCII 字符失败

我正在尝试实现 PayPal IPN 功能基本协议是这样的客户从我的网站重定向到 PayPal 的网站以完成付款他登录自己的帐户授权付款 PayPal 调用我服务器上的一个页面以 POST 形式传递详细信息详细信息包括个人姓名
上传的文件未保存到文件系统

Context 我正在为我正在构建的 CMS 创建媒体库基本功能包括上传文件并将其存储在文件系统中但是它会为保存的文件创建一个 id 目前我正在通过我构建的内容进行测试localhost db Files Add mediafile
Jira 插件自定义字段值如何在 .vm 模板中得到处理

吉拉服务器 7 2 1 自定义字段插件问题遵循此讨论不明白方法 getSingularObjectFromString 是做什么的 https stackoverflow com questions 17925377 cant und
Google表格公式中的数字增量

在 Google Sheets 数据库中我建立了一个公式以便为一系列公司分配参考号每个公司都应该有其唯一的编号其形式为RET00XX其中 XX 代表唯一的公司编号我希望这些数字是连续的从 1 开始然后继续 1 每当在数据库中插
Python 交换函数

我很难用 Python 表达这一点这是需要做什么的描述 swap cards int int 列表 gt NoneType swap cards 3 2 1 4 5 6 0 5 3 2 1 4 5 0 6 swap cards 3 2 1
需要正则表达式来匹配多行，直到在公共分隔符之间找到匹配

我正在尝试编写一个正则表达式它将从日志文件返回多行匹配使用下面的示例我想匹配整个事务其开头和结尾与日志中所有其他事务开始和结束的文本相同然而在这些行之间有一个自定义标识符在本例中是一个电子邮件地址可以将一笔交易与另一笔
如何将 Fluent NHibernate Automapping 与实体中相同类型的多个列表一起使用？

看来 NHibernate 无法自动映射实体中给定类型的多个 IList 考虑以下两个实体基于 Fluent NHibernate 源代码中包含的 Examples FirstProject 示例代码 public class Emplo
如何在 LESS CSS 嵌套类上指定 html 标签？

我有一个类用于article and a sectionHTML5 标签在家里
在创建位图之前如何从InputStream知道位图的大小？

我需要在创建图像之前对其进行缩放并且仅当图像超过 1024KB 例如时才进行缩放通过执行以下操作我可以缩放图像但我只需要缩放大于给定尺寸的图像 Bitmap bmImg null InputStream is url openSt
如何在不等待事件侦听器运行的情况下触发事件？

我对 NET C 中的事件有疑问我必须为几种情况编写代码在这些情况下我正在运行后台任务并且我想通知主线程或控制器类发生了某些事情例如任务已完成或完成了文件复制但我不这样做不希望后台任务等待主线程的委托来处理事件我想做一些类似消
java 最优雅的 isNumeric() 解决方案

我现在正在将一小段 PHP 代码移植到 java 并且我依赖于该函数is numeric x 确定是否 x是一个数字还是不是一个数字 java中似乎没有等效的函数而且我对目前找到的解决方案并不满意我倾向于这里找到的正则表达式解决方案 h
如何选择一个CSS使用最深的类？

如何选择一个css类的使用最深下面的列表中如何选择使用最深的类 active 在这种情况下是 li 包裹 span Item 1 1 1 1 span ul li class active span Item 1 span ul li
angularjs：在 ng-switch 中更改控制器的父范围

因此我可以从子控制器更改模型值但是当子控制器处于ng switch然后就不行了为什么呢我创建一个例子 http plnkr co edit R7D8Xa1HBmYnwffbHQGD p preview来展示它避免这种情况的一种方法
如何传递动态参数 Airflow 运算符？

我正在使用 Airflow 在 Google Cloud Composer 上运行 Spark 作业我需要创建集群用户提供的YAML参数 Spark 作业列表作业参数也由每个作业 YAML 提供借助 Airflow API 我可以
gcc 自动矢量化（未处理的数据引用）

我不明白为什么这样的代码没有用 gcc 4 4 6 进行矢量化 int MyFunc const float pfTab float pfResult int iSize int iIndex for int i 0 i lt iSize
SqlServer -> MySQL 中的 FILESTREAM 存储等效吗？

MySQL 版本中是否有等效项 5 5 Sql Server 中的 FILESTREAM 存储目前来看没有只有BLOB CLOB等数据类型在MySQL中存储二进制数据
解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件

我有如下示例数据 id log code sequence 100 sample lt gt lt gt O sample PILE UP 3 sample 20 7 M 101 sample 4 52 sample CM 21 7 M 1

解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件

解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件 的相关文章

随机推荐

热门标签

解析 AWS Athena/AWS Glue 目录中某一列中包含换行符的 csv 文件的相关文章