AWS Glue 爬网程序无法提取 CSV 标头

2024-01-10

我已经无计可施了……

我有 15 个 csv 文件，它们是通过直线查询生成的，例如：

beeline -u CONN_STR --outputformat=dsv -e "SELECT ... " > data.csv

I chose dsv因为某些字符串字段包含逗号并且不加引号，这会更加破坏粘合性。此外，根据文档，内置的 csv 分类器可以处理管道（并且在大多数情况下，确实如此）。

不管怎样，我将这 15 个 csv 文件上传到 s3 存储桶并运行我的爬虫。

一切都很好。对于其中 14 个人来说。

Glue 能够提取除一个文件之外的每个文件的标题行，并命名列col_0, col_1等，并在我的选择查询中包括标题行。

任何人都可以深入了解导致此问题的这个文件可能有什么不同吗？

如果有帮助的话，我感觉这个 csv 文件中的某些字段可能在某些时候被编码为 UTF-16 或其他格式。刚打开的时候，有一些奇怪的“？”。角色漂浮在周围。

我已经跑了tr -d '\000'试图清理它，但这可能还不够。

再说一遍，我可以运行的任何线索、建议或实验都很棒。顺便说一句，我希望爬虫能够执行所有操作（即：不需要手动更改架构并关闭更新）。

谢谢阅读。

Edit:

感觉这与它有关source https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-built-in:

潜在标头中的每一列都会解析为 STRING 数据类型。

除最后一列外，潜在标题中的每一列的内容都少于 150 个字符。为了允许尾随分隔符，整个文件的最后一列可以为空。

潜在标题中的每一列都必须满足列名称的 AWS Glue 正则表达式要求。

标题行必须与数据行有足够的不同。要确定这一点，必须将一行或多行解析为 STRING 类型以外的类型。如果所有列的类型均为 STRING，则第一行数据与用作标题的后续行没有足够的差异。

添加一个自定义分类器 https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html修复了我的类似问题。

您可以通过设置来避免标题检测（当所有列都是字符串类型时，这不起作用）ContainsHeader to PRESENT创建自定义分类器时，然后通过提供列名称Header。创建自定义分类器后，您可以将其分配给爬网程序。由于这已添加到爬网程序中，因此您无需在事后对架构进行更改，并且不会冒这些更改在下一次爬网程序运行中被覆盖的风险。使用 boto3，它看起来像：

import boto3


glue = boto3.client('glue')

glue.create_classifier(CsvClassifier={
    'Name': 'contacts_csv',
    'Delimiter': ',',
    'QuoteSymbol': '"',
    'ContainsHeader': 'PRESENT',
    'Header': ['contact_id', 'person_id', 'type', 'value']
})

glue.create_crawler(Name=GLUE_CRAWLER,
                    Role=role.arn,
                    DatabaseName=GLUE_DATABASE,
                    Targets={'S3Targets': [{'Path': s3_path}]},
                    Classifiers=['contacts_csv'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

amazonathena

awsglue

AWS Glue 爬网程序无法提取 CSV 标头的相关文章

S3 选择检索 CSV 中的标头

我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
当隐含 ID 列时，如何合并 csv 文件中的多个数据框？

我想将一堆数据框合并在一起因为如果您只处理一个数据框则许多操作似乎会更容易但如果我错了请纠正我目前我有一个像这样的数据框 ID var1 var2 A 2 2 B 4 5 Z 3 2 每个 ID 位于单行上并带有多个单个测量值
用于读取csv写入数组的c++程序；然后操作并打印到文本文件中（已经用 matlab 编写）

我想知道是否有人可以帮助我我正在尝试构建一个程序从 csv 文件中读取大小未知的浮点数大数据块我已经在 MATLAB 中编写了此代码但想要编译和分发此代码因此转向 C 我只是在学习并尝试阅读本文以开始 7 5 19892 4 23
从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
Err_Response_Headers_Multiple_Content_Disposition

我需要导出 2csv单击一个按钮即可打开文件下面是我生成2的代码csv files using System Data using System Data SqlClient using System Text using System
从多个 .csv 文件创建混淆矩阵

我有很多具有以下格式的 csv 文件 338 800 338 550 339 670 340 600 327 500 301 430 299 350 284 339 284 338 283 335 283 330 283 310 282 3
无法在 AWS Glue PySpark 开发终端节点中正确运行脚本

我已经配置了一个 AWS Glue 开发终端节点并且可以在 pyspark REPL shell 中成功连接到它像这样https docs aws amazon com glue latest dg dev endpoint tutor
C＃生成的csv文件通过电子邮件发送嵌入到Lotus Note中电子邮件的底部

我遇到了一个奇怪的问题即使用 NET SmtpClient 通过电子邮件发送的 CSV 附件出现在电子邮件底部而不是 Lotus Note 中的附件我只是不知道如何解决这个问题而且我无法访问客户端计算机这使得调试非常困难我可以采
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
使用 matplotlib.animation 从 CSV 文件实时绘图 - 数据绘制到第一个输入错误

我正在尝试绘制来自不断写入 CSV 文件的传感器的数据虽然成功创建实时绘图但每个新数据条目都会创建一条延伸到第一个数据条目的附加线见下文 Python 3 4 脚本 import matplotlib pyplot as plt im
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
使用 Java 在浏览器中下载 CSV 文件

我正在尝试在 Web 应用程序上添加一个按钮单击该按钮会下载一个 CSV 文件该文件很小大小仅约 4KB 我已经制作了按钮并附加了一个侦听器文件也准备好了我现在唯一需要做的就是创建单击按钮时下载 csv 文件的实际事件假设 fi
使用Python处理csv文件时如何跳过标题？

我正在使用下面引用的代码来使用 Python 编辑 csv 代码中调用的函数构成了代码的上部问题我希望下面提到的代码从第二行开始编辑 csv 我希望它排除包含标题的第一行现在它仅在第一行应用函数并且我的标题行正在更改 in file
通过 Powershell 拆分 9 GB csv 文件时遇到问题

我有一个大约 9 GB 的大型 csv 文件在 Powershell 中我需要将其拆分为 10 MB 的块问题是我需要保持行完整因此每个分割文件在一行的末尾结束并在下一行的开头开始由于文件太大我需要一种拆分它的方法该方法不会
数据表下载 xls/csv 文件无法正常工作

我想要 3 个按钮下载 csv xls 和 pdf 文件就我而言当我单击下载 csv 文件按钮时它会以 csv 文件扩展名保存但当我打开它时它是 excel 它不是逗号分隔的文件 PDF 下载按钮工作正常 xls 按钮不起作用
计算列表中每个项目在 pandas 数据框列中出现的次数，并用逗号分隔值

我有一个清单 citylist New York San Francisco Los Angeles Chicago Miami 和带有这些值的 pandas Dataframe df1 first last city email John
Python将csv数据导出到文件中

我有以下运行良好的代码但我无法修剪数据并将其存储在数据文件中 import nltk tweets love this car this view amazing not looking forward the concert def g
如何定义导入mongodb的分隔符

我有一个数据集合它由特点我将把数据收集添加到mongodb 所以我需要通过分离数据特点怎么样我的蒙戈进口公司命令看起来像之前我已经成功导入csv通过以下命令创建文件 mongoimport d mydb c things typ
导出 CSV 文件时出现编码问题

我正在使用 Asp net mvc 生成 CSV 文件但在处理葡萄牙语中的特殊字符时遇到问题我使用以下代码返回文件 public FileContentResult RelMatriculas RelRematriculaVM mode

随机推荐

如何打开OTG连接设置

我正在使用 USB 设备连接在某些设备中例如Oppo F1sOTG 连接已从设置中禁用检查下面的屏幕截图作为参考我想知道 1 如何查看OTG连接是否启用2 如何使用intent打开OTG连接设置页面我不知道你是否仍然感兴趣但我也
使用 boto3 从 AWS S3 存储桶下载文件会导致 ClientError: 发生错误 (403): Forbidden

我正在尝试使用 s3 存储桶中提供的访问密钥 ID 和秘密访问密钥下载文件https db humanconnectome org https db humanconnectome org 但是即使我能够导航数据库并找到文件因为我已通过
一般如何链接对 ng2-Translate 和 rxjs 可观察量的调用？

我刚刚开始在我的 Ionic 2 Angular 2 项目中使用 ng2 翻译我发现当我需要一次获取几个字符串时代码会变得嵌套并且更难以阅读我有点想知道为什么像这样的东西只发出一个值需要使用可观察的但也许有一个很好的理由反正
相当于C#中PHP的include

C 中与 PHP 的 include 等效的命令是什么例如 PHP 的 include 的使用方式如下 include ex php 我可以在 C 中做同样的事情吗如果您的意思是在 ASP Net 中使用 C 您可以创建一个用户控件 a
从签名的 pdf 中获取原始内容

我想知道如何使用 iText java 库或其他库从签名的 pdf 文档中获取原始内容 Thanks 更新1 可能的例子 PdfReader reader new PdfReader PATH TO PDF AcroFields field
Eclipse Juno m2ecliipse：目录结构解释

我正在 Eclipse Juno 下使用 m2eclipse 完成一个 maven archetype webapp 项目我不明白目录结构任何人都可以解释它是如何工作的吗 Thanks 我的 src main ressources 是做
如何设置环境变量 TF_Keras = 1 进行 onnx 转换？

最近更新到tensorflow 2 0 但在将我的 h5 模型转换为 onnx 时遇到问题曾经是一个非常简单的过程但现在我遇到了问题当我运行以下代码时 onnx testing import onnx import keras2onn
Sass math.div 函数在 Angular 应用程序中未定义，但在 Angular lib 中定义

我需要使用Sass math div https sass lang com documentation modules math div在我的角度应用程序中运行这是我的 SCSS 代码示例 use sass math div min h
Kendo Grid 与 Bootstrap 下拉菜单或工具提示配合不佳

我正在尝试在 Kendo Grid 中使用某些 Bootstrap 元素例如 Bootstrap 下拉按钮和工具提示问题是下拉菜单或工具提示始终位于下方或上方行的下方我尝试调整显示元素的 z index 但这并不能解决问题有没有人设
data.table 到底什么时候保留列名？

有些 J 表达式保留列名称有些则不保留 library data table d data table hello 1 d hello hello 1 1 d c hello V1 1 1 d hello hello 1 1 d 1 he
如何在nestedScrollView中使用viewpager并在viewpager的顶部查看

由于viewpager 我无法滚动nestedScrollView 所以让我在这里解释一下我想要创建的布局设计 NestedScrollView 内部有 FrameLayout 和带有选项卡布局的 viewpager Viewpager 使
从 mongodb 数组中查找最小值和最大值

我有以下项目集合 Project Collection Id 1 name p1 tasks taskId t1 startDate ISODate 2018 09 24T10 02 49 403Z endDate ISODate 2018
Spark/Scala 将 Oracle 表加载到 Hive

我正在将几个 Oracle 表加载到 Hive 它似乎正常工作但有 2 个表出现错误 IllegalArgumentException requirement failed Decimal precision 136 exceeds ma
检查给定 pid 的进程是否存在

给定 Linux 进程的 pid 我想从 C 程序检查该进程是否仍在运行 Issue a kill 2 http linux die net man 2 kill系统调用0作为信号如果调用成功则说明存在该pid的进程如果呼叫失败并且e
不阻塞地读取 Socket 中可用的内容

我正在服务器上工作该服务器读取客户端发送的数据但大小未知我也无法更改客户端发送的大小我想从客户端读取数据直到它阻塞并等待服务器的响应我尝试使用available 它有时会起作用但有时即使流中有一些数据它也只是返回零 whil
如何使用 Oracle Sql Loader 用当前时间戳填充时间戳字段

我正在使用 SQL Loader 读取一个管道分隔文件并希望在我正在填充的表中填充 LAST UPDATED 字段我的控制文件如下所示 LOAD DATA INFILE SampleFile dat REPLACE INTO TABLE
在 django 中获取 10 天前的数据库表数据

我正在尝试检索 10 天之前的数据来更新该字段数据目前我的模型就像 class Restaurant models Model is approved models BooleanField null False default Fals
OpenCV中基于HOG特征的SVM分类器用于“对象检测”

我有一个项目我想检测图像中的物体我的目标是使用 HOG 功能通过使用 OpenCV SVM 实现我可以找到用于检测人的代码并且我阅读了一些关于调整参数以检测对象而不是人的论文不幸的是由于一些原因我无法做到这一点首先我可能错
调用 vscode 扩展从 webview 获取数据

我有一个列表必须从扩展程序返回到我的 webview 页面的输入框就像 web 视图中存在的 javascript 事件必须调用列表的扩展然后使用该列表对象并在视图中显示列表数据我该怎么做呢 WebView 类有一个向 WebVie
AWS Glue 爬网程序无法提取 CSV 标头

我已经无计可施了我有 15 个 csv 文件它们是通过直线查询生成的例如 beeline u CONN STR outputformat dsv e SELECT gt data csv I chose dsv因为某些字符串字段包含逗

AWS Glue 爬网程序无法提取 CSV 标头

AWS Glue 爬网程序无法提取 CSV 标头 的相关文章

随机推荐

热门标签

AWS Glue 爬网程序无法提取 CSV 标头的相关文章