尝试转换列数据时值太长失败

2024-01-30

Scenario

我有一个源文件，其中每个新行都包含 JSON 块。

然后，我有一个简单的 U-SQL 摘录，如下所示，其中 [RawString] 表示文件中的每个新行，[FileName] 定义为 @SourceFile 路径中的变量。

@BaseExtract = 
    EXTRACT 
        [RawString] string, 
        [FileName] string
    FROM
        @SourceFile 
    USING 
        Extractors.Text(delimiter:'\b', quoting : false);

对于我的大部分数据来说，这都不会失败，并且我能够在我的脚本中将 [RawString] 解析为 JSON，没有任何问题。

但是，我最近的文件中似乎有一行超长的数据无法提取。

Errors

在 Visual Studio 本地和 Azure 中的数据湖分析服务中执行此操作，我得到以下结果。

E_RUNTIME_USER_EXTRACT_COLUMN_CONVERSION_TOO_LONG

尝试转换列数据时值太长失败。

无法将字符串转换为正确的类型。结果数据长度为太长。

请参阅下面的屏幕截图。

使用其他工具检查后，我可以确认源文件中最长行的长度是189,943 个字符.

问题

所以我要问你们的问题我的朋友们...

还有其他人达到这个限制吗？
定义的字符行限制是多少？
解决这个问题的最佳方法是什么？
是否需要定制提取器？

其他事情

还有一些其他的想法......

由于文件中的每个新行都是一个自包含的 JSON 数据块，因此我无法拆分该行。
如果手动将单个长行复制到单独的文件中并格式化 JSON，USQL 会按照 Newtonsoft.Json 库的预期进行处理。
目前我正在使用 VS2015 和 Data Lake Tools 版本 2.2.7。

预先感谢您对此的支持。

当前，列中 U-SQL 字符串值的限制为 128kB（请参阅https://msdn.microsoft.com/en-us/library/azure/mt764129.aspx https://msdn.microsoft.com/en-us/library/azure/mt764129.aspx).

根据我的经验，很多人都遇到过这种情况（尤其是在处理 JSON 时）。有几种方法可以解决这个问题：

找到一种方法来重写提取器以返回 byte[] 并避免生成字符串值，除非确实需要。这应该会为您提供更多数据（最多 4MB）。
编写一个自定义提取器，对特定 JSON 格式进行所有导航和分解直至叶节点，从而避免中间的长字符串值。
返回 SqlArray 而不是字符串数据类型值，并将字符串分块为 128kB（采用 UTF-8 编码，而不是 C# 的默认 UTF-16 编码！）。

我们正在考虑增加字符串大小，但如果您可以提交/投票请求http://aka.ms/adlfeedback http://aka.ms/adlfeedback那会有帮助的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

Azure

azuredatalake

usql

尝试转换列数据时值太长失败的相关文章

如何将异常序列化为Json

C 异常是 ISerialisable 因此它们不能也是 DataContract 因此我无法使用 JsonDataContractSerializer 将异常序列化为 JSON 的替代方案是什么由于这个问题还没有真正得到解答只需创建一
在 SQL Azure 中计算“select count(id) from table”最多需要 30 分钟

我在 SQL Azure 中有一个数据库不需要 15 到 30 分钟就能完成一个简单的操作 select count id from mytable 数据库约为 3 3GB 计数返回约 2 000 000 但我在本地尝试过只需要不到 5
JSON-LD 缺少“}”或对象成员名称。错误

我喜欢将 json ld 添加到我的网站然后我想将它添加到我的开发网站来测试它我收到错误消息指出缺少或对象成员名称这是什么错误我已正确关闭括号如何修复它
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
使用python将json和文件发送到flask

我遇到这个问题我试图在单个函数中向 Flask API 发送接收一些文件和 JSON 在我的客户端发件人上我有 my json to be sent datas var1 var1 var2 var2 my file to be s
从 Azure 调用 Google API：“访问被拒绝”

我正在尝试创建一个可以管理 Google 日历并访问 Google People 的聊天机器人我开发了代码它可以完美地离线工作当尝试在线上传所有内容时就会出现问题代码是C 语言在微软提供的模板之上开发当您在 Azure 上加载代
Ruby on Rails 服务器在 HTTPS POST 请求期间崩溃

我正在尝试与你沟通城市飞艇API http urbanairship com docs push html broadcast使用 ROR Web 应用程序在我的控制器中我有以下代码 require net http require n
如何在 select 和 option 标签中添加 JSON 数据？

我有这个html代码 div class searchfilter div class searchwrapper div div
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
使用 CLI 在 Azure 中上传文件

我正在尝试练习以下任务创建存储帐户 az 存储帐户创建 name heyatafroz25 resource group user fottsascvuzj 获取存储帐户密钥 az 存储帐户密钥列表 g user fottsascvuzj
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
在天蓝色辅助角色中使用 QueueClient.OnMessage

我有一个 Azure 辅助角色负责检查 4 个服务总线队列目前我只是使用循环方法来手动检查队列 while true loop through my queues to check for messages Azure SDK 2 0
从bigquery中的json字符串中提取键和值，其中json文档中没有指定的键

我在 bigquery 中有一个表其中有对象对于每个对象我都有一些字符串化的 json 在 json 中示例行如下所示 ObjectID 1984931229 indexed abstract IndexLength 123 Inv
从 Azure 事件中心获取事件后，我是否应该将其放入队列中？

我目前正在开发一个托管在 Azure 上使用 Azure 事件中心的应用程序基本上我从 Web API 向事件中心发送消息或者应该说事件并且我有两个侦听器用于实时分析的流分析任务标准辅助角色根据接收到的事件计算一些内容然后
SQL Server OPENJSON读取嵌套json

我有一些想要在 SQL Server 2016 中解析的 json 有一个项目 gt 结构 gt 属性的层次结构我想编写一个解析整个层次结构的查询但我不想通过索引号指定任何元素即我不想做这样的事情 openjson json 0 or
Haskell Data.Decimal 作为 Aeson 类型

是否可以解析一个数据十进制 https hackage haskell org package Decimal 0 4 2 docs Data Decimal html使用 Aeson 包从 JSON 获取假设我有以下 JSON foo
Cosmos DB Mongo API 如何管理“请求率很大”情况

我有以下代码 async function bulkInsert db collectionName documents try const cosmosResults await db collection collectionName
Azure 共享计划上的 SSL？

我有 1 个网站 1 个数据库和 1 个 SSL 托管在 azure 上我曾经拥有基本托管套餐但每个月要支付 70 美元才能获得基本设置并且所有内容都具有最小的缩放比例我意识到我的低流量站点不需要专用计算机因此我尝试转向共享计
使用 Newtonsoft.Json.NET 搜索 JSON 根对象的正确 JsonPath 表达式是什么？

大多数例子涉及Stefan G ssner 的书店示例 http goessner net articles JsonPath index html e3 但是我正在努力为简单对象无数组定义正确的 JsonPath 表达式 Id 1 N
Jackson 将单个项目反序列化到列表中

我正在尝试使用一项服务该服务为我提供了一个带有数组字段的实体 id 23233 items name item 1 name item 2 但是当数组包含单个项目时将返回该项目本身而不是包含一个元素的数组 id 43567 item

随机推荐

将一个单词转换为另一个单词的最短路径

对于数据结构项目我必须找到两个单词之间的最短路径例如 cat and dog 一次仅更改一个字母我们得到了一个拼字游戏单词列表用于寻找我们的路径例如 cat gt bat gt bet gt bot gt bog gt dog 我
Cakephp 在 HABTM 关系中保存额外的属性

我有三个模型主题颜色和主题颜色映射具有不同颜色的主题结构如下主题 id 名称属性图像颜色 ID 名称代码图像 ThemeColor 主题id 颜色id 预览例如预览 gt x 主题具有 a b c 颜色及其相关图像
如何在asp.net中显示HTML表格中的数据

我正在编写一个 ASP NET 页面它从数据库读取数据并需要将其显示在 HTML 表中我不想使用 gridView 这是我尝试使用 c 的代码 protected void Page Load object sender EventAr
ASP.NET 2.o 页面的 jQuery 登录模式弹出窗口

我有一个 ASP NET 网页不是 MVC HomePage aspx 和另一个页面 PRiceList aspx 我的主页中有一个登录功能因此当用户登录该网站时他们可以转到Pricelist aspx 页面可以轻松地使用主页中的链
在mlr和parallelMap中可以并行化多个级别吗？例如 mlr.tuneParams 和 mlr.benchmark

我正在使用多个学习器大约 15 个不同的学习器运行 mlr 基准测试并使用 irace 调整控件进行嵌套重采样我的问题是是否可以在parallelMap 上运行两个并行化级别如果我使用 mlr benchmark 级别则速度更
MS-SQL 中是否有等效的“START AT”？

一些数据库支持以下命令 SELECT TOP 10 START AT 10 FROM table 本质上我需要提取前 10 条记录然后是下 10 条记录然后是下 10 条记录等等也许还有另一种方法可以做到这一点但在过去我对支持
添加类型参数约束以防止抽象类

如果抽象类的具体实现没有默认构造函数是否可以将类型参数限制为这些具体实现例如如果我有 public abstract class Animal private Animal public Animal string name publ
Android 视图在某些设备上的边框问题

已解决的主题回答如下一些用户报告了某些 Android 组件例如警报弹出窗口或 editTexts 的边框对齐问题这种情况发生在 Samsung Galaxy Apollo 200x400 和 HTC Pro Touch 480x6
如何使用 C# 从安全令牌获取信息

我需要让我的应用程序的用户能够使用他们的个人 USB 安全令牌签署批准我已成功签署数据但无法获取谁的令牌已用于执行此操作的信息这是我到目前为止的代码 CspParameters csp new CspParameters 1 Safe
如何在不获取空对象的情况下进行 JSON.stringify 和 JSON.parse？

我问这个问题的原因是因为我想为我的对象使用 LocalStorage 您可能知道使用 LocalStorage 时您必须对对象进行 JSON stringify 然后将它们解析回 javascript 对象我正在尝试使用方法 JSON
AES 在 CryptoJS 中加密并在 Coldfusion 中解密

我们有一个用 Coldfusion9 编写的静默登录服务它接受来自外部系统的加密字符串然后根据商定的算法编码设置进行解密多年来这在运行 ASP JAVA PHP 的系统上一直没有问题但我们现在有一个客户别无选择只能使用 Cry
java 或 C++ 中的堆管理器如何跟踪线程或进程使用的所有内存位置？

我想了解堆管理器的数据结构Java或操作系统如果是 C 或 C 会跟踪线程和进程使用的内存位置一种方法是使用对象和内存地址的映射以及内存起始地址和内存中对象的大小的反向映射但在这里它将无法满足新的内存请求O 1 时间有没有更好的数据
Pandas：有没有办法计算给定列中包含单元格中的字典值的值出现的次数？

我有一个 df 列其中每个单元格都包含一个字典因此当我将 value counts 应用于此列时我显然会得到每个字典出现次数的结果但我需要的是获取单独值出现的次数列单元格看起来像这样 col1 1 name John name M
阿拉伯字母在 Flash 中显示为断开连接

我遇到这样的问题阿拉伯字母在 Flash 的任何组件例如标签或 TextInput 中显示不相交有什么建议么这些博客文章可能会有所帮助如何在Flash中写入阿拉伯文 http joeabiraad com design how t
使用 m4 进行预处理

我正在使用 Free Pascal 课程作业编写一个预处理器m4 https www gnu org software m4 我正在阅读 stackoverflow 上的帖子here https stackoverflow com que
当与 Flask-Restplus 一起使用时，Flask 路由位于 / 返回 404

我有一个 Flask 应用程序它有 Flask RestPlus API 以及路线然而当我尝试访问时我收到 404 如果我删除 Flask RestPlus 扩展该路由就可以工作如何使两个部分协同工作 from flask
UIAlertView iOS 8 beta 5 中标题为零的 UI 问题

我在 iOS 8 上运行我们的应用程序时遇到与 UIAlertView 相关的问题我显示的警报标题为 nil 它在 iOS 7 中运行良好但现在 UI 看起来很奇怪我在这里附上了屏幕截图 One solution I found is
如何在 Express - Node js 中使用粘性会话和集群

我参考创建了一个依赖于集群的应用程序这个问题 https stackoverflow com questions 14405693 using cluster in an expressjs app 但我开始面临会话处理方面的问题如何在带
XML 解析错误：找不到元素位置：http://localhost:8000/web.config 第 1 行，第 1 列

我是 WCF 和 IIS 的新手当我尝试在 IIS 中托管 Web 服务并在浏览器中打开它时它向我显示上述 XML 解析错误我已经尝试了相关帖子中提到的所有要点但似乎不起作用有没有我可能错过的解决方案编辑我完全按照此处提到的所
尝试转换列数据时值太长失败

Scenario 我有一个源文件其中每个新行都包含 JSON 块然后我有一个简单的 U SQL 摘录如下所示其中 RawString 表示文件中的每个新行 FileName 定义为 SourceFile 路径中的变量 BaseEx

尝试转换列数据时值太长失败

尝试转换列数据时值太长失败 的相关文章

随机推荐

热门标签

尝试转换列数据时值太长失败的相关文章