Cloudera 5.4.2：使用 Flume 和 Twitter 流时 Avro 块大小无效或太大

2023-12-15

当我尝试 Cloudera 5.4.2 时出现了一个小问题。基于这篇文章

Apache Flume - 获取 Twitter 数据http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm

它尝试使用 Flume 和 Twitter 流来获取推文以进行数据分析。一切都很顺利，创建 Twitter 应用程序，在 HDFS 上创建目录，配置 Flume，然后开始获取数据，在推文上创建模式。

那么，问题来了。 Twitter 流将推文转换为 Avro 格式并将 Avro 事件发送到下游 HDFS 接收器，当 Avro 支持的 Hive 表加载数据时，我收到错误消息“Avro 块大小无效或太大”。

哦，avro块是什么以及块大小的限制？我可以改变它吗？根据这条消息，这意味着什么？是文件的错吗？是某些记录的错吗？如果 Twitter 的流媒体遇到错误数据，它应该关闭核心。如果将推文转换为 Avro 格式就可以了，相反，Avro 数据应该可以正确读取，对吧？

我还尝试了 avro-tools-1.7.7.jar

java -jar avro-tools-1.7.7.jar tojson FlumeData.1458090051232

{"id":"710300089206611968","user_friends_count":{"int":1527},"user_location":{"string":"1633"},"user_description":{"string":"Steady Building an Empire..... #UGA"},"user_statuses_count":{"int":44471},"user_followers_count":{"int":2170},"user_name":{"string":"Esquire Shakur"},"user_screen_name":{"string":"Esquire_Bowtie"},"created_at":{"string":"2016-03-16T23:01:52Z"},"text":{"string":"RT @ugaunion: .@ugasga is hosting a debate between the three SGA executive tickets. Learn more about their plans to serve you https://t.co/…"},"retweet_count":{"long":0},"retweeted":{"boolean":true},"in_reply_to_user_id":{"long":-1},"source":{"string":"<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for iPhone</a>"},"in_reply_to_status_id":{"long":-1},"media_url_https":null,"expanded_url":null}

{"id":"710300089198088196","user_friends_count":{"int":100},"user_location":{"string":"DM開放してます(`･ω･´)"},"user_description":{"string":"Exception in thread "main" org.apache.avro.AvroRuntimeException: java.io.IOException: Block size invalid or too large for this implementation: -40

at org.apache.avro.file.DataFileStream.hasNextBlock(DataFileStream.java:275)

at org.apache.avro.file.DataFileStream.hasNext(DataFileStream.java:197)
at org.apache.avro.tool.DataFileReadTool.run(DataFileReadTool.java:77)
at org.apache.avro.tool.Main.run(Main.java:84)
at org.apache.avro.tool.Main.main(Main.java:73)
Caused by: java.io.IOException: Block size invalid or too large for this implementation: -40
at org.apache.avro.file.DataFileStream.hasNextBlock(DataFileStream.java:266)
... 4 more

一样的问题。我用谷歌搜索了很多，根本没有答案。

如果您也遇到了这个问题，有人可以给我一个解决方案吗？或者，如果您完全理解 Avro 内容或下面的 Twitter 流，有人可以帮助您提供线索。

这确实是一个有趣的问题。想一想。

使用 Cloudera TwitterSource

不然会遇到这个问题。

无法将 twitter avro 数据正确加载到 hive 表中

文章中：这是 apache TwitterSource

TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
Twitter 1% Firehose Source
This source is highly experimental. It connects to the 1% sample Twitter Firehose using streaming API and continuously downloads tweets, converts them to Avro format, and sends Avro events to a downstream Flume sink.

不过应该是cloudera Twitter来源：

https://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

http://blog.cloudera.com/blog/2012/11/analyzing-twitter-data-with-hadoop-part-3-querying-semi-structed-data-with-hive/

TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource

而且不要只下载预构建jar，因为我们的cloudera版本是5.4.2，否则你会得到这个错误：

由于 JAR 冲突，无法运行 Flume

你应该使用maven编译它

https://github.com/cloudera/cdh-twitter-example

下载并编译：flume-sources.1.0-SNAPSHOT.jar。该 jar 包含 Cloudera TwitterSource 的实现。

Steps:

wget https://github.com/cloudera/cdh-twitter-example/archive/master.zip

sudo yum 安装 apache-maven 放入flume插件目录：

/var/lib/flume-ng/plugins.d/twitter-streaming/lib/flume-sources-1.0-SNAPSHOT.jar

MVN包

注意：yum 更新到最新版本，否则编译（mvn 包）会因某些安全问题而失败。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Cloudera 5.4.2：使用 Flume 和 Twitter 流时 Avro 块大小无效或太大的相关文章

全新安装时的 HDFS 空间使用情况

我刚刚安装了 HDFS 并启动了该服务并且已使用空间已经超过800MB 它代表什么 hdfs dfs df h Filesystem Size Used Available Use hdfs quickstart cloudera 802
如何在 Amazon EMR 上重新启动 HDFS

我对 Amazon EMR 集群上的 HDFS 设置进行了一些更改我想重新启动名称节点和数据节点以使更改生效我无法在名称节点主节点和数据节点上找到任何启动和停止脚本来执行此操作应该怎样重启集群呢在 EMR4 上在主控主机上运
什么是“HDFS 写入管道”？

当我阅读 hadoop 权威指南时我坚持以下句子写入reduce输出确实会消耗网络带宽但仅作为与普通 HDFS 写入管道消耗的量差不多问题 1 能帮我更详细地理解上面这句话吗 2 HDFS写入管道是什么意思当文件写入 HDFS
从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧

我在 Ambari 上使用 Spark 2 1 1 和 hadoop 2 6 时遇到问题我首先在本地计算机上测试了我的代码单节点本地文件一切都按预期工作 from pyspark sql import SparkSession sp
如何更有效地从spark重命名hdfs中的文件？

我有 450K JSON 我想根据某些规则在 hdfs 中重命名它们为了简单起见我只添加一个后缀 finished给他们每个人 A 成功地做到了这一点代码如下 import org apache hadoop fs val hdfs
在 avro 文件中存储空值

我有一些 json 数据如下所示 id 1998983092 name Test Name 1 type search string creationDate 2017 06 06T13 49 15 091 0000 lastModifi
如何更改 Spark 程序的 HDFS 复制因子？

我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时我想出了 spark hadoop dfs replication 属性但是通过查看https spark apache org docs latest con
将文件从 HDFS 复制到本地计算机

我在尝试将文件从 HDFS 文件系统下载到本地系统时遇到问题即使相反的操作没有问题注意文件存在于 HDFS 文件系统的指定路径上这是一个代码片段 Configuration conf new Configuration conf
在 python 中使用 snappy 和 avro 时出现问题

我正在读取 gz 文件并转换为 AVRO 格式当我使用codec deflate 它运行良好即我能够转换为 avro 格式当我使用codec snappy 它抛出一个错误说明如下 raise DataFileException U
Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束
使用kafka lib反序列化PRIMITIVE AVRO KEY

我目前无能力反序列化 avro PRIMITIVE 密钥在 KSTREAM 应用程序中使用 avro 模式编码的密钥在模式注册表中注册当我使用 kafka avro console consumer 时我可以看到密钥已正确反序列化
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
kafka Avro 多个主题的消息反序列化器

我正在尝试以 avro 格式反序列化 kafka 消息我使用以下代码 https github com ivangfr springboot kafka debezium ksql blob master kafka research c
使用Spring批处理从HDFS读取文件

我必须编写一个 Spring 批处理它将从 HDFS 读取文件并更新 MySQL DB 中的数据 HDFS 中的源文件包含一些 CSV 格式的报告数据有人能给我举一个从 HDFS 读取文件的例子吗 Thanks The FlatFile
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal

随机推荐

如何在公共场合创建和使用 Web 服务，但仍限制其仅用于我的应用程序？

我正在创建一个带有创建更新删除调用的网络服务但现在我想限制在我自己的网络应用程序上使用它而不是其他客户端我怎样才能拥有进行这些调用的明文 javascript 代码但仍然确信凭证不会在其他地方使用我的想法是为每个请求使用服务器
如何在 C# Winform 中显示组合框中的第一项

我有一个绑定到列表的组合框我一直在尝试弄清楚如何在加载列表中的数据之前加载 Please Select 时在组合框中包含第一项我试过这个 cbUpdate DataSource names cbUpdate Items Insert 0
Knockout.js 与 jquery ui datepicker 可以在除 IE 之外的任何地方工作

我使用 knockout js 模板脚本创建了一个可以复制和删除的表单小提琴可以找到here 我在 SE 的帮助下编辑了脚本添加了 jquery ui 日期选择器小提琴的简短版本可以在此处 2 找到到目前为止一切顺利但在测试时我
使用 GSON 将嵌套对象展平为目标对象

最亲爱的Stackoverflowers 我想知道是否有人知道如何最好地解决这个问题我正在与一个返回 json 对象的 api 进行通信如下所示 field1 value1 field2 value2 details nested1 1
如何在 Linux 上为 Aptana 设置内部浏览器

我下载了 Aptana Studio Setup Linux zip 包解压并运行 AptanaStudio 一开始很好但报告了一个问题无法创建此编辑器的嵌入式浏览器小部件它不适用于您的操作系统或者需要配置系统才能支持嵌入式浏览器
是否可以从不同的布局初始化视图？

我有一个Activity并与之相关layout 另外我还有另一个layout和一些Views 我想初始化一个变量 TextView 从我的Activity用一个View从那个独立的layout 我总是得到null public void o
如何在 C# 应用程序中使用 Shell32？

为了使 Shell32 正常工作我应该在 C 应用程序中包含什么 Edit 我的应用程序无法识别 shell32 我应该包含哪些参考文献或库我想做的是 Shell32 Shell shell new Shell32 Shell 我收到的
全日历 slotMinutes 不起作用

我想在我的日历中显示 15 分钟的 slotMinutes 但这不起作用在这个小提琴上效果很好 document ready function var calendar calendar fullCalendar defaultView
Android - 无法获取某些联系人的电话号码

我在提取联系人列表中某些人的电话号码时遇到问题首先我在列表视图中显示所有联系人 String projection new String ContactsContract Contacts ID ContactsContract Com
如何在弹出通知时播放声音？

我正在开发一个应用程序用户可以使用两个开关按钮打开关闭通知和通知声音我创建了在状态栏上弹出的通知我想在它们出现时播放默认声音我编写了以下代码但它似乎不起作用关于如何让通知声音播放有什么想法吗 import android an
连接两个 JInternalFrame 实例的 CubicCurve2D

我一直在尝试找到一种方法在 Swing 中连接两个JInternalFrame与一个CubicCurve2D 也称为三次贝塞尔曲线我想要实现的总体效果是一个类似于雅虎管道曲线应从一个内部框架的底部延伸到另一个内部框架的顶部这里有
如何在任何打开的窗口中获取鼠标下的文本

我正在做一个C 语言的项目我想制作一个类似于 Narcis 或 Easylingo 的词典用户可以使用鼠标只需在任何应用程序中将光标移动到单词上然后程序就会检测到该单词并找到该特定单词的含义我的问题是如何在 Microsoft O
为什么 SetWindowsHookEx 必须与 Windows 消息队列一起使用

我一直在尝试使用钩子进行一些操作但我不明白为什么钩子必须与消息队列一起使用 hook SetWindowsHookEx WH KEYBOARD LL KeyboardProc NULL 0 MSG msg while GetMessage
为什么c++标准库不起作用？

我一直在尝试让我从学校服务器下载的程序在我的 Mac 上离线运行我尝试按照教程更新 GCC 但由于某种原因即使我使用了给定的命令教程也不起作用现在当我编译时我收到一条错误指出未找到我不明白我已经更新了 Xcode 遵循了大
Android：画布层上的 UI 元素

如何在画布上顶部设置一些 UI 元素我有一个简单的触摸游戏其图形放置在带有画布的自定义视图上然而由于我的全屏面板位于 setContentView 中我无法添加任何 UI 项目例如进度条或徽标我希望整个画布层可见一些对象
让 Hibernate 忽略未映射的实例变量[重复]

这个问题在这里已经有答案了我认为 hibernate 仅考虑带有注释的实例变量 Column 但奇怪的是今天当我添加一个变量未映射到任何列只是类中需要的变量时它试图将该变量作为列名包含在 select 语句中并引发错误字段列表
我如何告诉 jaxb / Maven 生成多个模式包？

Example
在没有目的地的情况下获取 Google 地图上 x 公里后的纬度经度？

我正在创建一个Android应用程序需要在 X 公里后找到同一条路线上的坐标我有两个坐标x1 y1 x2 y2在一条路上现在我的要求是找到坐标x3 y3大约 3 公里后即坐标x2 y2不在之间x1 y1 x2 y2 在同一条路上如
从 one2many 字段创建记录时设置默认值 - odoo

我想在从 one2many 字段创建记录时为多个字段设置默认值因为该默认值将从父模型中获取 Odoo 模型结构 class purchase order models Model inherit purchase order cash f
Cloudera 5.4.2：使用 Flume 和 Twitter 流时 Avro 块大小无效或太大

当我尝试 Cloudera 5 4 2 时出现了一个小问题基于这篇文章 Apache Flume 获取 Twitter 数据http www tutorialspoint com apache flume fetching twitter

Cloudera 5.4.2：使用 Flume 和 Twitter 流时 Avro 块大小无效或太大

Cloudera 5.4.2：使用 Flume 和 Twitter 流时 Avro 块大小无效或太大 的相关文章

随机推荐

热门标签

Cloudera 5.4.2：使用 Flume 和 Twitter 流时 Avro 块大小无效或太大的相关文章