当我尝试 Cloudera 5.4.2 时出现了一个小问题。基于这篇文章
Apache Flume - 获取 Twitter 数据http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm
它尝试使用 Flume 和 Twitter 流来获取推文以进行数据分析。一切都很顺利,创建 Twitter 应用程序,在 HDFS 上创建目录,配置 Flume,然后开始获取数据,在推文上创建模式。
那么,问题来了。 Twitter 流将推文转换为 Avro 格式并将 Avro 事件发送到下游 HDFS 接收器,当 Avro 支持的 Hive 表加载数据时,我收到错误消息“Avro 块大小无效或太大”。
哦,avro块是什么以及块大小的限制?我可以改变它吗?根据这条消息,这意味着什么?是文件的错吗?是某些记录的错吗?如果 Twitter 的流媒体遇到错误数据,它应该关闭核心。如果将推文转换为 Avro 格式就可以了,相反,Avro 数据应该可以正确读取,对吧?
我还尝试了 avro-tools-1.7.7.jar
java -jar avro-tools-1.7.7.jar tojson FlumeData.1458090051232
{"id":"710300089206611968","user_friends_count":{"int":1527},"user_location":{"string":"1633"},"user_description":{"string":"Steady Building an Empire..... #UGA"},"user_statuses_count":{"int":44471},"user_followers_count":{"int":2170},"user_name":{"string":"Esquire Shakur"},"user_screen_name":{"string":"Esquire_Bowtie"},"created_at":{"string":"2016-03-16T23:01:52Z"},"text":{"string":"RT @ugaunion: .@ugasga is hosting a debate between the three SGA executive tickets. Learn more about their plans to serve you https://t.co/…"},"retweet_count":{"long":0},"retweeted":{"boolean":true},"in_reply_to_user_id":{"long":-1},"source":{"string":"<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for iPhone</a>"},"in_reply_to_status_id":{"long":-1},"media_url_https":null,"expanded_url":null}
{"id":"710300089198088196","user_friends_count":{"int":100},"user_location":{"string":"DM開放してます(`・ω・´)"},"user_description":{"string":"Exception in thread "main" org.apache.avro.AvroRuntimeException: java.io.IOException: Block size invalid or too large for this implementation: -40
at org.apache.avro.file.DataFileStream.hasNextBlock(DataFileStream.java:275)
at org.apache.avro.file.DataFileStream.hasNext(DataFileStream.java:197)
at org.apache.avro.tool.DataFileReadTool.run(DataFileReadTool.java:77)
at org.apache.avro.tool.Main.run(Main.java:84)
at org.apache.avro.tool.Main.main(Main.java:73)
Caused by: java.io.IOException: Block size invalid or too large for this implementation: -40
at org.apache.avro.file.DataFileStream.hasNextBlock(DataFileStream.java:266)
... 4 more
一样的问题。我用谷歌搜索了很多,根本没有答案。
如果您也遇到了这个问题,有人可以给我一个解决方案吗?或者,如果您完全理解 Avro 内容或下面的 Twitter 流,有人可以帮助您提供线索。
这确实是一个有趣的问题。想一想。