每当新文件到达特定文件夹时,我就尝试将文件从远程计算机获取到我的 hdfs。我在flume中遇到了spool dir的概念,如果spool dir位于运行flume代理的同一台机器上,那么它工作得很好。
有什么方法可以在远程计算机中配置假脱机目录吗?请帮忙。
您可能知道 Flume 可以生成多个实例,即您可以安装多个在它们之间传递数据的 Flume 实例。
所以回答你的问题:不,flume 无法访问远程假脱机目录。但是您可以安装两个代理,一个在具有 spool 目录的计算机上,另一个在 hadoop 节点上。
第一个代理将从 spool 中读取数据,并通过 avro rpc 将其传递给第二个代理,第二个代理会将数据刷新到 HDFS。
设置很简单,只需要几行配置。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)