我已经配置成功了Hadoop 2.4 in an Ubuntu 14.04 虚拟机 from a 视窗8系统。
Hadoop 安装工作绝对正常,而且我还可以从 Windows 浏览器查看 Namenode。附图如下:
所以,我的主机名是:ubuntu,hdfs 端口:9000(如果我错了,请纠正我)。
核心站点.xml:
<property>
<name>fs.defaultFS</name>
<value>hdfs://ubuntu:9000</value>
</property>
问题是从我的 Pentaho 数据集成工具连接到 HDFS 时出现的。下面附有图片。PDI版本:4.4.0
使用的步骤:Hadoop 复制文件
请帮助我使用 PDI 连接到 HDFS。我需要为此安装或更新任何 jar 吗?如果您需要更多信息,请告诉我。
PDI 4.4 显然不支持 Hadoop 2.4。无论如何,您必须设置文件中的一个属性才能使用特定的 Hadoop 配置(您可能会在论坛等中看到“Hadoop 配置”被称为“shim”)。在 data-integration/plugins/pentaho-big-data-plugin/plugin.properties 文件中,有一个名为 active.hadoop.configuration 的属性,默认设置为“hadoop-20”,它指的是 Apache Hadoop 0.20。 x 分布。您需要将其设置为 Pentaho 附带的“最新”发行版,或者按照我的博客文章中所述构建您自己的垫片:
http://funpdi.blogspot.com/2013/03/pentaho-data-integration-44-and-hadoop.html http://funpdi.blogspot.com/2013/03/pentaho-data-integration-44-and-hadoop.html
即将推出的 PDI 版本 (5.2+) 将支持包含 Hadoop 2.4+ 的供应商发行版,因此请密切关注 PDI Marketplace 和 pentaho.com :)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)