如何将.txt文件转换为Hadoop的序列文件格式

2024-06-21

有效利用 Map-Reduce 作业Hadoop http://hadoop.apache.org/，我需要将数据存储在hadoop的序列文件格式 http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html。但是，目前数据仅采用平面 .txt 格式。任何人都可以建议一种将 .txt 文件转换为序列文件的方法吗？

因此，更简单的答案就是一个具有 SequenceFile 输出的“身份”作业。

在java中看起来像这样：

    public static void main(String[] args) throws IOException,
        InterruptedException, ClassNotFoundException {

    Configuration conf = new Configuration();
    Job job = new Job(conf);
    job.setJobName("Convert Text");
    job.setJarByClass(Mapper.class);

    job.setMapperClass(Mapper.class);
    job.setReducerClass(Reducer.class);

    // increase if you need sorting or a special number of files
    job.setNumReduceTasks(0);

    job.setOutputKeyClass(LongWritable.class);
    job.setOutputValueClass(Text.class);

    job.setOutputFormatClass(SequenceFileOutputFormat.class);
    job.setInputFormatClass(TextInputFormat.class);

    TextInputFormat.addInputPath(job, new Path("/lol"));
    SequenceFileOutputFormat.setOutputPath(job, new Path("/lolz"));

    // submit and wait for completion
    job.waitForCompletion(true);
   }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

file

Hadoop

typeconversion

hive

如何将.txt文件转换为Hadoop的序列文件格式的相关文章

如何实现具有LinkedHashMap类似功能的ConcurrentHashMap？

我用过LinkedHashMap with accessOrdertrue 并同时允许最多 500 个条目作为数据的 LRU 缓存但由于可扩展性问题我想转向一些线程安全的替代方案 ConcurrentHashMap在这方面似乎不错但缺
帮助我避免 JPA、Hibernate 和 MySQL 的连接超时

我正在使用 JPA Hibernate 作为提供者 Glassfish 和 MySQL 开发中一切都运行良好但是当我将应用程序部署到测试服务器并让它运行大部分空闲过夜时我通常会在早上遇到这样的情况 2011 03 09T15 06
jpa2 CriteriaBuilder order by “ORDER BY 表达式必须出现在选择列表中”

我正在写一个查询标准生成器但无法添加order by子句因为它随消息一起抛出错误ORDER BY 表达式必须出现在选择列表中这是我的实体 public class A Integer aId ManyToOne JoinColumn n
Java“空白最终字段可能尚未初始化”方法中抛出异常

我有一些代码例如 final int var1 if isSomethingTrue var1 123 else throwErrorMethod int var2 var1 throwErrorMethod 的定义如下 private
Glassfish：在部署期间修改 EAR 的部署描述符

经过几天的搜索尝试和摇头我将这个问题发布到 SO 尽管它seems已经得到答复这是场景我有一个 EAR 应用程序目前包含一个 WAR 和一个 EJB 模块 EJB 模块使用 JPA persistence xml 并且一些无状态
c和java语言中的换行符

现在行分隔符取决于系统但在 C 程序中我使用 n 作为行分隔符无论我在 Windows 还是 Linux 中运行它都可以正常工作为什么在java中我们必须使用 n 因为它与系统相关那么为什么我们在c中使用 n 作为新行而不管我
EMF Eclipse：带有自定义字段（属性）的枚举

好吧在 Java 中这是可能的 import org eclipse emf common util Enumerator public enum MyEnum implements Enumerator LITERAL1 0 Name
如何在 Java 中使用 StringUtils？

我是 Java 初学者我想用StringUtils replace但 Eclipse 输出 StringUtils cannot be resolved I tried import java lang 但它不起作用 java lang不
按文件名过滤 eclipse 中的警告

我们使用 Eclipse 进行 Java 开发并使用 Maven 将 JSP 编译成 servlet 以便在嵌入式 Jetty 实例中使用这意味着要从 Eclipse 运行该项目我必须包含 target jsp source 作为源文
如何在Java中打印保留2位小数的浮点数？

我可以用System out print 您可以使用printf http java sun com j2se 1 5 0 docs api java io PrintStream html printf 28java lang Strin
为什么下面代码的输出是Thread[main,5,main]

public class test1 public static void main String args TODO Auto generated method stub Thread t Thread currentThread Sys
为什么我要使用责任链而不是 switch 语句

考虑一下您已经获得了多次验证仅当要检查的对象属于某种类型时这些验证才应生效为什么我要使用责任链而不是 switch 语句责任链示例 public class Executor Inject private ValidatorFact
反应式 Spring Webflux REST 控制器内部重定向

我正在为 spring 反应项目创建简单的控制器服务器在设置重定向到另一个位置时我在调用时发现错误http localhost 8080 There was an unexpected error type Internal Serve
两条腿的 OAuth 和 Gmail Atom feed

我们正在尝试让 2 legged OAuth 与 Gmail Atom feed 一起使用我们使用 John Kristian Praveen Alavilli 和 Dirk Ba lfanz 贡献的 Java 库 http oauth
bufferedinputstream 中标记读取限制有什么用

我是Java流的新手我想读取特定的文件内容然后需要从头开始读取我创建了一个 BufferedInputStream 但我对 BufferedInputStream mark int markLimit 的文档感到困惑文档说 publ
春季MVC。方法参数字段的默认值

我有一个带有方法测试的简单控制器 RequestMapping produces application json ResponseBody public HttpEntity
javax.xml.bind.JAXBException: 类 *** 及其任何超类在此上下文中均未知

我正在尝试通过 REST Web 服务传递对象以下是我的课程使用一些示例代码解释了我需要的功能 Rest Web 服务类方法 POST Path find Consumes MediaType APPLICATION FORM URLE
SimpleDateFormat 无法解析的日期如果语言环境为 ES，则会出现错误。推特“创建时间”

我正在尝试将 Twitter created at 转换为阿根廷日期时间如果我这样做 final String TWITTER EEE MMM dd HH mm ss SimpleDateFormat sf new SimpleDateF
在 REST Web 服务中接受逗号分隔值

我正在尝试接收 REST URI 中以逗号分隔值形式的字符串列表示例 http localhost 8080 com vogella jersey first rest todo test 1 abc test 其中 abc 和 test
使用正则表达式匹配阿拉伯文文本

我试图使用正则表达式仅匹配阿拉伯语文本但出现异常这是我的代码 txt matches P Arabic 这是例外情况线程 main 中的异常 java util regex PatternSyntaxException 索引 9 附近

随机推荐

认为 Sphinx 没有为新添加的记录建立索引

我正在使用 sphinx 搜索 2 个模型及其关联我正在使用增量索引在我的开发盒上在开发模式 Ubuntu 下一切正常但是在暂存盒生产环境中当我创建新记录时我需要再次构建索引以使新创建的记录可搜索甚至奇怪的是当我使用脚本
禁用单一样式的 CSS 转换？

为单个样式启用 CSS 过渡非常容易但是是否可以为单个样式禁用它们单一样式过渡的常用方法是 div transition opacity 0 5s 但我想做的是设置一个全局转换然后为单个属性禁用它也许是这样的 div transit
Android，让文本切换器成为中心？

如何集中我的文本切换器我尝试过设置重力但似乎不起作用 ts setFactory new ViewFactory public View makeView TextView t new TextView this t setTypefa
Visual Studio 2019：如何使用平台工具集 v140_xp？

我正在尝试使用 Visual Studio 2019 编译适用于 Windows XP 的应用程序为此我尝试使用平台工具集 v140 xp 它不起作用出现以下错误消息 C Program Files x86 MSBuild Micro
如何在 Alamofire 中使用“responseDecodable”方法？

I have been trying to use responseDecodable method from Alamofire but I m getting Generic parameter T could not be infer
使用 git 将一系列小的合并从 master 压缩到我的分支中，同时保留对 master 的引用？

我有一个非常复杂的合并要做部分问题在于我浪费了太多时间因此要纳入我的分支的更改量是巨大的为了让事情变得更容易我选择这样做git merge origin master 20 then git merge origin master
d3：力向图：节点过滤

我正在浏览以下帖子突出显示选定的节点 https stackoverflow com questions 8739072 highlight selected node its links and its children in a d3
无法运行 playn 示例项目 - 编译错误

我尝试按照 playn 入门页面上的说明进行操作但在运行第一个程序 java Showcase 时遇到了问题右键单击并运行 Maven 测试时出现以下错误另外我在 Eclipse 的问题选项卡中遇到许多与无法从 yyy 传输 xx
在 Silverlight 4 中托管 Microsoft Office 应用程序？

我知道 Silverlight 4 通过以下方式支持 COM 互操作AutomationFactory class dynamic excel AutomationFactory CreateObject Excel Application
警告：无法对已卸载的组件执行 React 状态更新。在功能组件中

我有一个功能组件我可以从 localStorage 获取一个值并使用该值在某个状态中设置一个值 localforage getItem
使用哪个正则表达式将此字符串转换为数组？

从 mysql 中的地理空间列我得到以下字符串值我想将其转换为数组最终目标是将其转换为 geoJSON POLYGON 4 885838 52 388063 4 891061 52 388381 4 890973 52 382909 该
css3动画硬闪烁（帧之间没有淡入淡出）

尝试使用 css3 动画连续闪烁三个元素我已经让它运行了但是每一帧都有一个淡入淡出我想将其删除理想情况下每个元素保持可见 1 秒然后立即隐藏我尝试将动画设置为帧0 and 99 for opacity 1 and 100 fo
强参数和多维数组

我在用着轨道 3 2 6 with 参数强 https github com rails strong parameters gem 所以我有一个具有典型更新操作的控制器 PUT api resources id def update r
如何使用 udev 规则识别断开连接的 USB 设备？

我有两个使用 Xorg xinerama 功能的 LCD 每个 LCD 屏幕都有一个触摸屏连接到各自的 USB 线查看 var log messages 文件我看到以下内容 kernel input Analog Resistive
将 SSL 证书从 Azure 密钥保管库添加到现有 VM linux vm

如何将 SSL 证书从 Azure Key Vault 添加到现有的 azure Linux VM 对于 Windows 我们使用以下命令 vaultId Get AzureRmKeyVault ResourceGroupName reso
WPF 单击鼠标即可展开 TreeView

我有一个带有 HierarchicalDataTemplate 的 WPF TreeView 目前我必须双击一个项目才能展开折叠它我想将此行为更改为单击而不丢失其他功能所以它应该在点击时展开和折叠推荐的方法是什么 Thanks 您
如何通过代码确定Oracle数据类型的字符串值？

I use DBMS SQL DESCRIBE COLUMNS过程来确定 SELECT 查询的结果集中的列使用什么数据类型但不幸的是这样我只能得到Oracle数据类型的代码 record col type 1 8 12 等所以我想知道
“+=”和“=+”有什么区别？ [复制]

这个问题在这里已经有答案了我有一段简单的代码可以打印出整数 1 10 i 0 while i lt 10 i 1 print i 然后如果你只改变第 3 行的一个运算符它会打印出无限数量的 1 整数我明白为什么这样做为什么运行第
如何更新 Node.js？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动我执行了以下操作来更新我的 npm npm update npm g 但我不知道如何更新
如何将.txt文件转换为Hadoop的序列文件格式

有效利用 Map Reduce 作业Hadoop http hadoop apache org 我需要将数据存储在hadoop的序列文件格式 http hadoop apache org common docs current api or

如何将.txt文件转换为Hadoop的序列文件格式

如何将.txt文件转换为Hadoop的序列文件格式 的相关文章

随机推荐

热门标签

如何将.txt文件转换为Hadoop的序列文件格式的相关文章