如何使用 Mahout 的sequencefile API 代码?

2023-12-02

Mahout 中有一个用于创建序列文件的命令,如下所示bin/mahout seqdirectory -c UTF-8 -i <input address> -o <output address>。我想使用这个命令作为代码 API。


你可以这样做:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;


Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);

Path outputPath = new Path("c:\\temp");

Text key = new Text(); // Example, this can be another type of class
Text value = new Text(); // Example, this can be another type of class

SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, outputPath, key.getClass(), value.getClass());

while(condition) {

    key = Some text;
    value = Some text;

    writer.append(key, value);
}

writer.close();

您可以找到更多信息here and here

此外,您可以使用 Mahout 调用与您描述的完全相同的功能org.apache.mahout.text.SequenceFilesFromDirectory

然后调用看起来像这样:

ToolRunner.run(new SequenceFilesFromDirectory(), String[] args //your parameters);

The ToolRunner来自org.apache.hadoop.util.ToolRunner

希望这有帮助。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Mahout 的sequencefile API 代码? 的相关文章

随机推荐

  • 使用 Node 将文件从一个 AWS S3 存储桶复制到另一个存储桶

    我正在尝试使用 Node js 将文件从 AWS S3 存储桶复制到另一个存储桶 问题是如果文件名没有空格 例如 abc csv 它工作正常 但如果我要复制到的文件的文件名中有空格 例如 abc xyz csv 它抛出以下错误 指定的密钥不
  • Phonegap、textarea不接受输入

    这是一个 Noob Gingrich 的问题 很确定我错过了一些简单的东西 有没有让文本区域在移动设备上工作的技巧 我所说的工作是指接受来自软键盘的文本 我在phonegapbuild 上有一个移动应用程序 在一页上有一个包含文本框和文本区
  • MATLAB 事件和无限休眠或检查循环

    我需要在目录中的文件进入时对其进行数据分析 我想知道如果这样更好 在目录上实现事件监听器 并在激活时启动分析过程 然后让程序永远进入睡眠状态 while true sleep 1e10 end 或者有一个循环轮询更改并做出反应 我个人更喜欢
  • C# 使用唯一的自定义数据 FCM 向设备组发送通知

    我知道我可以提供registration ids将 JSON 请求以字符串数组的形式发送到多个设备 但是 我有一个独特的令牌 我想将其发送给每个人registration ids 如何实现这一目标 而无需简单地循环发送我希望发送到的设备数量
  • 从“后退”按钮中删除文本,保留图标

    我想从后退按钮中删除文本 但我想保留图标 我努力了 let backButton UIBarButtonItem title style UIBarButtonItemStyle Plain target navigationControl
  • 从 Android 到 Web API 的 POST 数据返回 404

    我尝试将数据从 Android 客户端作为 POST 请求发送到我的 Web API 后端 但它返回 404 响应代码 这是我的代码 Backend HttpPost Route api postcomment public IHttpAc
  • 自定义视频录制屏幕

    我正在尝试实现一个应用程序 该应用程序在启动时使用我的自定义视频录制屏幕自动开始视频录制 并使用我自己的按钮来停止录制和其他按钮 到目前为止 我所做的是设计带有按钮的布局 但如何在后台添加视频录制屏幕 请帮忙 这就是我实现它的方法 publ
  • 在 Visual C++ 2013 中使用 wifstrem Shift-JIS 解码失败

    我正在尝试使用 std wifstream 和 std getline 读取以 Shift JIS cp 932 编码的文本文件 以下代码在 VS2010 中有效 但在 VS2013 中失败 std wifstream in in open
  • Rails 4 在初始化器中使用应用程序助手

    是否可以在应用程序内部包含 使用应用程序帮助器方法config initializers browser blocker rb 我正在使用浏览器宝石检测并阻止较旧的非现代浏览器 Rails configuration middleware
  • 负指数的幂

    我不确定平方幂是否可以处理负指数 我实现了以下代码 该代码仅适用于正数 include
  • 尝试调用委托时出现“不支持方法”错误

    我有一个函数Run string string 我想在单独的线程上运行 所以我使用委托并BeginInvoke private Func
  • 在 Spark Scala 中保存并覆盖文件

    我有一个文本文件 其中第一列用表名称表示 第二列用日期表示 两列之间的分隔符由空格表示 数据表示如下 员工 txt organization 4 15 2018 employee 5 15 2018 我的要求是读取文件并根据业务逻辑更新日期
  • Jquery img.load 问题

    我正在使用 jQuery循环插件循环浏览一些图像 这些图像都包含在 DIV 内 我不希望循环插件在所有图像 或者至少是前 4 个或 5 个图像 加载完成之前运行 这样就不会出现尚未加载的图像 有一个简单的方法可以做到这一点吗 我尝试将类 l
  • ASP.NET动态添加UserControl到PlaceHolder,不触发Click事件,只触发Page_Load

    在我的 ASP Net 页面中 我有占位符和按钮 当用户单击此按钮时 我将一些 UserControls 从我的接口方法 getControl 添加到 PlaceHolder 代码 protected void ActionBtn Clic
  • TableSorter 过滤器和滚动器小部件更新

    我正在尝试将 TableSorter 与 Widgets Scroller 和 Filters 一起使用 它们工作完美 table tablesorter theme blue widgets zebra filter scroller 但
  • jQuery 根据单击的锚点更改选择框值

    当有人单击链接时 我需要更改选择框值 a class cli href 0 Jan a a class cli href 1 Feb a a class cli href 2 Mar a a class cli href 3 Apr a a
  • PHP 和 MSSQL 未安装在 centos 7 中

    我想在CentOS Linux系统中通过PHP连接MSSQl服务器 但低于错误 Fatal error Call to undefined function mssql connect in var www h 为此 我参考了一些网站并找到
  • Java 连接 Microsoft Access 2007 数据库的正确方法是什么?

    我正在尝试使用 jdbc odbc 桥创建一个简单的连接 public static Connection getConnection Connection con null try Class forName sun jdbc odbc
  • || 之间的区别和||=? [复制]

    这个问题在这里已经有答案了 我是红宝石新手 有什么区别 and gt gt a 6 4 gt 6 gt gt a 6 gt 6 听起来他们是一样的 仅当左侧值为 false 时 才会将左侧值设置为右侧值 在这种情况下 6 和 4 都是真值
  • 如何使用 Mahout 的sequencefile API 代码?

    Mahout 中有一个用于创建序列文件的命令 如下所示bin mahout seqdirectory c UTF 8 i