使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤?

2024-04-11

我正在尝试使用本机贝叶斯分类器来检测欺诈交易。我在 Excel 工作表中有大约 5000 个样本数据,这是我将用于训练分类器的数据,并且我有大约 1000 个测试数据,我将在其上应用测试分类器。

我的问题是,我不知道如何训练分类器。在将训练数据传递到训练分类器之前,我是否需要将其转换为某种特定格式?训练分类器如何知道哪个是我的目标值以及哪些是它的特征。

有人可以帮帮我吗?


为了测试您的数据,您需要确保您的训练集具有一些标签或已根据您在数据收集集中使用的某些功能划分为块。我不确定您是如何组织数据的,但是您需要将数据集分成具有相似功能的块。

根据您的标准创建拆分后,请检查输入数据的创建。您可以使用以下方法验证文件:

hadoop fs -ls filename

使用以下方法训练您的分类器:

$MAHOUT_HOME/bin/mahout trainclassifier -i input_file -o output_model

使用以下方法测试分类器:

$MAHOUT_HOME/bin/mahout testclassifier -m output_model -d input_file 

注意:请注意,在数据收集过程中,您需要确保为某些数据值(如果存在)分配权重。此外,还必须进行数据清理,以标准化实验设置或数据收集期间的误差。您可以对数据集使用任何乘性散射校正技术来校正它。

首先,有一个名为training-categories.txt,其中包含分类器的类别。您可以使用简单的文本编辑器来执行此操作。

现在我们有了感兴趣的类别列表,运行ExtractTrainingData使用类别列表的类。

$TT_HOME/bin/tt extractTrainingData \
--dir ./index \
--categories ./training-categories.txt \
--output ./category-bayes-data \
--category-fields categoryFacet,source \
--text-fields title,description \
--tv

此命令将读取文档并在类别和源字段中搜索匹配的类别。当其中列出的类别之一training-categories.txt在这些文档之一中找到术语,将从存储在标题和描述字段中的术语向量中提取术语。这些条款将被写入一个文件中category-bayes-data目录。每个类别都有一个文件。每个都是纯文本文件,可以使用任何文本编辑器或显示实用程序查看。

类别名称显示在第一列中,而文档中出现的每个术语则包含在第二列中。 Mahout 贝叶斯分类器期望输入字段被词干化,因此您将在测试数据中看到这一点。这--tv论证extractTrainingdata 命令会从每个文档的术语中提取词干术语 要使用的向量。

当。。。的时候ExtractTrainingData类已完成其运行,它将输出每个类别中找到的文档计数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤? 的相关文章

随机推荐

  • 我如何使用 php api 读取 gmail 主题?

    在女巫模式下 可以使用 php api 读取电子邮件主题吗 我做这个代码 Get the API client and construct the service object client getClient service new Go
  • 从 SVG 中删除“填充”?

    I have a SVG graphic that draws a circle When I give it a background color with CSS I expected it to show up only in the
  • 轻量级、基于 PHP 的布局框架...知道吗? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个轻量级的 基于 PHP 的布局框架 就像 Zend Framework 如何使用布局一样 我想创建一个布局模板并仅包含必要页
  • 在 Java 中使用 AudioPlayer

    在我的 swing 应用程序中 我使用一个类在单击鼠标时播放声音 我遇到的问题是 当我调用班级时 声音会播放一次 而当突然单击另一个按钮时 它不会播放声音 我尝试在代码中给出延迟 但 id 仍然无法按我的预期工作 和线程有关系吗 我不擅长线
  • 为什么 Orion 订阅不能按我的意愿工作?

    我在 orion 1 2 1 中有以下订阅 curl include header Content Type application json request POST data binary description subscriptio
  • 正则表达式解析任意深度的函数

    我正在为其中包含的函数解析一种简单的语言 Excel 公式 函数名称必须以任意字母开头 后跟任意数量的字母 数字 并以左括号结尾 中间没有空格 例如MyFunc 该函数可以包含任何参数 包括其他函数 并且必须以右括号结尾 当然 括号内的数学
  • 如何更改多个提交按钮的值? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我如何重命名所有submit当我点击按钮时 我需要脚本 该脚本会改变submit按钮的值类似于所有按钮的 正在加载 我需要完整的 jQ
  • Visual Studio 2013 和 libpng [重复]

    这个问题在这里已经有答案了 我正在尝试使用 VS2013 在 C 中使用 libpng 编写一个简单的 PNG 文件 我从 Nuget 安装了 libpng 并包含了 png h 但无法编译 我得到这个作为我的输出 1 gt main ob
  • 在 php 文件中包含网站

    您好 我正在尝试将另一个网站的网页链接包含到我的网站中 我怎样才能做到这一点 i tried 但在此语句之后所有命令都不会加载 我想将另一个网页直接包含到我的主页中 我的主页完全是用php设计的 但是另外一个是html或者php 我也尝试过
  • 在 .NET Core csproj 文件中更改为 (复数)时出错

    我正在关注 Pluralsight 上的一个关于让 MSTest 项目同时针对 net core 2 2 和 NET 4 7 2 的教程 这需要转到我的测试项目的 csproj 文件并对其进行编辑 以便以下内容
  • Objective C 内存管理,包括块、ARC 和非 ARC

    我使用块已经有一段时间了 但我觉得在 ARC 和非 ARC 环境中 我都怀念一些关于内存管理的事情 我觉得更深层次的理解会让我避免很多内存泄漏 AFNetworking 是我在特定应用程序中对 Blocks 的主要使用 大多数时候 在操作的
  • python google Sheets API 出现无效 JSON 有效负载错误

    我正在尝试使用 Google Sheets API 将新行附加到现有的 Google Sheet 中 身份验证已成功进行 并且代码能够读取工作表的内容 但是 当我尝试使用service spreadsheets values append
  • QT5 迁移和 Boost:if.hpp:宏参数不匹配错误

    在 qt 4 8 中我使用了 boost 1 52 一切都好 现在我尝试转移到 QT5 并得到if hpp Macro argument mismatch线上错误131 BOOST MPL AUX NA SPEC 3 if 在一些QT论坛
  • 如何根据用户ID获取Firebase中任何用户的电子邮件?

    我需要获取一个用户对象 特别是用户电子邮件 我将拥有以下格式的用户 ID simplelogin 6 所以我需要写一个像这样的函数 getUserEmail simplelogin 6 那可能吗 可以通过 Admin SDK 实现 Admi
  • selenium.common.exceptions.NoSuchDriverException:消息:使用 Selenium 和 ChromeDriver 时无法使用 Selenium Manager 获取 chromedriver 错误

    我不明白为什么我的代码总是出错 这是我的代码 from selenium import webdriver url https google com path C Users thefo OneDrive Desktop summer 20
  • 通过post请求传输字典

    我正在使用 Python 并尝试通过 HTTP Post 请求向服务器发送字典 包含动态数据 最有效的实施方法是什么 Use urllib urlencode将字典编码为 POST import urllib import urllib2
  • 使用“flask run”或“python run”哪个?

    Reading http flask pocoo org docs 1 0 quickstart http flask pocoo org docs 1 0 quickstart 描述使用 flask run 来启动基于 Flask 的应用
  • 为应用程序创建自定义 odbc 驱动程序

    好的 我有一个简单的数据库引擎 它是用 vb6 编写的专有产品 用于我的一个应用程序 我想为它创建一个 ODBC 驱动程序 这样我就可以将我的一些其他应用程序 需要数据库 与我的数据库引擎而不是 microsoft sql 他们当前正在使用
  • 我怎样才能返回一个数组?

    有没有办法从函数返回数组 更具体地说 我创建了这个函数 char bin 8 for int i 7 i gt 0 i int ascii a if 2 i ascii gt 0 bin i 1 ascii 2 i ascii else b
  • 使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤?

    我正在尝试使用本机贝叶斯分类器来检测欺诈交易 我在 Excel 工作表中有大约 5000 个样本数据 这是我将用于训练分类器的数据 并且我有大约 1000 个测试数据 我将在其上应用测试分类器 我的问题是 我不知道如何训练分类器 在将训练数