使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？

2024-04-11

我正在尝试使用本机贝叶斯分类器来检测欺诈交易。我在 Excel 工作表中有大约 5000 个样本数据，这是我将用于训练分类器的数据，并且我有大约 1000 个测试数据，我将在其上应用测试分类器。

我的问题是，我不知道如何训练分类器。在将训练数据传递到训练分类器之前，我是否需要将其转换为某种特定格式？训练分类器如何知道哪个是我的目标值以及哪些是它的特征。

有人可以帮帮我吗？

为了测试您的数据，您需要确保您的训练集具有一些标签或已根据您在数据收集集中使用的某些功能划分为块。我不确定您是如何组织数据的，但是您需要将数据集分成具有相似功能的块。

根据您的标准创建拆分后，请检查输入数据的创建。您可以使用以下方法验证文件：

hadoop fs -ls filename

使用以下方法训练您的分类器：

$MAHOUT_HOME/bin/mahout trainclassifier -i input_file -o output_model

使用以下方法测试分类器：

$MAHOUT_HOME/bin/mahout testclassifier -m output_model -d input_file

注意：请注意，在数据收集过程中，您需要确保为某些数据值（如果存在）分配权重。此外，还必须进行数据清理，以标准化实验设置或数据收集期间的误差。您可以对数据集使用任何乘性散射校正技术来校正它。

首先，有一个名为training-categories.txt，其中包含分类器的类别。您可以使用简单的文本编辑器来执行此操作。

现在我们有了感兴趣的类别列表，运行ExtractTrainingData使用类别列表的类。

$TT_HOME/bin/tt extractTrainingData \
--dir ./index \
--categories ./training-categories.txt \
--output ./category-bayes-data \
--category-fields categoryFacet,source \
--text-fields title,description \
--tv

此命令将读取文档并在类别和源字段中搜索匹配的类别。当其中列出的类别之一training-categories.txt在这些文档之一中找到术语，将从存储在标题和描述字段中的术语向量中提取术语。这些条款将被写入一个文件中category-bayes-data目录。每个类别都有一个文件。每个都是纯文本文件，可以使用任何文本编辑器或显示实用程序查看。

类别名称显示在第一列中，而文档中出现的每个术语则包含在第二列中。 Mahout 贝叶斯分类器期望输入字段被词干化，因此您将在测试数据中看到这一点。这--tv论证extractTrainingdata 命令会从每个文档的术语中提取词干术语要使用的向量。

当。。。的时候ExtractTrainingData类已完成其运行，它将输出每个类别中找到的文档计数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？的相关文章

Mahout 堆空间不足

我正在使用 Mahout 在一组推文上运行 NaiveBayes 两个文件一个 100 MB 一个 300 MB 我将 JAVA HEAP MAX 更改为 JAVA HEAP MAX Xmx2000m 之前是 1000 但即便如此 mah
如何使用 R 中 e1071 包的“svm”执行多类分类

我想使用执行多类分类svm的函数e1071包裹但据我从文档中了解到svm 只能进行二元分类插图文档讲述了多类分类的情况为了允许多类分类 libsvm通过拟合所有二元子分类器并通过投票机制找到正确的类使用一对一技术我仍然不明白的是我
Huggingface 分类与预测作斗争

我正在微调 longformer 然后使用进行预测TextClassificationPipeline and model inputs 方法我不确定为什么会得到不同的结果 import pandas as pd import datas
为什么单层感知器在没有归一化的情况下收敛得这么慢，即使裕量很大？

在我确认我的结果后这个问题完全被重写了 Python Notebook可以找到here https www dropbox com s pwvfx9hbxzkym5r perceptron py dl 0 用别人写的一段代码可以找到he
您将如何使用 Sklearn 的 VotingClassifier 进行 RandomizedSearchCV ？

我正在尝试调整我的投票分类器我想在 Sklearn 中使用随机搜索但是由于我当前使用两种算法不同的树算法如何为我的投票分类器设置参数列表我是否必须单独运行随机搜索并稍后在投票分类器中将它们组合在一起有人可以帮忙吗代码示例将受
使用 XMLInputFormat 在 hadoop 中解析 xml 时不执行我的 hadoop 映射器类

我是 hadoop 新手使用 Hadoop 2 6 0 版本并尝试解析复杂的 XML 经过一段时间的搜索我了解到对于 XML 解析我们需要编写自定义的 InputFormat 即 mahout 的 XMLInputFormat 我也
使用输入 fn 在 Tensorflow 估计器中进行预测

我使用来自的教程代码https github com tensorflow tensorflow blob r1 3 tensorflow examples learn wide n deep tutorial py https githu
随机森林中什么是袋外错误？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案随机森林中什么是袋外错误它是在随机森林中找到正确数量的树的最佳参数吗我将尝试解释一下假设我们的训练数据集由 T 表示并且假设数
如何计算sklearn中交叉验证的每个模型中的特征重要性

我在用RandomForestClassifier with 10 fold cross validation如下 clf RandomForestClassifier random state 42 class weight balanc
WEKA 工具包中的隐马尔可夫模型相当于什么？

我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类每个加速度计都会给我一个 X Y 和 Z 值因此在每个样本中我有 8 x 3 24 个加速度值我的采样频率约为 30 Hz 执行时间约为 0 5 秒起初我想为此使用隐
多层神经网络不会预测负值

我已经实现了一个多层感知器来预测输入向量的正弦这些向量由随机选择的四个 1 0 1 组成偏差设置为 1 网络应该预测向量内容之和的 sin 例如输入输出 Sin 0 1 1 0 1 我遇到的问题是网络永远不会预测负值并且许多向量的
如何在自组织图中关联回原始数据点

我正在使用 R kohonen 包来实现 SOM 我发现将自组织映射产生的代码向量与原始数据点相关联时遇到麻烦我尝试在训练过程中包含没有权重的标签但结果令人难以理解有没有办法在训练过程完成后从每个节点引用原始数据点您将从中获得中心值
聚类和贝叶斯分类器 Matlab

因此我正处于下一步该做什么的十字路口我开始学习一些机器学习算法并将其应用于复杂的数据集现在我已经做到了我从一开始的计划就是结合两种可能的分类器试图建立一个多分类系统但这就是我被困住的地方我选择聚类算法模糊 C 均值在学习了
MATLAB - 从分类器生成混淆矩阵

我有一些测试数据和标签 testZ 0 25 0 29 0 62 0 27 0 82 1 18 0 93 0 54 0 78 0 31 1 11 1 08 1 02 testY 1 1 1 1 1 2 2 2 2 2 2 2 2 然后我对它
scikit 多标签分类：ValueError：错误的输入形状

我相信SGDClassifier with loss log 支持多标签分类我不必使用 OneVsRestClassifier 检查这个 https stackoverflow com questions 15036630 batch g
如何创建带有彩色分支的树状图？

I would like to create a dendrogram in R which has colored branches like the one shown below 到目前为止我使用以下命令来创建标准树状图 d lt
训练鲁棒级联分类器时要考虑的建议？

我正在训练级联分类器以检测图像中的动物不幸的是我的误报率相当高使用 Haar 和 LBP 超高使用 HOG 可以接受我想知道如何改进我的分类器这是我的问题鲁棒检测所需的训练样本量是多少我在某处读到需要 4000 个正样本和
使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我
在处理 VotingClassifier 或网格搜索时，Sklearn 中的 GradientBoostingClassifier 是否有类别权重（或替代方法）？

我正在使用 GradientBoostingClassifier 来处理不平衡的标记数据集 Sklearn 中似乎不存在类权重作为该分类器的参数我发现我可以在合适时使用sample weight 但在处理VotingClassifier
使用 SVM 预测概率

我编写了这段代码并想获得分类的概率 from sklearn import svm X 0 0 10 10 20 30 30 30 40 30 80 60 80 50 y 0 1 2 3 4 5 6 clf svm SVC clf prob

随机推荐

我如何使用 php api 读取 gmail 主题？

在女巫模式下可以使用 php api 读取电子邮件主题吗我做这个代码 Get the API client and construct the service object client getClient service new Go
从 SVG 中删除“填充”？

I have a SVG graphic that draws a circle When I give it a background color with CSS I expected it to show up only in the
轻量级、基于 PHP 的布局框架...知道吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个轻量级的基于 PHP 的布局框架就像 Zend Framework 如何使用布局一样我想创建一个布局模板并仅包含必要页
在 Java 中使用 AudioPlayer

在我的 swing 应用程序中我使用一个类在单击鼠标时播放声音我遇到的问题是当我调用班级时声音会播放一次而当突然单击另一个按钮时它不会播放声音我尝试在代码中给出延迟但 id 仍然无法按我的预期工作和线程有关系吗我不擅长线
为什么 Orion 订阅不能按我的意愿工作？

我在 orion 1 2 1 中有以下订阅 curl include header Content Type application json request POST data binary description subscriptio
正则表达式解析任意深度的函数

我正在为其中包含的函数解析一种简单的语言 Excel 公式函数名称必须以任意字母开头后跟任意数量的字母数字并以左括号结尾中间没有空格例如MyFunc 该函数可以包含任何参数包括其他函数并且必须以右括号结尾当然括号内的数学
如何更改多个提交按钮的值？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我如何重命名所有submit当我点击按钮时我需要脚本该脚本会改变submit按钮的值类似于所有按钮的正在加载我需要完整的 jQ
Visual Studio 2013 和 libpng [重复]

这个问题在这里已经有答案了我正在尝试使用 VS2013 在 C 中使用 libpng 编写一个简单的 PNG 文件我从 Nuget 安装了 libpng 并包含了 png h 但无法编译我得到这个作为我的输出 1 gt main ob
在 php 文件中包含网站

您好我正在尝试将另一个网站的网页链接包含到我的网站中我怎样才能做到这一点 i tried 但在此语句之后所有命令都不会加载我想将另一个网页直接包含到我的主页中我的主页完全是用php设计的但是另外一个是html或者php 我也尝试过
在 .NET Core csproj 文件中更改为（复数）时出错

我正在关注 Pluralsight 上的一个关于让 MSTest 项目同时针对 net core 2 2 和 NET 4 7 2 的教程这需要转到我的测试项目的 csproj 文件并对其进行编辑以便以下内容
Objective C 内存管理，包括块、ARC 和非 ARC

我使用块已经有一段时间了但我觉得在 ARC 和非 ARC 环境中我都怀念一些关于内存管理的事情我觉得更深层次的理解会让我避免很多内存泄漏 AFNetworking 是我在特定应用程序中对 Blocks 的主要使用大多数时候在操作的
python google Sheets API 出现无效 JSON 有效负载错误

我正在尝试使用 Google Sheets API 将新行附加到现有的 Google Sheet 中身份验证已成功进行并且代码能够读取工作表的内容但是当我尝试使用service spreadsheets values append
QT5 迁移和 Boost：if.hpp：宏参数不匹配错误

在 qt 4 8 中我使用了 boost 1 52 一切都好现在我尝试转移到 QT5 并得到if hpp Macro argument mismatch线上错误131 BOOST MPL AUX NA SPEC 3 if 在一些QT论坛
如何根据用户ID获取Firebase中任何用户的电子邮件？

我需要获取一个用户对象特别是用户电子邮件我将拥有以下格式的用户 ID simplelogin 6 所以我需要写一个像这样的函数 getUserEmail simplelogin 6 那可能吗可以通过 Admin SDK 实现 Admi
selenium.common.exceptions.NoSuchDriverException：消息：使用 Selenium 和 ChromeDriver 时无法使用 Selenium Manager 获取 chromedriver 错误

我不明白为什么我的代码总是出错这是我的代码 from selenium import webdriver url https google com path C Users thefo OneDrive Desktop summer 20
通过post请求传输字典

我正在使用 Python 并尝试通过 HTTP Post 请求向服务器发送字典包含动态数据最有效的实施方法是什么 Use urllib urlencode将字典编码为 POST import urllib import urllib2
使用“flask run”或“python run”哪个？

Reading http flask pocoo org docs 1 0 quickstart http flask pocoo org docs 1 0 quickstart 描述使用 flask run 来启动基于 Flask 的应用
为应用程序创建自定义 odbc 驱动程序

好的我有一个简单的数据库引擎它是用 vb6 编写的专有产品用于我的一个应用程序我想为它创建一个 ODBC 驱动程序这样我就可以将我的一些其他应用程序需要数据库与我的数据库引擎而不是 microsoft sql 他们当前正在使用
我怎样才能返回一个数组？

有没有办法从函数返回数组更具体地说我创建了这个函数 char bin 8 for int i 7 i gt 0 i int ascii a if 2 i ascii gt 0 bin i 1 ascii 2 i ascii else b
使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？

我正在尝试使用本机贝叶斯分类器来检测欺诈交易我在 Excel 工作表中有大约 5000 个样本数据这是我将用于训练分类器的数据并且我有大约 1000 个测试数据我将在其上应用测试分类器我的问题是我不知道如何训练分类器在将训练数

使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？

使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？ 的相关文章

随机推荐

热门标签

使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？的相关文章