木槌的基本用法。第一步

2024-04-11

我正在尝试使用Mallet实际上没有主题建模等方面的经验。我的目的是获得N的主题M我现在拥有的文档,用一个或多个主题对每个文档进行分类(文档 1 = 主题 1;文档 2 = 主题 2,可能还有主题 3),并用此结果对将来的新文档进行分类。我尝试使用bigartm首先,但在这个程序中没有找到任何分类,只有主题建模。所以 Mallet,我创建了一个 corpus.txt 文件,格式如下:

Doc.num. \t(tab) Label(actualy 1 everywhere) \t Text 1 1 some text of document to classify 2 1 another doc text ...

现在,我可以在将其转换为木槌的特征序列格式后从该文件中获取主题

bin/mallet import-file --input corpus.txt --output foo.mallet--keep-sequence

然后从中获取主题

bin/mallet train-topics --input foo.mallet --output-state state.gz --output-topic-keys topic-keys.txt --output-doc-topics doc-topics.txt

所以现在的一般问题是在 mallet(训练分类器?)中使用什么来将每个现有文档分配给我找到的主题,并保存此结果以应用于我想要使用该主题进行分类的未来文档。

Thanks


您正在寻找的内容在 Mallet 主题模型中被描述为“推理”。训练分类器是一个单独的包,旨在直接学习单词和一组预先存在的类之间的关系。

以下是对新文档使用推理的说明:

当您使用以下方法训练模型时train-topics命令,添加--inferencer-filename [FILENAME]选项。此选项将根据当前经过训练的模型创建主题推理工具并将其保存在文件中。 如果您已经有一个经过训练的模型,例如来自--output-state or --output-model您可以从该状态或模型进行初始化,运行 0 次采样迭代,并输出推理器。

创建推理器文件后,请使用 MALLET 命令bin/mallet infer-topics --help获取有关使用主题推理的信息。

请注意,您必须确保新数据与您的训练数据兼容。否则,单词 ID 425 可能意味着完全不同的单词。这将使所有主题看起来都有相同的可能性。使用选项--use-pipe-from [MALLET TRAINING FILE]在 MALLET 命令中bin/mallet import-file or import-dir指定训练文件。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

木槌的基本用法。第一步 的相关文章

随机推荐

  • 如何在 protobuf-csharp-port 和 protobuf-net 之间进行选择

    我最近不得不寻找最初由 Google 开发的 Protocol Buffers 库的 C 移植 你猜怎么着 我在这里发现了两个由两个非常知名的人拥有的项目 protobuf csharp 端口 http code google com p
  • 比较两个数据库的结构?

    我想问是否可以比较两个巨大数据库的完整数据库结构 我们有两个数据库 一个是开发数据库 另一个是生产数据库 有时我会忘记在发布部分代码之前对生产数据库进行更改 这会导致生产数据库不具有相同的结构 因此如果我们发布某些内容 就会出现一些错误 有
  • 如何将我的 React-App 部署到 github 用户页面

    我一整天都在努力将我的 React 应用程序部署到 Github 用户页面 例如https mygitname github io http 而不是 Github 页面 例如https mygitname github com mysite
  • 从动态复选框列表中获取值

    See my html
  • 错误 TypeError:无法读取 Angular 7 拖放中未定义的属性“长度”

    我只是想在 Angular 7 的帮助下创建拖放组件DragDropModule from angular cdk drag drop 但我总是收到如下错误 HomeComponent html 14 ERROR TypeError Can
  • 如何创建带有括号和参数的自定义 jquery 函数

    我知道我的问题需要更多澄清 所以让我解释一下 当我访问 fn extend 的 jquery api 文档时 我个人对创建如下所示的自定义 jquery 函数是多么容易感到震惊 input type checkbox check 链接在这里
  • 如何使用react.js上传Excel工作表文件并将数据显示到表格

    我是 React JS 的新手 我正在尝试使用react js上传Excel工作表文件并将数据显示到表格中 我有 链接中的部分参考 但并不完整 请帮忙解决一下 从 Excel 导入数据并在 React 组件中显示 https stackov
  • MVC 3 应用程序中的自定义 Http 处理程序

    我正在使用 Http 处理程序来本地化应用程序中使用的 javascript 文件 看 在 ASP NET 中本地化 JavaScript 文件中的文本 http madskristensen net post Localize text
  • Gulp - 处理多个主题和文件夹

    我正在努力创造一个终极gulpfile我们可以在我们的大型网站之一上使用它 一个具有多个主题 具体取决于您所在网站的部分 我试图让它只运行它需要运行的进程 而不是重新编译所有内容 让我准确地布局我想要实现的目标 文件夹结构 src mast
  • C# 反射:获取解决方案中的“所有”活动程序集?

    这是我的问题 我有 2 个项目 一个 常见 项目 其行为类似于具有各种支持代码的库 以及在许多调用中使用所述项目的实际程序 我们将这些项目称为 Common 和 Program 它们都在同一个解决方案中 在 Common 中 我有一个用于常
  • 使用我自己的 Laravel API 时如何遵循“不重复”原则?

    我正在开发一个 Laravel 4 应用程序 它将通过 JSON REST API 和 Web UI 对我的数据集提供相同的 CRUD 操作 看来 为了防止违反 DRY 原则 我的 UI 应该通过将所有请求从 UI 路由回 API 来使用我
  • 将 Rails/Unicorn/Nginx 容器连接到 MySQL 容器

    相关this https stackoverflow com questions 31735529 docker image from existing rails unicorn mysql app线程 我正在尝试创建 2 个容器 1 个
  • Service Fabric:找不到 EntryPoint Blah.exe

    我进行了一些项目重命名并更改了文件夹结构 现在我无法将服务结构应用程序部署到本地服务结构集群 Register ServiceFabricApplicationType 找不到 EntryPoint IdentityService exe
  • Selenium 代码不会终止

    以下代码不会终止 原因可能是什么 from selenium import webdriver from selenium webdriver common keys import Keys driver webdriver Firefox
  • Mod_Rewrite 规则冲突让我发疯

    我有一个 htaccess 如下 有些规则是冲突的 我需要以某种方式制定一个条件 这样他们就不会 RewriteEngine On RewriteRule search results template php L RewriteRule
  • 使用 Composer 安装 PEAR 扩展 HTTP_Request2

    我有一个composer json file name vendor Project description description text repositories type pear url http pear php net req
  • 在 gstreamer 中动态添加和删除 tee 队列

    我编写了gstreamer代码 用于同时进行摄像头直播和录制 我的管道看起来像这样 queue1 videosink v4l2src tee queue2 filesink 目前直播和文件录制正在协同工作 现在我需要启动只有一个队列的管道
  • 设置 NSWindow 焦点

    我有一个带有一个窗口和一个面板的应用程序 附加到该窗口 steps 停用我的应用程序 应用程序已打开 但没有焦点 单击面板上的按钮 面板现在处于焦点状态 但主窗口不是 如何从面板将焦点设置到主窗口 父窗口 Swift 5 版本的 BUDAx
  • 在自定义插件类中使用 Carbon Fields

    我有一个到目前为止还没有任何功能的插件 这是当前的结构
  • 木槌的基本用法。第一步

    我正在尝试使用Mallet实际上没有主题建模等方面的经验 我的目的是获得N的主题M我现在拥有的文档 用一个或多个主题对每个文档进行分类 文档 1 主题 1 文档 2 主题 2 可能还有主题 3 并用此结果对将来的新文档进行分类 我尝试使用b