NLP 对句子内容进行分类/标记（需要 Ruby 绑定）

2023-12-22

我正在分析几百万封电子邮件。我的目标是能够将其分组。团体可以是例如：

交货问题（发货缓慢、发货前处理缓慢、库存信息不正确等）
客户服务问题（电子邮件回复速度慢、回复不礼貌等）
退货问题（退货请求处理缓慢、客户服务缺乏帮助等）
定价投诉（发现隐藏费用等）

为了执行此分类，我需要一个可以识别词组组合的 NLP，例如：

“[他们|公司|公司|网站|商家]”
“[没有|没有|没有]”
“[回复|回复|回答|回复]”
“[第二天之前|足够快|根本]”
etc.

这些示例组中的一些组合应该匹配如下句子：

“他们没有回应”
“他们根本没有回应”
“完全没有反应”
“我没有收到该网站的回复”

然后将句子分类为客户服务问题.

哪个 NLP 能够处理这样的任务？根据我的阅读，这些是最相关的：

斯坦福核心自然语言处理
OpenNLP

还检查这些建议的 NLP https://stackoverflow.com/questions/999410/natural-language-processing-in-ruby/10056667#10056667.

使用 OpenNLP doccat api，您可以创建训练数据，然后根据训练数据创建模型。与朴素贝叶斯分类器相比，它的优点是它返回一组类别的概率分布。

因此，如果您创建以下格式的文件：

customerserviceproblems They did not respond
customerserviceproblems They didn't respond 
customerserviceproblems They didn't respond at all
customerserviceproblems They did not respond at all
customerserviceproblems I received no response from the website
customerserviceproblems I did not receive response from the website

等等......提供尽可能多的样本并确保每行以 \n 换行符结尾

使用此应用程序，您可以添加任何您想要的意味着“客户服务问题”的内容，您还可以添加任何其他类别，因此您不必过于确定哪些数据属于哪些类别

这是构建模型的 java 的样子

DoccatModel model = null;
    InputStream dataIn = new FileInputStream(yourFileOfSamplesLikeAbove);
    try {

      ObjectStream<String> lineStream =  
              new PlainTextByLineStream(dataIn, "UTF-8");

      ObjectStream<DocumentSample> sampleStream = new DocumentSampleStream(lineStream);
      model = DocumentCategorizerME.train("en", sampleStream);
      OutputStream modelOut = new BufferedOutputStream(new FileOutputStream(modelOutFile));
      model.serialize(modelOut);
      System.out.println("Model complete!");
    } catch (IOException e) {
      // Failed to read or parse training data, training failed
      e.printStackTrace();
    }

获得模型后，您可以像这样使用它：

DocumentCategorizerME documentCategorizerME;
  DoccatModel doccatModel; 

doccatModel = new DoccatModel(new File(pathToModelYouJustMade));
   documentCategorizerME = new DocumentCategorizerME(doccatModel);
 /**
 * returns a map of a category to a score
 * @param text
 * @return
 * @throws Exception 
 */
  private Map<String, Double> getScore(String text) throws Exception {
    Map<String, Double> scoreMap = new HashMap<>();
    double[] categorize = documentCategorizerME.categorize(text);
    int catSize = documentCategorizerME.getNumberOfCategories();
    for (int i = 0; i < catSize; i++) {
      String category = documentCategorizerME.getCategory(i);
      scoreMap.put(category, categorize[documentCategorizerME.getIndex(category)]);
    }
    return scoreMap;

  }

然后在返回的哈希图中，您拥有建模的每个类别和分数，您可以使用分数来决定输入文本属于哪个类别。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ruby

NLP

stanfordnlp

opennlp

textanalysis

NLP 对句子内容进行分类/标记（需要 Ruby 绑定）的相关文章

使用 ActiveRecord::Relation 时的 RSpec 匹配器

所以这是我要测试的方法 def self by letter letter where lastname LIKE letter order lastname end 简单问一下 letter 后面的百分号到底有什么作用跟格式化有关系吗
如何创建增量NER训练模型（追加到现有模型中）？

我正在训练定制命名实体识别 NER 模型使用斯坦福自然语言处理但问题是我想要重新训练模型 Example 假设我训练过xyz模型然后我将在一些文本上测试它如果模型检测到错误那么我最终用户将更正它并希望在更正的文本上重新训练追加模
Rails 中的“class << self”是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 Ruby 中的 class https stackoverflow com questions 2505067 class self idiom in ruby有人可以向我解释一下 class htt
Mac + Ruby：无法访问 Socket 的 ioctl？怎么修？

一天中的好时光红宝石代码 def hw address iface sock Socket new Socket AF INET Socket SOCK DGRAM 0 buf iface pack a16h16 sock ioctl S
为什么 Google 的自定义搜索 API 提示我在使用 Ruby 客户端时缺少访问令牌？

我正在尝试使用Google 的自定义搜索 API http code google com apis customsearch v1 using rest html通过Google API Ruby 客户端 http code google
Capistrano 3 部署无法连接到 GitHub - 权限被拒绝（公钥）

我使用 Capistrano v3 和 capistrano symfony gem 设置了以下部署脚本我正在使用 Ubuntu 14 4 部署到 AWS EC2 实例我正在连接从 AWS 下载的 pem 文件我的deploy rb中
捆绑安装到开发

由于某种原因当我跑步时bundle install它安装到生产中 Your bundle is complete It was installed into RAILS ENV production Arrrghh 我如何切换回开发 No
Rspec：期望与期望与块 - 有什么区别？

刚刚学习 rspec 语法我注意到这段代码有效 context given a bad list of players do let bad players it fails to create given a bad player li
rspec 测试 has_many :through 和 after_save

我有一个我认为相对简单的has many through与连接表的关系 class User lt ActiveRecord Base has many user following thing relationships has ma
如何在 Ruby 中转义单引号？

我通过一个脚本不是我的将一些 JSON 传递到服务器该脚本接受 JSON 作为字符串 JSON 的某些内容包含单引号因此我想确保在传递给脚本之前对所有单引号进行转义我已经尝试过以下方法 gt irb gt 1 9 3p194 00
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Ruby 中的方法和属性有什么区别？

你可以给我一个例子吗属性只是一个捷径如果你使用attr accessor要创建属性 Ruby 只需声明一个实例变量并为您创建 getter 和 setter 方法既然你要求一个例子 class Thing attr accessor
如何检查用户电子邮件的唯一性并将结果传递给 jQuery？

我有这个问题我正在控制器中检查用户电子邮件并发送 json 成功响应如果已获取并添加输入的 css 样式我还需要阻止提交并添加一些消息这是我的检查电子邮件操作使用本文 http paydrotalks com posts 45
“(1..4).inject(&:+)”在 Ruby 中如何工作

我发现 Ruby 中的这段代码非常有趣 1 4 inject 好的我知道什么inject是的我知道这段代码基本上相当于 1 4 inject 0 a n a n 但它究竟是如何运作的呢 Why 与写块相同 a n a n 为什么它不需要
Watir 不会下载 PDF，只能在查看器中打开

我试图用 Selenium 进行测试但无法下载 pdf pdf 一直打开参见我的另一篇文章 RUBY Selenium Webdriver 设置为下载 pdf 文件而不是打开它们 https stackoverflow com ques
机架测试失败：JSON 请求尚未响应

我正在尝试为我的 Ruby 项目创建一个 JSON API 如下所示Ticketee https github com rails3book ticketeeYehuda Katz 书中提供的示例Rails 3 实际应用 http www
Capybara::ElementNotFound：无法找到字段“标题”

我无法解决这个问题请帮我它给了我找不到元素的错误规格功能 todos create spec rb require spec helper describe Creating todos do let user FactoryGir
在 Ruby Net::HTTP.start 中为服务调用设置 read_timeout

我想在我的 ruby 代码中覆盖服务调用的默认超时我打开连接如下 res Net HTTP start task url host task url port do http http get tasks task id end 我尝试将
帮助重构这个讨厌的 Ruby if/else 语句

所以我有这个大而多毛的 if else 语句我将跟踪号码传递给它然后它确定它是什么类型的跟踪号码我怎样才能简化这件事具体来说就是想减少代码行数 if num length lt 8 tracking service false el
在 Ruby 中将 Time 类对象转换为 RFC3339

谷歌日历 API v2 https developers google com google apps calendar v2 developers guide protocol的时间相关查询需要采用 RFC3339 格式当我在需要时

随机推荐

匹配点的正则表达式

想知道最好的匹配方式是什么 test this from blah blah blah email protected cdn cgi l email protection blah blah 是使用Python 我试过了re split
如何获取Android系统颜色？

我正在寻找获取 Android 系统颜色设备中使用的颜色主题的方法 Using android color 我没有得到正确的颜色例如我的设备中的背景颜色是BLACK 菜单背景颜色为DARKGREY 值来自android color 在
如何在代码中处理游标上的 IllegalStateException？

当我调试我的应用程序时突然弹出此错误我该如何处理这种错误我不知道是在哪里以及如何引起的 Daemon System Thread lt 5 gt HeapWorker Suspended exception IllegalStateEx
Pytorch 中缺乏 L1 正则化的稀疏解决方案

我正在尝试在简单神经网络的第一层 1 个隐藏层上实现 L1 正则化我查看了 StackOverflow 上的其他一些帖子这些帖子使用 Pytorch 应用 l1 正则化来弄清楚应该如何完成参考文献在 PyTorch 中添加 L1
使用 RSpec 进行改进的测试类

假设我已经精炼了 module RefinedString refine String do def remove latin letters code code code code end end end 我在课堂演讲中使用它 class
将所有“工作表对象”转换为 powerpoint 中的图像

真的不知道把它放在哪个堆栈站点上请随意将其移至正确的位置我的问题与编程并不真正相关但我有大量的幻灯片中嵌入了这些工作表对象的要点有些似乎是来自 Excel 的图表以及来自 Visio 的其他图表类型项目我需要将所有这些工作表
Kivy 规则继承与 add_widget()

跟进问题 Kivy 外部规则固有 https stackoverflow com questions 31618565 kivy outside rule inherence main py from kivy app import App
为什么 Azure 不在我的两个实例之一上调度 HTTP 请求？

我有一个带有两个实例的 Azure Web 角色两个实例都准备就绪运行正常在我的桌面上同一程序的四个实例同时运行并通过 HTTP 请求访问 Web 角色 URL 但根据日志所有请求仅分派到实例 0 我需要将请求分派到两个实例以
C# 通用列表联合问题

我正在尝试使用 Union 合并两个列表以便消除重复项以下是示例代码 public class SomeDetail public string SomeValue1 get set public string SomeValue2 g
ipython 笔记本中的居中对齐输出

我想将我的输出包括文本和绘图居中对齐ipython notebook 有没有一种方法可以在同一个笔记本中添加样式代码或屏幕截图示例会有很大帮助尝试在代码单元中运行此命令以覆盖输出单元的默认 CSS from IPython disp
SharePoint 2010：RemoveFieldRef 和 Inherits="TRUE"

我创建了一个继承自 OOTB SharePoint 的自定义内容类型Picture内容类型我所做的唯一自定义是添加一个简单的 URL 字段并删除基本类型上的两个字段见下文
如何根据编译器类型在 C 编译器的 SConstruct 中设置选项？

我需要为 C 编译器设置附加选项例如添加标志以打开所有警告具体取决于编译器的类型例如对于 MSVC 我应该使用 env Append CPPFLAGS Wall 但对于 mingw gcc 我需要使用 env Append CCFL
Symfony2 异常响应。将 404 状态代码替换为 200

我在 symfony2 中有一个 404 处理程序它是一个 EventListener 对于某些 404 我会进行重定向效果很好对于浏览器来说不会抛出 404 错误 new RedirectResponse newURL 该行基本上
向下滚动到部分时突出显示菜单项

我知道这个问题在这个论坛上已经被问了一百万次但没有一篇文章帮助我找到解决方案我编写了一小段 jquery 代码当您向下滚动到与哈希链接中具有相同 id 的部分时它会突出显示哈希链接 window scroll function v
通过重复数字打印所有排列的算法

我已经成功设计了打印所有重复数字的排列的算法但我设计的算法有一个缺陷仅当字符串的字符唯一时它才有效有人可以帮我扩展算法以应对字符串的字符可能不唯一的情况到目前为止我的代码 include
Passport JS successRedirect 在 Node.js 中挂起

我正在使用护照local signup并可以通过表单创建用户并使页面成功重定向到我指定的页面我目前的问题是重定向后页面就会挂起我看到其他人也有类似的经历但看看我所拥有的我无法弄清楚为什么我的例子挂了我首先对表单进行一些简单的验证
AuditException：由于非活动事务而无法创建修订

我一直在更新应用程序上的框架现在我正在尝试使用 JPA 配置 hibernate envers 来审核某些域常规持久性工作正常但审核失败并出现以下错误我有这个错误 org springframework orm hibernate4
PowerShell：ForEach-Object 与 InputObject 的意义是什么？

The ForEach 对象的文档 https learn microsoft com en us powershell module microsoft powershell core ForEach Object说当你使用InputO
R，获取城市的经度/纬度数据并将其添加到我的数据框中[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想获取数据框中城市的经度纬度数据并在我的框架中添加 2 列我是 R 新手不知道该怎么做有人可以帮我解决这个问题吗我的框架 g
NLP 对句子内容进行分类/标记（需要 Ruby 绑定）

我正在分析几百万封电子邮件我的目标是能够将其分组团体可以是例如交货问题发货缓慢发货前处理缓慢库存信息不正确等客户服务问题电子邮件回复速度慢回复不礼貌等退货问题退货请求处理缓慢客户服务缺乏帮助等定价投诉发现隐藏费用

NLP 对句子内容进行分类/标记（需要 Ruby 绑定）

NLP 对句子内容进行分类/标记（需要 Ruby 绑定） 的相关文章

随机推荐

热门标签

NLP 对句子内容进行分类/标记（需要 Ruby 绑定）的相关文章