Ruby 中的自然语言处理 [关闭]

2023-12-22

我想做一些句子分析(主要针对 Twitter 应用程序)并推断一些一般特征。 Ruby 中有针对此类事情的优秀自然语言处理库吗?

如同有没有好的自然语言处理库 https://stackoverflow.com/questions/870460/java-is-there-a-good-natural-language-processing-library但对于鲁比来说。我更喜欢一些非常笼统的东西,但任何线索都会受到赞赏!


三个优秀且成熟的NLP包是斯坦福核心自然语言处理 http://nlp.stanford.edu/software/corenlp.shtml, Open NLP http://opennlp.apache.org/ and LingPipe http://alias-i.com/lingpipe/index.html。有 Ruby 绑定到斯坦福核心自然语言处理 https://github.com/louismullie/stanford-core-nlp工具(GPL 许可证)以及OpenNLP https://github.com/louismullie/open-nlp工具(Apache 许可证)。

在更具实验性的方面,我坚持文本检索、提取和注释工具包 https://github.com/louismullie/treat(Treat),在 GPL 下发布,为 Ruby 中几乎所有与 NLP 相关的 gem 提供了通用 API。下面的Treat功能列表也可以作为与Ruby 1.9兼容的稳定自然语言处理gem方面的一个很好的参考。

  • 文本分段器和分词器(punkt-segmenter, tactful_tokenizer, srx-english, scalpel)
  • 英语、法语和德语的自然语言解析器以及英语的命名实体提取(stanford-core-nlp).
  • 词形变化和词形变化(linguistics), 词干 (ruby-stemmer, uea-stemmer, lingua, etc.)
  • WordNet 接口(rwordnet)、词性标注器 (rbtagger, engtagger, etc.)
  • 语言 (whatlanguage), 约会时间 (chronic, kronic, nickel), 关键字 (lda-ruby)提取。
  • 通过索引和全文搜索进行文本检索(ferret).
  • 命名实体提取(stanford-core-nlp).
  • 使用决策树的基本机器学习(decisiontree), MLP (ruby-fann), SVM (rb-libsvm)和线性分类(tomz-liblinear-ruby-swig).
  • 文本相似度度量(levenshtein-ffi, fuzzy-string-match, tf-idf-similarity).

未包含在 Treat 中,但与 NLP 相关:hotwater https://github.com/colinsurprenant/hotwater(字符串距离算法),yomu https://github.com/Erol/yomu(Apache Tiki 的绑定器,用于读取 .doc、.docx、.pages、.odt、.rtf、.pdf),图等级 https://github.com/louismullie/graph-rank(GraphRank 的实现)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ruby 中的自然语言处理 [关闭] 的相关文章

  • YAML 每个缩进有多少个空格?

    如果我在每个缩进级别使用一个空格 两个或四个空格 有什么区别吗 YAML 每个结构类型的空间数量有什么具体规则吗 例如4嵌套空间maps 1每空间项目清单 etc 我正在为 elastic beanstalk ebextensions 编写
  • 如何在 Ruby on Rails 中访问控制器中的隐藏字段

    问题 如何访问隐藏字段值post id从文件view comments comment html erb并用在controllers dashboards controller rb 有 2 个控制器 仪表板和评论 并使用gem act a
  • Rails 中带有 text_field 的逗号分隔数组

    我有一些users可以有很多posts 并且每个帖子都可以有很多tags 我已经使用一个实现了拥有并属于许多帖子和标签之间的关系 创建新帖子时 用户可以使用逗号分隔的值列表对其进行标记 就像在 SO 上发布新问题时一样 如果任何标签尚不存在
  • 使用 slim 或 haml 在独立(非 Rails)Ruby 应用程序中指定布局和模板

    我正在尝试在独立 不是 Rails 应用程序中执行类似的操作 布局 slim h1 Hello content yield 显示 苗条 object name object description 我不知道如何指定布局和模板 slim 或h
  • 无法在 Windows 7 上安装 Rmagick 和 Imagemagick

    当我跑步时gem install rmagick 2 13 1 gem从 rmagick 2 13 1 gem 所在的目录中 我收到一个错误 指出它无法构建 gem 本机扩展 下面显示 c Ruby192 bin ruby exe extc
  • Python NLP 英式英语与美式英语

    我目前正在用Python 进行NLP 工作 然而 在我的语料库中 既有英式英语也有美式英语 实现 实现 我正在考虑将英式英语转换为美式英语 但是 我没有找到一个好的工具 包来做到这一点 有什么建议么 我也找不到包 但试试这个 请注意 我必须
  • 深度学习和传统的人工神经网络机器学习有什么区别? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 您能否简要解释一下两者之间的差异深度学习 https developer nvidia com deep learning和利用神经网
  • Rspec 通过 mTurk 测试实时结果

    我正在通过 Rspec 测试代码在 mTurk 上创建点击 但同时我需要测试必须从 mTurk 发回的结果 为了节省每次测试的复杂性 我使用 VCR 将 HTTP 请求记录在盒式磁带中 我该如何实施这个测试 好吧 我为此做了一些修改 我使用
  • Ruby 混淆器 [重复]

    这个问题在这里已经有答案了 是否有 ruby 混淆器或 编译器 有几个选项 例如RubyScript2Exe http www erikveen dds nl rubyscript2exe or 多合一红宝石 http www erikve
  • 如何使用 ActiveRecord 列出所有数据库

    我希望能够使用 ActiveRecord 列出所有数据库 因此 我需要在终端中使用与以下命令等效的 ActiveRecord psql host 192 168 0 100 port 5432 username postgres list
  • 是否可以下载 Ruby gem 而不自动安装它?

    当我使用下载东西时gem我希望能够只下载 gem 然后选择是否要安装它 我问这个问题是因为我想在多台计算机上安装特定的 gem 而不是在每台计算机上从互联网安装 宝石获取 所以 像 gem fetch gosu 这将离开gosu 0 7 1
  • 有没有办法修复 Elastic Beanstalk 中的 Gem::LoadError

    我对 Elastic Beanstalk 比较陌生 因此希望得到一些建议 将 RoR 应用程序部署到 EB Puma 使用在 64 位 Amazon Linux 上运行的 Ruby 2 6 后 当我 转到环境 链接时 它不会呈现我的应用程序
  • Rails:RSpec - nil:NilClass 的未定义方法“cookie_jar”

    铁轨新手 尝试遵循迈克尔 哈特尔的教程 尝试添加辅助方法来模拟 RSpec 测试中的日志时陷入困境 describe when the a user has logged in and attempts to visit the page
  • Rails:控制文件存储缓存大小

    Rails 中基于文件的缓存的文档说 请注意 缓存将不断增长 直到磁盘已满 除非您 定期清除旧条目 不幸的是 它没有提供任何有关如何定期清除旧条目的信息 是否设置合适的值 expires in完成这项工作还是清除缓存背后还有其他某种黑魔法
  • Rails:与自身的多对多关系

    我在创建此关联时遇到问题 考虑模型 Entry 我希望条目有许多作为父母的条目 并且我希望条目有许多作为孩子的条目 我想通过一个我称为 关联 的模型来实现这种关系 所以这是我尝试的 移民 class CreateAssociations l
  • 如何在 Heroku 上使用 rdiscount?

    我正在尝试将一个小型测试应用程序推送到 Heroku 这是应用程序和 Gem 文件 App require sinatra require haml require rdiscount set markdown layout engine
  • 如何从Python中的阿拉伯字符串中删除英文文本?

    我有一个带有英文文本和标点符号的阿拉伯字符串 我需要过滤阿拉伯文本 我尝试使用 sting 删除标点符号和英语单词 但是 我失去了阿拉伯语单词之间的空格 我哪里错了 import string exclude set string punc
  • Sublime Text 2 不保存构建的 SASS 文件

    我安装了Sublime Text 2 的 SASS 构建系统 https github com jaumefontal SASS Build SublimeText2正如自述文件中所述 一切都成功了 也是SASS安装 现在 如果我尝试构建
  • Ruby:如何设置枚举器的状态?

    我正在做一个基于 64 的排列增量器 我已经编写了所有工作代码 但是看看 Ruby 已经作为 Array permutation 生成了一个枚举器 我想利用它并更进一步 无需使用 下一个 进行每个排列 我可以设置起点吗 x A Z to a
  • Ruby 数组到 Javascript 数组

    我有一个带有帐户 ID 的 Ruby 数组 我想将帐户 ID 的 Ruby 数组存储在 Javascript 数组中 我想知道最好的方法是什么 另外 当我尝试执行此操作时 Javascript 似乎认为如果只输入一个帐户 ID 则该 ID

随机推荐

  • 【计算机毕设文章】微信小程序考试系统

    微信小程序考试系统 摘要 随着信息技术在管理上越来越深入而广泛的应用 管理信息系统的实施在技术上已逐步成熟 本文介绍了微信小程序考试系统的开发全过程 通过分析微信小程序考试系统管理的不足 创建了一个计算机管理微信小程序考试系统的方案 文章介
  • GitHub 支持 git:// 协议拉取吗?

    可以使用这样的配置吗 或者 ssh 和 git 之间没有优势 是的 它确实 然而 github 网页中的 URL 栏没有单独的 git 协议用于将 URL 复制到剪贴板 您必须自己将 https 替换为 git 另外 git 协议使用端口
  • 未捕获的 ArgumentCountError:array_merge() 不接受未知的命名参数

    当我尝试安装任何主题到 WordPress 时出现此错误 我该怎么办 Fatal error Uncaught ArgumentCountError array merge does not accept unknown named par
  • 给定数据范围,需要巧妙的算法来计算图轴尺度的粒度

    设想 绘制图表 数据点范围从 A 到 B 并且想要确定绘制轴刻度的粒度 例如 对于 134 到 151 刻度可能从 130 到 155 以十进制系统中的 四舍五入 数字开始和结束 但数字可能从 134 31 到 134 35 在这种情况下
  • Rails 中的cattr_accessor?

    我正在阅读 Rails 3 的 Rails 指南 他们使用这种方法 cattr accessor attribute 这是什么方法呢 它是 Rails 方法吗 我以前从未见过它 这是一个铁轨的事情 基本上类似于 attr 方法 但是针对类级
  • Microsoft.AspNetCore.OData 8:按照惯例找不到控制器

    如中所述docs https github com OData AspNetCoreOData blob master docs routing overview md Microsoft AspNetCore OData 8 使用约定将控
  • MongoDB 正则表达式搜索:有关用户输入的安全性

    如果我能保证输入 value在下面的示例中 是字符串 即攻击者无法使用 PHP 魔法数组注入 以下代码足以防止注入吗 regex str replace value if substr value 0 1 regex regex if su
  • 如何将sqlite数据转换为xml文件以及将xml文件转换为sql数据?

    我正在开发一个应用程序 我想用 sqlite 数据创建一个 XML 文件 并将另一个 XML 数据放入 sqlite 字段中 所以请告诉我该怎么做 希望您使用 Core Data 与数据库进行交互 如果您这样做了 只需循环您的实体并使用 N
  • 具有渐变和平铺图像的 Android 背景

    对于线性布局 我希望在背景中具有渐变和平铺 重复 图像 我已经将形状 xml 设置为背景
  • Bash 终端不允许输入

    我尝试在 Windows 10 机器上使用 VS Code 中的集成终端和 bash 终端 自三月份以来我一直在使用相同的设置 但现在突然不允许我在终端中输入任何内容 当我启动 VS Code 时 终端会打开 但屏幕一直向下滚动 如果向上滚
  • LINQ-NHibernate - 为复杂对象仅选择几个字段(包括集合)

    我在我的一个项目 和 ASP NET MVC 应用程序 中使用 Fluent NHibernate 并使用 LINQ 来查询数据 使用 LINQ to NHibernate 库 更改物体名称是为了保护无辜者 假设我在数据库 MySQL 中有
  • 如何在JAVA中使用apache poi删除Excel中的警告?

    我在用apache poi api在我的 java 应用程序中生成 Excel 工作表 Excel 中设置的数据以字符串类型动态获取 对于第 1 列 值是字母数字 当我生成 Excel 时 它会给我绿色指示并带有警告 数字存储为文本 or
  • 对称 Lerp 和编译器优化

    我有一个功能 float lerp float alpha float x0 float x1 return 1 0f alpha x0 alpha x1 对于那些还没有看过的人来说 这比x0 x1 x0 alpha因为后者并不能保证ler
  • SonarQube 5.6 恢复质量配置文件

    我正在尝试使用curl 通过 Web API 恢复全新安装的 SonarQube v 5 6 4 的质量配置文件 在 c temp 中 我有一个从运行 Sonar 导出的 Sonar way 配置文件 我已将其重命名为 test xml 在
  • 使用 php usort 进行第二次排序

    所以我有相当大的数据数组 需要按两个标准对它们进行排序 有变数 data important and data basic 它们是简单的数字 我使用 uasort 进行排序 data首先按重要 然后按基本 So Important Basi
  • 如何在powershell中分析(计时)

    我的 powershell 脚本运行缓慢 有什么方法可以分析 powershell 脚本吗 在此处发布您的脚本确实有助于给出准确的答案 您可以使用 Measure Command 查看脚本中每个语句所花费的时间 但是 您必须将每个语句包装在
  • 基于在线 Apache Web 日志分析器,仅提交原始日志文件 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个来自 Apache 的原始 access log 文件 是否有任何基于网络的版本工具 我可以在其
  • XSLT:如何生成每行 3 个单元格的 HTML 表格

    我按照以下说明生成了一个每行 2 个单元格的 HTML 表格这篇文章来自 StackOverflow https stackoverflow com questions 5387134 xslt and tables setting num
  • 如何使用 F# 语法将 Type 作为属性参数传递?

    FsCheck 允许自定义Arbitrary在其 NUnit 集成中
  • Ruby 中的自然语言处理 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我想做一些句子分析 主要针对 Twitter 应用程序 并推断一些一般特征 Ruby 中有针对此类事情