检测 R 中的文本语言

2024-01-01

我有一个推文列表,我想只保留英文推文。

我怎样才能做到这一点?


The textcat http://cran.r-project.org/web/packages/textcat/index.html包就是这样做的。它可以检测 74 种“语言”(更准确地说,是语言/编码组合),还有更多其他扩展。详细信息和示例位于这篇免费提供的文章中:

Hornik, K.、Mair, P.、Rauch, J.、Geiger, W.、Buchta, C. 和 Feinerer, I.用于基于 n-Gram 的文本分类的 textcat 包 http://www.jstatsoft.org/v52/i06/载于《R. 统计软件杂志》,52, 1-17。

摘要如下:

识别所使用的语言通常是大多数情况下的第一步 自然语言处理任务。在种类繁多的语言中 文献中讨论的识别方法,采用的方法 Cavnar 和 Trenkle (1994) 的文本分类方法基于 字符 n 元语法频率特别成功。这 论文提出了基于 n-gram 的文本的 R 扩展包 textcat 同时实施 Cavnar 和 Trenkle 方法的分类 以及旨在消除冗余的简化 n-gram 方法 原来的方法。多语言语料库取自 有关精选主题的维基百科页面用于 说明该包的功能和性能 提供了语言识别方法。

这是他们的例子之一:

library("textcat")
textcat(c(
  "This is an English sentence.",
  "Das ist ein deutscher Satz.",
  "Esta es una frase en espa~nol."))
[1] "english" "german" "spanish" 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检测 R 中的文本语言 的相关文章

  • 绘图不适合 R 窗口

    我正在使用metaR 中的包对比例进行荟萃分析 我的分析中有大约一百项研究 当我打字时forest result 创建我的森林图 它可以工作 但图形在顶部和底部被切掉 无论我做什么 它都不适合绘图窗口 我对如何解决这个问题感到困惑 有任何想
  • 您使用 Attach() 或按名称或切片调用变量吗?

    许多介绍 R 的书籍和指南都是从附加一个 R 语言的实践开始的 data frame这样您就可以通过名称调用变量 我一直发现用以下方式调用变量是有利的 符号或方括号切片 2 这样我就可以使用多个data frames 而不混淆它们和 或使用
  • R、GeoJSON 和 Leaflet

    我最近从 R Bloggers com 的帖子中了解了 leafletjs com 我想要实现的一个此类教程是使用传单创建交互式分区统计图 http leafletjs com examples choropleth html http l
  • glmnet R 包中的 cv.glmnet 出现“drop(y %*% rep(1, nc)) 错误”错误

    我有一个返回 cv glmnet 模型的 auc 值的函数 尽管不是大多数时间 但在执行 cv glmnet 函数时 它经常返回以下错误 下降误差 y 代表 1 NC 在为函数 drop 选择方法时评估参数 x 时出错 y 中的错误 rep
  • 不同大小组的高效递归随机抽样

    这个问题是我之前关于递归随机抽样问题的后续问题高效的递归随机采样 https stackoverflow com questions 69824065 efficient recursive random sampling 当组大小相同或每
  • 数据集子集的回归

    我想做以下事情并需要一些帮助 分别计算 身高 与 年龄 的斜率和截距 lm Height Age 一 每个人 二 性别 并创建一个包含结果 斜率和截距 的表 我可以使用 申请 吗 在下一步中 我想做一个统计测试 以确定性别之间的斜率和截距是
  • R 中具有 NA 值的聚合栅格

    我在 R 中有一个分辨率为 1 公里的栅格 其 NA 值分布广泛 但位置不规则 即 包含数据的单元格不连续 并且 NA 值分散 我正在尝试使用用户定义的平均圆角函数 包括在下面 以 5 公里分辨率 因子 5 聚合此栅格 使用 raster
  • 在 R/ggplot2 中将字符串转换为函数参数的最佳方法? [复制]

    这个问题在这里已经有答案了 我正在开发一个闪亮的应用程序 用户可以选择可以使用 ggplot2 绘制哪些变量 但是我完全不确定将字符串 即要绘制的变量的名称 转换为合适的函数参数的最佳方法 考虑以下非常人为的 有效的示例 df lt dat
  • R:使用 dcast 时包含没有条目的因子

    我在数据帧上使用 reshape2 函数 dcast 其中一个变量是某些级别未出现在数据框中的因素 但我会将所有值包含在创建的新列中 例如 假设我运行以下命令 library reshape2 dataDF lt data frame id
  • 什么是 data.frame 可以做而 data.table 不能做的事情?

    我刚刚开始使用 R 并遇到了 data table 我发现它很棒 一个非常天真的问题 我可以忽略 data frame 来使用 data table 以避免两个包之间的语法混淆吗 来自数据表常见问题解答 http datatable r f
  • 如何规划庭院灯最有效的路线

    我正在尝试挂一些庭院灯 基于另一个问题 https cs stackexchange com questions 80134 christmas light route efficiency我问 我意识到我需要一种算法来解决路由检查问题 h
  • corr.test 与 cor.test p 值

    我正在尝试使用 psych 包 psych 1 6 9 中的 corr test 但在使用 method spearman 时 它似乎给出了与 cor test 不同的 p 值 相关系数相同 但 p 值不同 我整理了一些示例代码和输出 如下
  • 如何使用 ggplot 绘制矩阵图

    我想可视化一个矩阵 MAT lt matrix c 100 7 0 0 49 0 0 0 49 nrow 3 ncol 3 gt MAT 1 2 3 1 100 7 0 2 0 49 0 3 0 0 49 然而 标准方法不能正确地对小数字进
  • 将 R 传单地图保存为 html:不包括图块

    我正在尝试使用 saveWidget 或将 rmd 文件输出到 html 来保存 R 传单地图 如下所述 将传单输出保存为 html https stackoverflow com questions 30110377 saving lea
  • 如何在shell脚本中运行R代码?

    我有一个 R 文件 myfile R 我想使用 shell 脚本来运行它 我怎样才能做到这一点 我试过这个 bin bash Rscript myfile R 但它给了我这个错误 Rscript 找不到命令 我也尝试过这个 bin bash
  • ggplot2:图例中的斜体

    我正在尝试编辑图例中的标签 以便第一个标签 WT 为纯文本 而后续 7 个标签为斜体 我一直在使用element text face c plain rep italic 7 但这导致没有任何标签被转换为斜体 我有点困惑为什么它不起作用 因
  • 如何将带有几行代码的字符数组转换为 data.frame?

    我有以下数组 my list lt c Jan 01 Dec 31 00 00 24 00 Jan 01 Jun 30 12 00 18 00 Jul 06 Dec 31 09 00 19 00 导致以下结果的最短代码是什么 x1 x2 x
  • 动态显示仪表板页面

    我有一个实用的闪亮应用程序 它使用shinydashboard包裹 新功能需要特定于用户的行为 例如 针对不同的用户名使用不同的数据集 因此我打算 显示登录表单 验证凭据并设置反应值LoggedIn to true如果成功的话 显示实际情况
  • R 中的微秒时间戳

    在 CSV 文件中 我有几列 其中一列有时间戳 其中每个时间戳是今天午夜经过的微秒 每个 csv 文件仅包含一天内的数据 因此这并不含糊 我的问题是 如何将这些微秒时间戳解析为 R 多谢 我的 CSV 文件的一部分 34201881666
  • 使用 ggplot2 在一张画布上绘制多个图形[重复]

    这个问题在这里已经有答案了 我正在尝试根据此表将两个 ggplot2 图合并为一个图 Type RatingA RatingB 1 One 3 36 2 Two 5 53 3 One 5 57 4 One 7 74 5 Three 4 38

随机推荐

  • 陷入 C# 正则表达式困境

    我的数据库中的字段中包含以下文本 quote 5a7b87febe mr smith This is some text This is more text on another line quote 5a7b87febe 我正在尝试构建一
  • 将 Java 对象转换为 XML 时的 XStream 撇号问题

    我在用com thoughtworks xstream XStream生成 xml 字符串 我将对象解析为 xstream toXML方法 我根据我需要的方式获得 xml 输出
  • ggplot 更改 x 轴标签而不更改基础数据

    我在 x 轴上绘制小平面和离散数据 如何更改 x 轴标签without改变底层数据 IE 而不是标签阅读 a b c d 他们应该阅读 Lab 1 Lab 2 Lab 3 Lab 4 df lt data frame x factor re
  • 邮件枪 - 401 禁止

    我尝试使用 mailgun 发送电子邮件 我使用 node js nest js 这是我的邮件服务 我应该改变什么 当我尝试发送第一封电子邮件 mailgun 官方网站上的说明 时 我收到了相同的错误消息 import Injectable
  • 哪个“if”结构更快 - 语句还是三元运算符?

    有两种类型ifjava 中的语句 经典 if else 和简写 exp value1 value2 一个比另一个快还是它们相同 陈述 int x if expression x 1 else x 2 三元运算符 int x expressi
  • 如何添加后退按钮功能MFSlidemenu?

    我已经在我的项目中实现了 MFSideMenu 它效果很好 但现在我想为每个视图实现后退按钮功能 我尝试这个但不起作用 NSArray array self navigationController viewControllers self
  • Java 详细类加载

    我试图列出 Java 类加载器加载我的类的顺序 如果我使用 verbose参数它将列出它加载的每个接口 类 包括大量接口 例如可序列化 异常等 有没有办法调整此输出 以便它只显示我的主要方法定义的类中加载了哪些类 我想你最好的选择是执行以下
  • Web Worker 在 Chrome 中被主线程阻止

    我有一个网络工作者 https developer mozilla org en US docs Web API Web Workers API basic usage 我希望用它定期发出网络请求 我特别想要的一件事是即使主 JS 执行线程
  • 如何从 JSP 和 Struts 操作类中的文件对话框中选择文件名?

    我正在开发一个网络应用程序 用户注册时必须选择个人资料图片 然后单击上传按钮 所以 我的问题是如何获得FileName哪个用户选择并显示 我正在使用 Struts 2 和 JSP 如果您使用该房产uploadFileName随着upload
  • yii2 的 REST API,身份验证器 (HttpBearerAuth) 在服务器上不起作用

    我刚刚创建了一个使用 REST API 的项目 使用 yii2 框架 REST API 的所有问题在本地主机上都运行得非常好 但是当将项目放在服务器上时 也使用相同的数据库 授权不可用 现在我正在使用 yii filters auth Ht
  • IE 中存在“JSON”未定义问题,但 chrome 中没有

    我在 IE9 中使用 Json stringify 时 我的 jquery ajax 调用出现以下错误 Microsoft JScript 运行时错误 JSON 未定义 直到昨天 相同的功能仍然适用于我 并且仍然适用于我同事的机器和我机器上
  • 桌面桥应用程序中的桌面快捷方式。我们从哪里获取AppUserModelId

    当第一次使用我的 Desktop Bridge 应用程序时 我尝试创建桌面快捷方式 我可以成功创建一个指向Application ExecutablePath 但是当用户打开快捷方式时会生成错误 该错误与用户无权访问该文件夹有关 我在互联网
  • 为什么使用 sha1/sha256 哈希进行 Base64 处理?

    谁能告诉我为什么亚马逊想要 hmac sha1 sha256 哈希值的 base64 http docs amazonwebservices com AmazonSimpleDB latest DeveloperGuide HMACAuth
  • PHP 字符串中的美元符号

    我不明白为什么 PHP 不替换包含美元符号的字符串 看下面的例子
  • MySQL 管理员备份:“兼容模式”,这到底是做什么的?

    在Mysql Administrator中 做备份时 兼容模式 到底是什么 我正在尝试桥接由以下方式生成的备份webmin http www webmin com 里面有可用的上传工具mysql管理员 http www mysql com
  • 是否可以从 .net pdb 创建 mono mdb?

    是否可以从 net pdb 创建 mono mdb 或者我需要使用两个编译器构建二进制文件 找到了 http www mono project com FAQ 技术 http www mono project com FAQ Technic
  • 从Mysql导入数据到Sql Server的最简单方法

    对于新项目 我必须从 MySql 导入预先存在的数据 In 这个网站 http www connectionstrings com carrier mysql我发现了很多选项 其中一些包括安装驱动程序 最快且最简单的方法是什么 更新 这只是
  • Delphi TFileStream.Seek,如何检查无效的查找偏移量

    我正在 Delphi 2006 中使用 TFileStream 当我使用超出范围的偏移量调用 TFileStream Seek 时 我得到不同的返回值 当我寻找到流开头下方的位置时 该函数返回 1 如果我寻找超出流大小的位置 该函数将返回流
  • 无法让我的 div 与布局保持固定

    我对 css div 以及介于两者之间的所有内容都很陌生 所以 我为我的乐队创建了一个基本布局 不需要一堆无用的链接 例如个人简介 商品商店等等 所以我决定为我们的视频 播放器和 Facebook 窗口安排单独的空间 我设法为 youtub
  • 检测 R 中的文本语言

    我有一个推文列表 我想只保留英文推文 我怎样才能做到这一点 The textcat http cran r project org web packages textcat index html包就是这样做的 它可以检测 74 种 语言 更