tidytext::unnest_tokens 是否适用于西班牙语字符？

2024-01-23

我正在尝试将 unnest_tokens 与西班牙语文本一起使用。它适用于一元语法，但会破坏二元语法中的特殊字符。

该代码在 Linux 上运行良好。我添加了一些有关区域设置的信息。

library(tidytext)
library(dplyr)

df <- data_frame(
  text = "César Moreira Nuñez"
)

# works ok:
df %>% 
  unnest_tokens(word, text)


# # A tibble: 3 x 1
# word
# <chr>
# 1 césar
# 2 moreira
# 3 nuñez

# breaks é and ñ
df %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2 )

# # A tibble: 2 x 1
# bigram
# <chr>
# 1 cã©sar moreira
# 2 moreira nuã±ez

> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United 
States.1252;LC_MONETARY=English_United 
States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

似乎当您更改时会发生这种情况token论证ngrams。我不确定为什么会这样做，但这里有一个使用包的解决方法qlcMatrix

library(qlcMatrix)

splitStrings(df$text, sep = ' ', bigrams = TRUE, boundary = FALSE, bigram.binder = ' ')$bigrams
#[1] "César Moreira" "Moreira Nuñez"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tidytext

tidytext::unnest_tokens 是否适用于西班牙语字符？的相关文章

如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
多个动态滤镜更新闪亮

我希望能够让 UI 输入闪亮并根据用户之前的选择进行自我更新因此在下面的示例中预期的行为是用户选择cyl vsor carb那么这将过滤数据集mtcars用于创建绘图即用户根据过滤条件调整绘图并更新其他过滤器中的剩余输入选择
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
在 R 的 for 循环中创建动态命名对象并分配动态值

我正在尝试创建一套动态命名的新对象例如 temp2015 使用 for 循环并存储动态值具体来说其他对象的名称例如 Y2015 和 for 循环中使用的值例如 2015 在动态命名的新对象中我不确定为什么下面的代码不起作用 Y
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
从 data.frame 在 ggplot 图例中添加信息

我想在图例中添加信息哪个传感器具有该值这是我的代码 z lt data frame a c sensor 1 sensor 2 sensor 3 sensor 4 sensor 5 sensor 6 sensor 7 sensor 8
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
R - 基于列名称的子集

我的数据框有超过 120 列变量我想根据列名称创建子集例如我想创建一个子集其中列名称包含字符串心情这可能吗我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
HTTR GET 新错误：SSL 证书问题：证书已过期

我已经运行这段代码几个月了没有出现任何问题今天我突然开始在我的两台 AWS 服务器上收到以下错误消息错误 curl curl fetch memory url handle handle SSL证书问题证书已过期当尝试运行以下代码
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
在 RGL 中将立方体绘制到 3D 散点图中

我正在尝试向 3D 散点图添加较小的立方体网格具有指定边长我希望立方体位于原点我该怎么做呢我已经玩过cube3d 但我似乎无法将立方体正确定位也无法使其成为网格因此我可以看到它包含的数据点这是我所拥有的 library rg
ggplot2：带有 geom_line 的 x 轴因子不起作用

我想要一个线图其中value绘制为函数expt每级一行var 这是我的数据 lines lt expt var value 1 none p 0 183065327746799 2 none p 0 254234138384241 3 n
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c

随机推荐

Material UI / Webpack / React - 生产模式下的类名优化/缩小

webpack v4 material ui v4 9 6 react v16 12 0 通常情况下所有类都应该是第一个示例中的最后一个类由于生产模式上的某些原因许多类没有改变任何想法示例1 div class MuiDrawer
如何在旧版（非 WebExtensions）Firefox 插件中获取 Windows 用户名？

我正在使用 Firefox 插件用 JavaScript 编写需要确定当前登录的 Windows 用户有没有办法做到这一点这在 Windows 上可以解决问题 function getUser return Components c
Spring Boot 中的 JSON Java 8 LocalDateTime 格式

我在 Spring Boot 应用程序中格式化 Java 8 LocalDateTime 时遇到一个小问题对于正常日期我没有问题但 LocalDateTime 字段会转换为以下内容 startDate year 2010 mont
在 C++ 中找到一对椭圆的公切线的首选方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想用 C 来做这个我有两个想法可以做到这一点将这对椭圆视为两个不同参数的参数方程我可以根据这两个参数得到两个方程这对方程是非
如果没有const引用临时对象会被删除吗？

我们来看看这两个函数 std string get string std string ret value Calculate ret value return ret value void process c string const c
广播有延迟

我们使用广播来传达远程服务和 UI 之间的状态更改这样做时我们发现了一个非常奇怪的行为有时我找不到任何线索为什么这些广播会延迟 8 秒左右我们如何发送它们非常基本 mState只是一个枚举服务中的远程进程 Intent in
D3 反转色标图以获得幅度

我有一个 colorscaleMap 让我们假设这样的事情 d3 scale linear domain 0 01 0 02 0 03 0 04 0 05 range 5100ff 00f1ff 00ff30 fcff00 ff0000 现
将文件存储在批处理文件中？

您好我正在尝试将二进制文件存储在我编写的基本批处理脚本中基本上我希望脚本能够在某个时候输出这个预构建的文件而不是从头开始创建它如果这是不可能的那么我必须将此文件与批处理文件分开包含然后将其移动到必要的位置但我宁愿让此文件对用户
我可以从 node.js 设置 ulimit 吗？

我想限制子进程写入太多数据或占用太多CPU时间无限循环在 C 中我会调用 setrlimit 2 来做到这一点 Node js中有类似的东西吗据我所知没有node js扩展提供setrlimit 功能但您可以通过一个小的 she
PHP 准备好的语句返回 -1

我使用准备好的语句已经有一段时间了从来没有遇到过任何问题现在我正在尝试 sql SELECT PhotoID Caption FROM Photos WHERE EntityID AND TypeID LIMIT iDB new mys
在 Perl 中使用 foreach 或 while 迭代文件有什么区别？

我有一个文件句柄FILE在 Perl 中我想迭代文件中的所有行以下有区别吗 while
C、如何结合使用fgets和fscanf

我有一份大学作业即使用文件IO 有这样的TXT文件 Brian s213551 50 70 70 50 Alex Fernandes s210011 70 81 50 89 Young Lee s211213 60 80 60 90 an
如何在 MySQL 中调用过程？

我已经开始检查 MySQL 中的过程但我所有的努力都不起作用这是我的程序创建 DELIMITER CREATE PROCEDURE test IN a INT BEGIN SELECT FROM table WHERE id a END
KBUILD_DEFCONFIG_KMACHINE ?= defconfig_file 无法按预期工作

KBUILD DEFCONFIG KMACHINE defconfig file没有按我的预期工作我学到的第一课 defconfig config Bare Kernel Build 没有 yocto 下面是一个新的 defconfig
在 Python 中调试期间绘制函数

我曾经在 Matlab 中工作在调试过程中使用可视化中间结果非常方便当使用大数组矩阵和嵌套函数时 plot功能在Python中我无法在调试模式下绘制任何内容带有图形图的窗口永远不会加载我正在使用Spyder IDE进行编码和m
在 Google 地图的不同图层上显示标记集

我需要在 Google 地图上显示一组标记我知道可以直接在 Google 地图上添加标记但鉴于我有 3 组标记一组用于商店一组用于公园另一组用于酒店我如何在 3 个不同的图层上显示它们以便稍后使用 javascript 我可以
GRPC 异步响应流 C#

如何从处理程序外部生成 RPC 的流响应值具体来说来自 IObservable 我目前正在执行以下操作但这会产生跨线程问题因为AnRxObservable在 RPC 处理程序之间共享 public override Task Get
计算列中唯一值的每个实例

假设你有一个 SQL 表格 Prices 13 99 14 00 52 00 52 00 52 00 13 99 您如何计算输入不同字段的次数因此此类计数的示例将输出 13 99 2 times 14 00 1 times 52 00
在后台运行 Webrick 服务器？

MBPro shovell myname ruby script server gt Booting WEBrick gt Rails 2 3 8 application starting on http 0 0 0 0 3000 gt C
tidytext::unnest_tokens 是否适用于西班牙语字符？

我正在尝试将 unnest tokens 与西班牙语文本一起使用它适用于一元语法但会破坏二元语法中的特殊字符该代码在 Linux 上运行良好我添加了一些有关区域设置的信息 library tidytext library dplyr

tidytext::unnest_tokens 是否适用于西班牙语字符？

tidytext::unnest_tokens 是否适用于西班牙语字符？ 的相关文章

随机推荐

热门标签

tidytext::unnest_tokens 是否适用于西班牙语字符？的相关文章