R：将 LIME 应用于 Quanteda 文本模型的问题

2024-02-05

这是我的修改版本上一个问题 https://stackoverflow.com/q/50273919/6327771：我正在尝试在我的设备上运行 LIMEquanteda依赖的文本模型特朗普和克林顿推文数据 https://www.kaggle.com/benhamner/clinton-trump-tweets/data#。我按照 Thomas Pedersen 在他的文章中给出的示例运行它了解石灰 https://cran.r-project.org/web/packages/lime/vignettes/Understanding_lime.html和提供的有用的答案@黄伟煌 https://stackoverflow.com/a/50275665/6327771:

library(dplyr)
library(stringr)
library(quanteda)
library(lime)

#data prep
tweet_csv <- read_csv("tweets.csv")

# creating corpus and dfm for train and test sets

get_matrix <- function(df){
  corpus <- quanteda::corpus(df)
  dfm <- quanteda::dfm(corpus, remove_url = TRUE, remove_punct = TRUE,     remove = stopwords("english"))
}

set.seed(32984)
trainIndex <- sample.int(n = nrow(tweet_csv), size =     floor(.8*nrow(tweet_csv)), replace = F)

train_dfm <- get_matrix(tweet_csv$text[trainIndex])
train_raw <- tweet_csv[, c("text", "tweet_num")][as.vector(trainIndex), ]
train_labels <- tweet_csv$author[as.vector(trainIndex)] == "realDonaldTrump"

test_dfm <- get_matrix(tweet_csv$text[-trainIndex])
test_raw <- tweet_csv[, c("text", "tweet_num")][-as.vector(trainIndex), ]
test_labels <- tweet_csv$author[-as.vector(trainIndex)] == "realDonaldTrump"

#### make sure that train & test sets have exactly same features
test_dfm <- dfm_select(test_dfm, train_dfm)

### Naive Bayes model using quanteda::textmodel_nb ####
nb_model <- quanteda::textmodel_nb(train_dfm, train_labels)
nb_preds <- predict(nb_model, test_dfm) #> 0.5


# select only correct predictions
predictions_tbl <- data.frame(predict_label = nb_preds$nb.predicted,
                          actual_label = test_labels,
                          tweet_name = rownames(nb_preds$posterior.prob)
) %>%
  mutate(tweet_num = 
       as.integer(
         str_trim(
           str_replace_all(tweet_name, "text", ""))
     )) 


correct_pred <- predictions_tbl %>%
  filter(actual_label == predict_label) 

# pick a sample of tweets for explainer 
tweets_to_explain <- test_raw %>%
  filter(tweet_num %in% correct_pred$tweet_num) %>% 
  head(4)



### set up correct model class and predict functions 
class(nb_model)

model_type.textmodel_nb_fitted <- function(x, ...) {
  return("classification")
}


# have to modify the textmodel_nb_fitted so that 

predict_model.textmodel_nb_fitted <- function(x, newdata, type, ...) {
  X <- corpus(newdata)
  X <- dfm_select(dfm(X), x$data$x)   
  res <- predict(x, newdata = X, ...)
  switch(
    type,
    raw = data.frame(Response = res$nb.predicted, stringsAsFactors = FALSE),
    prob = as.data.frame(res$posterior.prob, check.names = FALSE)
  )  
}


### run the explainer - no problems here 
explainer <- lime(tweets_to_explain$text, # lime returns error on different features in explainer and explanations, even if I use the same dataset in both. Raised an issue on Github and asked a question on SO
              model = nb_model,
              preprocess = get_matrix)

但是当我运行解释器时......

corr_explanation <- lime::explain(tweets_to_explain$text, 
                              explainer, 
                              n_labels = 1,
                              n_features = 6,
                              cols = 2,
                              verbose = 0)

...我收到以下错误：

UseMethod(“语料库”) 中的错误：没有适用于“语料库”的方法应用于类“c('dfm', 'dgCMatrix', 'CsparseMatrix', 'dsparseMatrix', 'generalMatrix', 'dCsparseMatrix', 'dMatrix', 'sparseMatrix', 'compMatrix '、'矩阵'、'xMatrix'、'mMatrix'、'Mnumeric'、'replValueSp')"

又回到了申请corpus() to newdata:

5.corpus(newdata) 
4.predict_model.textmodel_nb_fitted(x = explainer$model, newdata = permutations_tokenized, 
type = o_type) 
3.predict_model(x = explainer$model, newdata = permutations_tokenized, 
type = o_type) 
2.explain.character(tweets_to_explain$text, explainer, n_labels = 1, 
n_features = 6, cols = 2, verbose = 0) 
1.lime::explain(tweets_to_explain$text, explainer, n_labels = 1, 
n_features = 6, cols = 2, verbose = 0)

但我不明白为什么这会导致任何问题，因为新数据是文本向量？

感谢您的任何提示

corpus不必运行。尝试重新定义predict_model.textmodel_nb_fitted如下，唯一的修改是添加dfm_select step:

predict_model.textmodel_nb_fitted <- function(x, newdata, type, ...) {
  X <- dfm_select(dfm(newdata), x$data$x)   
  res <- predict(x, newdata = X, ...)
  switch(
    type,
    raw = data.frame(Response = res$nb.predicted, stringsAsFactors = FALSE),
    prob = as.data.frame(res$posterior.prob, check.names = FALSE)
  )  
}

As your traceback()输出显示，corpus抛出错误。为了调试，我插入了print(str(newdata))在第一行predict_model.textmodel_nb_fitted功能。这表明newdata已经是一个dfm对象，因此可以直接传递给predict.textmodel_nb_fitted（处理后dfm_select).

在较新的版本中quanteda, textmodel_nb()返回类的对象textmodel_nb,textmodel, and list。这首先需要一个相应的方法model_type:

model_type.textmodel_nb <- function(x, ...) {
  return("classification")
}

然后我们还必须写一个textmodel_nb方法用于predict_model:

predict_model.textmodel_nb <- function(x, newdata, type, ...) {
  X <- dfm_select(dfm(newdata), x$x)   
  res <- predict(x, newdata = X, ...)
  switch(
    type,
    raw = data.frame(Response = res$nb.predicted, stringsAsFactors = FALSE),
    prob = as.data.frame(res$posterior.prob, check.names = FALSE)
  )  
}

请注意，第二个参数dfm_select与其中不同的是predict_model.textmodel_nb_fitted（来自答案的原始版本）。这是因为该结构的x对象——输出textmodel_nb()- 已经改变。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R：将 LIME 应用于 Quanteda 文本模型的问题的相关文章

为什么 data.table `:=` 的 knit 缓存失败？

这在精神上与this https stackoverflow com q 15267018 1900520问题但机制上一定不同如果您尝试缓存knitr包含一个块data table 分配然后它的行为就好像该块尚未运行并且后面的块看不到
使用 igraph 将边缘属性显示为标签

我在 R 中使用 igraph 进行网络分析我想在图中的每条线上显示边缘属性下面是一个例子 df lt data frame a c 0 1 2 3 4 b c 3 4 5 6 7 nod lt data frame node c 0
向图像添加坐标，以用作 R 中的 Leaflet、Shiny 和 Shinydashboard 包中的地图

我计划使用 Leaflet Shiny 和 Shinydashboard 沿着以下很棒的路线创建一个带有医院 OHS 事件标记的交互式地图交互式地图和直方图模板 http shiny rstudio com gallery superzip
在 R 中使用 gsub 删除尾随空格[重复]

这个问题在这里已经有答案了有没有人有一个技巧可以用 gsub 删除变量上的尾随空格以下是我的数据示例正如您所看到的我在变量中同时包含尾随空格和嵌入空格 county lt c mississippi mississippi cany
根据另一个向量替换向量中的值

我想替换向量中的值 x 与另一个向量 y 陷阱 22 方法需要是动态的以适应向量中不同数量的级别 x 例如考虑向量x x lt sample c 1 2 3 4 5 100 replace TRUE gt x 1 2 4 1 1 3
S4 类 [（子集）带有附加参数的继承

这是一个扩展在 R 中的访问器函数中使用 callNextMethod https stackoverflow com q 24875284 2752888 2017 03 25 更新为了说明如何仅在加载方法时失败但在构建的包中时不会失
无重叠的抖动点

My data a lt sample 1 5 100 replace TRUE b lt sample 1 5 100 replace TRUE c lt sample 1 10 100 replace TRUE d lt sample
列槽不足

当尝试为 data table 中的每个变量 108 个变量创建 12 个滞后时我收到一条错误指出列槽不足此操作应创建大约 1200 个变量或列 Data A as data table Datos A Varnames names
按列分组的数据帧上 R 中的行之间的差异

我希望通过 app name 获得不同版本的计数差异我的数据集如下所示 app name version id count difference 这是数据集 data structure list app name structure c
在 R 中使用 spplot 将多个绘图放在一个页面上？

我知道如何在使用简单函数图时绘制两个图 old par lt par mfrow c 1 2 plot faithful main Faithful eruptions plot large islands main Islands yla
lmer（来自 R 包 lme4）如何计算对数似然？

我试图理解 lmer 函数我发现了很多关于如何使用该命令的信息但关于它实际执行的操作的信息却很少除了这里的一些神秘注释 http www bioconductor org help course materials 2008 PHSI
如何在 R 中的另一个函数中使用 `sink` 函数？

我有一个函数fun依赖于外部函数external 即来自某个包我如何收集来自的所有警告external在字符向量中这是一个最小的设置 External function from another package external lt
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
在哪里可以获得几乎所有英语单词的列表？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想生成一些随机文本我尝试写一个基本的Java程序 int nowords r nextInt 2000 int i j for i 0
使用 R 读取和转换二进制原始数据

我有一个file https drive google com file d 0BxMpk0nhnJy6SFhxd2xuMzJYYlk edit usp sharing其中包含原始二进制数据和 ascii 它包含一个时间戳和一个代表速度的
按具有作业的组划分的 R 分位数

我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数因此
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
建模前减少因子水平数量

我有一个 2600 个级别的因子我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点如果一个因素列出的次数少于 x 次则应将其放入名为其他的存储桶中这是一些示例数据 df lt data frame colour
栅格堆叠后如何写入？

我想操作几个光栅文件然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
如何在html中设置按钮的文本大小

您好我想在我的网站上有一个按钮并且我想调整按钮上的文本大小我该怎么做呢我的代码如下

随机推荐

如何将 Access-Control-Allow-Origin 添加到 jetty 服务器

我有一个码头服务器来运行我的网络服务最近我开发了一个使用 Web 服务的程序并遇到了 Access Control Allow Origin 问题如何将 Access Control Allow Origin 添加到 jetty 嵌
如何通过位置和分隔符提取字符串的子字符串

我们如何从字符串中分割子字符串就像我有绳子一样 String mainString Trade Time Trade Number Amount Rs 现在我有其他字符串 String subString Amount 然后我想提取子字符
使用烧瓶中的数据参数重定向

我试图学习 Flask 并遇到了以下问题这是我试图实现的示例 app route poll methods GET POST def poll form PollForm if form validate on submit return
如何将 EditText 输入限制为数字（可能是十进制和带符号）输入？

我读过了Android 将 EditText 限制为数字 https stackoverflow com questions 5200689 android limiting edittext to numbers and 如何在 andr
tftp put 的 inotify 事件 IN_MODIFY 发生两次

我正在使用 inotify 来监听对文件的修改当我测试文件修改时程序运行正常 echo test gt tftpboot TEST Output Read 16 data IN MODIFY 但是当我执行 tftp put 时会生成两
CSS 中的“$”是什么意思？

我看到一个动画项目里面有一堆我不知道美元符号在 CSS 中的用途我猜这是为了动画这是我正在查看的一些代码的示例 emoji base color FFDA6A emoji like color 548DFF emoji like b
使用 javascript canvas 调整图像大小（平滑）

我正在尝试用画布调整一些图像的大小但我不知道如何平滑它们在 Photoshop 浏览器等上他们使用一些算法例如双三次双线性但我不知道这些算法是否内置在画布中这是我的小提琴 http jsfiddle net EWupT htt
python 中的多个构造函数

如何将以下两个类合并为一个类 Rectangle 以便可以通过 rect Rectangle side a side b 或 rect Rectangle side a area 创建 Rectangle 对象 class Rectangl
使用 iText 将外部图像添加到 PDF

我无法弄清楚如何使用 iText 将外部图像由 URL 引用添加到 PDF 这种事情可能吗 7 1 5 中的 PDF 规范表示您应该能够使用 URL 规范通过 URL 引用 PDF 这是我到目前为止所得到的 PdfFileSpecifi
codeigniter 发生数据库错误

有人能帮我吗我是一个初学者试图进行佩戴 CodeIgniter 身份验证但是当我尝试犯这样的错误时数据库发生错误 Error Number 1046 未选择数据库 SELECT FROM user WHERE user userna
如何将 Google Directions API 折线字段解码为 Objective-C for iPhone 中的经纬度点？

我想在地图上绘制与我通过 Google Directions API 获取的方向 JSON 相对应的路线 https developers google com maps documentation directions start htt
Azure 函数在 Linux 上出现“监听器无法启动”错误

我使用的是 Ubuntu Linux 当我尝试运行 Net core 2 2 Azure 函数应用程序时遇到问题快速谷歌搜索表明它可能与存储有关但都不清楚尽管运行时似乎开始正常运行但一段时间后我收到此错误 6 4 2020 8 35
如何向 WPF 中的可编辑组合框添加焦点样式

我一直在看以下内容example http www designerwpf com 2008 02 07 the wpf designers guide to styling the combobox 关于如何设计风格ComboBox 但进
Google 从 QGIS 元数据文件导入 XML

我正在尝试使用 Google Sheets importxml 捕获 qmd 文件的元素即 xml 标记基于如何对 Google Drive 中的文件使用 importXML 函数 https stackoverflow com que
如何在Unix中打印当前用户和系统名称？

我很期待学习如何在 Unix 中打印当前登录的用户和系统名称 include
Dreamweaver 的替代品？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案首先好几年来我都严格在 Dreamweaver 的代码视图中进行所有编码我could在记事本中完成
返回数组组合数组的函数

我正在尝试做一个 combinations带有三个参数的函数下划线 mixin arr pockets duplicates 这是我设计的一个测试旨在展示行为应该如何 expect combinations 1 2 1 false to
php 返回无效的 json

以下 php 代码返回无效的 json 错误不知道为什么
MySQL 查询检查一列中的两个值

我正在编写一个查询其中列中有 4 种类型 Xtype P C D R 我想查一下在哪里Xtype P and Xtype D那么如何将两者用于同一列呢我知道我可以使用不同的列WHERE id 1 AND status online但不确
R：将 LIME 应用于 Quanteda 文本模型的问题

这是我的修改版本上一个问题 https stackoverflow com q 50273919 6327771 我正在尝试在我的设备上运行 LIMEquanteda依赖的文本模型特朗普和克林顿推文数据 https www kaggle c

R：将 LIME 应用于 Quanteda 文本模型的问题

R：将 LIME 应用于 Quanteda 文本模型的问题 的相关文章

随机推荐

热门标签

R：将 LIME 应用于 Quanteda 文本模型的问题的相关文章