从 BigQuery 导入到 R 时的特殊字符

2023-12-23

我有一个脚本用于废弃一些推文并将结果保存到 Google BigQuery。当我看到存储的数据时,像 ➕、‍♂️、Ñ、áéíóú 这样的特殊字符会正确显示,但是当我尝试再次将数据导入 R 时,它们会被一些奇怪的字符替换。这是一个例子。

# Create df

id_tweet <- 1023985670224785408
tweet <- "◉ Neuroeducación y entornos digitales de aprendizaje: un paso obligado para educadores, pedagogos y psicólogos"
descripcion <- "Desde las alturas se ve todo de otra manera... ️ ➕ ‍♂️"

data <- data.frame(id, tweet, description)

# Save to Google BQ

library(bigrquery)

insert_upload_job("project-id", "dataset", "table", data , write_disposition = "WRITE_APPEND")

#Load from Gooble BQ

sql <- paste("SELECT *", "FROM", "`project-id.dataset.table`")
data <- query_exec(sql, project = "project-id", use_legacy_sql = FALSE)

我的输出如下:

> data
               id_tweet
283 1023985670224785408
                                                                                                                                         tweet
283 ◉ Neuroeducación y entornos digitales de aprendizaje: un paso obligado para educadores, pedagogos y psicólogos
                                                                                        descripcion
283 Desde las alturas se ve todo de otra manera... ï¿½ï¿½ï¸ âž• ��<U+200D>â™‚ï¸ ï¿½ï¿½ ��

我想要的是保留原始格式。

我应该怎么办?

Thanks,


我测试了一些可能有帮助的东西。

首先,我保存了空白的 R 脚本并确保它采用 UTF-8 编码:文件 -> 使用编码保存 -> UTF-8。然后仅将问题中的特殊字符用双引号保存为 .csv(即"➕, ‍♂️, Ñ, áéíóú")。然后读取 csvfileEncoding = "UTF-8", i.e:

test <- read.csv("test.csv", fileEncoding = "UTF-8", header=FALSE, stringsAsFactors = FALSE)

在 R Studio 内部,test返回:

# > test
# V1
# 1 \u2795, ‍♂️, Ñ, áéíóú

因此,除了 ➕ 之外的所有内容都可以在 R Studio 中很好地显示。然而,很多字符,甚至是常见的字符,如换行符和制表符等,在 RStudio 中都会有趣地显示,但通常是在写入文件时显示。这些没有什么不同。

当写入 csv 时(仅使用write.csv(test, 'test2.csv', row.names=FALSE)),它像在原始 csv 中一样完美显示(即在 sublime text 中打开时)

毕竟,我建议确保您的编码是 UTF-8,也许尝试将 BQ 输出保存为 csv(如果可能的话?)并检查它以查看问题是否来自 BQ 或 R。如果出现BQ 正确,那么只需更改 RStudio 中的编码即可。但如果它没有按预期从 BQ 中出来,那么我建议您需要更改 BQ 中的数据类型(更改为 UTF-8)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 BigQuery 导入到 R 时的特殊字符 的相关文章

  • R ggplot 中的柯尔莫哥洛夫-斯米尔诺夫图

    我正在尝试在 r 中绘制 KS 图 一切似乎都很顺利 除了我只能使用颜色来可视化两个不同的样本而不是线型这一事实 我已经尝试过以下方法 sample1 lt SD13009 sample2 lt SD13009PB group lt c r
  • R - 重塑 - 熔化错误

    我正在尝试融化数据框 但出现了这个奇怪的错误 有什么想法吗 str zx7 data frame 519 obs of 5 variables calday new Date format 2011 01 03 2011 01 04 201
  • 在 Shiny 中显示反应式 htmlTable 表格

    我正在制作我的第一个 Shiny 应用程序 但找不到任何有关如何显示使用 htmlTable 包创建的表格的示例 我基本上想在按下按钮时创建一个表格并显示它 Shiny 显示 html 代码而不是表格 我不知道用什么替换服务器部分中的 re
  • data.table 抛出“找不到对象”错误[重复]

    这个问题在这里已经有答案了 我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时 我可以让它工作 但当我在调试器中或在包测试中使用它时却无法工作 问题是我
  • 为什么这个 R ggplot2 代码会显示一个空白的显示设备?

    虽然 SO 通常不用于帮助解决错误 但这个显示了特别简单且特别烦人的行为 如果你是一个ggplot2用户 您可以在 10 秒或更短的时间内重现它 正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
  • dplyr:连接中的 NSE (by)

    我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表 问题是我无法为 by 提供正确的值 我想我现在已经找到了解决方案 但感觉我正在以一种额外复杂的方式来做 因此 如果您知道更简单 更优雅的解决方案 请告诉我 这就是
  • Twitter 搜索 API 速率限制如何运作?

    我不清楚 Twitter 速率限制 每个访问令牌 用户每小时 350 个请求 的含义 他们如何限制请求 在 1 个请求中我可以获得多少数据 速率限制基于请求 而不是您收到的数据量 例如字节 考虑到这一点 您可以通过使用您正在调用的特定端点的
  • bq cmd 查询 Google Sheet 表出现“访问被拒绝:BigQuery BigQuery:未找到具有 Google Drive 范围的 OAuth 令牌”错误

    我有一个与Google Sheet连接的表 使用WebUI查询该表成功 但是如果我使用bq cmd查询 它将回显错误消息 访问被拒绝 BigQuery BigQuery Google Drive 没有 OAuth 令牌 范围已找到 我假设你
  • 如何根据 ggplot2 中的汇总数据创建堆积条形图

    我正在尝试使用 ggplot 2 创建堆积条形图 我的宽格式数据如下所示 每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
  • case_when 与部分字符串匹配和 contains()

    我正在使用一个数据集 其中有许多名为 status1 status2 等的列 在这些列中 它表示某人是否豁免 完整 注册等 不幸的是 豁免投入并不一致 这是一个示例 library dplyr problem lt tibble perso
  • 如何在Rstudio中快速给几个单词加上引号?

    如何将 MI ID FL 转换为 MI ID FL 而无需键入每个双引号 Hmisc 包有一个函数 Cs 它将评估逗号分隔的文本是否带有引号 Cs MI ID FL becomes MI ID FL
  • R 中 SVG 图形的最佳设备? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我想从 R 导出 SVG 图形 似乎有两种选择 RSvgDevice 和 Cairo 有人可以对这些包发表评论吗 是默认的还是明显比另一个
  • R 改变构面的顺序

    我正在尝试将方面的顺序从 BA SLG 更改为 SLG BA 我发现了与此类似的问题 但我认为我的解决方案可能不起作用 因为我已经在Excel中汇总了数据 因此 我的数据框可能会有所不同 无论如何 我尝试实现这个但无济于事 df2 lt f
  • R - 基于列名称的子集

    我的数据框有超过 120 列 变量 我想根据列名称创建子集 例如 我想创建一个子集 其中列名称包含字符串 心情 这可能吗 我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
  • 在 Google Colab 上的 R 笔记本中安装 python 库

    我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库 为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
  • 自定义轴缩放后 ggplot2 缺少标签

    我正在尝试使用我的 x 轴应用自定义缩放ggplot2 and scales trans new 但是 当我这样做时 一些轴标签丢失了 有人可以帮我弄清楚为什么吗 Setup library tidyverse the data ds lt
  • 我如何查看 quantmod 包中所有可用的数据系列?

    如何显示可用的所有报价 数据系列的列表 例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码 它试图将它们采用雅虎可接受的格式 但
  • 如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

    我正在尝试使用 Rstudio 从 VBA 打开 R 脚本 同时将参数传递给 R 脚本 然后我可以使用 commandArgs 访问该脚本 该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
  • 获取包含矩阵行内最大值的列名称,该矩阵在数组内包含单独的最大值

    例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
  • 在 RGL 中将立方体绘制到 3D 散点图中

    我正在尝试向 3D 散点图添加较小的立方体 网格 具有指定边长 我希望立方体位于原点 我该怎么做呢 我已经玩过cube3d 但我似乎无法将立方体正确定位 也无法使其成为网格 因此我可以看到它包含的数据点 这是我所拥有的 library rg

随机推荐

  • 将离屏 WebView 绘制为位图

    我试图在 android 中捕获从屏幕上绘制的 webview 图像给用户 但我总是得到黑色图像 这是正确的尺寸 但一切都不是 这是我正在使用的代码 String theURL file android asset www pages pa
  • Matplotlib:子图的高度相同

    在下面的示例中 如何将两个子图设置为相同的高度 minimal example import matplotlib pyplot as plt import numpy as np f ax1 ax2 plt subplots 1 2 im
  • 即使文件存在,如何修复 QFile 打开错误(未知错误)?

    我正在尝试打开并阅读map dat文件使用QFile接口 但它不会打开该文件 即使它确实存在于目录中 我努力了fopen ifstream在 C 中 但他们一直告诉我该文件不存在 即使我已将其添加到资源文件夹中 qrc 然后我转向QFile
  • jquery图像幻灯片随机显示图像

    我正在使用链接中的幻灯片放映 http www alohatechsupport net webdesignmaui maui web site design easy jquery auto image rotator http www
  • 如何确定 seq2seq 张量流 RNN 训练模型的最大批量大小

    目前 我使用默认的 64 作为 seq2seq 张量流模型的批量大小 最大批量大小 层大小等是多少 我可以使用具有 12 GB RAM 的单个 Titan X GPU 和 Haswell E xeon 128GB RAM 输入数据被转换为嵌
  • 有什么方法可以将 Xcode 3 与 iOS SDK 4.3 一起使用吗?

    我正在使用 Xcode 4 和 iOS 4 3 Xcode 4 有很多 bug 更不用说很多东西都改变了 最让我烦恼的是热键 我什至找不到一种方法来以合适的组合自定义它们 我很想使用 Xcode 3 因为它很稳定并且可以满足我的需要 是否可
  • 在 Common Lisp 中,如何格式化浮点并指定分组、群聊和小数分隔符

    假设我有浮点数1234 9 我想将其格式化为1 234 90 是否有格式指令组合 D 可以处理分组和群聊 仅处理整数 F根本不处理分组 据我所知 没有人可以改变小数点 to 我看到的唯一解决方案是使用 D对于整数部分数字分组并将其与 和小数
  • 如何覆盖 celery 任务的后端

    我们使用 Redis 作为结果后端 然而 对于一项任务 我们希望覆盖它以使用 RabbitMQ 的文档任务后端 http celery readthedocs org en latest userguide tasks html Task
  • 在 Google 表格之间自动复制数据

    我正在寻找一些帮助来自动在谷歌表格之间复制数据 我有一张名为 当前数据 的表格 该工作表的 A F 列中包含数据 带标题 A 列包含用户名 B F 列将包含使用以下公式从 Instagram com 提取数据的公式 值 REGEXEXTRA
  • 如何在 Visual Studio 选项中禁用设计模式

    如何在没有 Visual Studio 的情况下仅使用 XAML Code Viewload设计模式 我每次都需要禁用设计模式 我在我的选项中找不到这个 source biggle de http www biggle de allView
  • UWP 应用程序是否需要 Windows 应用商店?

    如果是 我如何使用它来开发内部的东西 我不想在商店里看到它 它永远不应该在企业外部看到 编辑 侧载是唯一的方法吗 侧面加载并不是在 UWP 中运行应用程序的唯一方法 您还可以创建自己的安装程序 在 Visual Studio 中转到 项目
  • 将 div 浮动在右上角而不重叠同级标题

    有一个div and a h1在一个部分中 如何将 div 浮动在右上角而不与标题文本重叠 HTML 代码如下 section h1 some long long long long header a whole line 1 2 3 4
  • 数据表和服务器端处理 - 按需加载

    我已经使用 DataTables 构建了简单的表 并且成功连接了服务器端脚本以用数据填充我的表 在我的表格上方 有 2 个复选框和 2 个日期选择来指定过滤条件 当我的页面加载时 我会填充表格 因为在启动时数据表正在从服务器提取第一页数据
  • phpMyAdmin 配置在 Centos 6.5 上不起作用

    最近使用 yum 安装了 phpMyAdmin yum install phpmyadmin phpmyadmin 已安装到 usr share phpMyAdmin 但那里没有配置文件 有一个 config inc php 文件位于 et
  • 有没有办法将嵌套记录选择到表中?

    我在 Bigquery 中有一张表 T 其中包含简单字段和一个嵌套字段 我想有效地 select from T where 并将结果存储在新表 U 中 我希望 U 具有与 T 相同的架构 包括嵌套字段 有没有办法在 Bigquery 中执行
  • 定位 window.location.pathname

    我有一个类似于此的网址 www mysite com products 我用它来测试路径名 if products test window location gaq push trackPageview products landing 但
  • 更改 Google Cloud SQL 实例的 TCP 端口:3306

    如何更改 Google Cloud SQL 实例上的 TCP 端口 Google MySQL 服务器正在侦听端口 3306 这在我的环境中不起作用 端口号需要不同 我不知道如何在开发者控制台 云存储中更改此设置 我确实看到了文档网络和防火墙
  • C++ 成员变量的类型名

    是否可以获取成员变量的类型名 例如 struct C int value typedef typeof C value type something like that Thanks C 03 中没有 C 0x介绍decltype type
  • MapStruct:对象的映射列表,当对象由两个对象映射时

    假设我有这样的映射 Mapping source parentId target parent id Child map ChildDto dto Parent parent 现在我需要将 ChildDto 列表映射到 Child 列表 但
  • 从 BigQuery 导入到 R 时的特殊字符

    我有一个脚本用于废弃一些推文并将结果保存到 Google BigQuery 当我看到存储的数据时 像 这样的特殊字符会正确显示 但是当我尝试再次将数据导入 R 时 它们会被一些奇怪的字符替换 这是一个例子 Create df id twee