字符串包含无效或不受支持的 UTF8 代码点。错误的 UTF8 十六进制序列:

2024-02-04

团队, 我正在使用红移版本*(8.0.2)。使用 COPY 命令加载数据时,出现错误:-“字符串包含无效或不受支持的 UTF8 代码点,错误的 UTF8 十六进制序列:bf(错误 3)”。 似乎 COPY 试图将 UTF-8“bf”加载到 VARCHAR 字段中。根据 Amazon redshift,此错误代码 3 定义如下:

error code3: 
The UTF-8 single-byte character is out of range. The starting byte must not be 254, 255
or any character between 128 and 191 (inclusive).

亚马逊推荐将此作为解决方案 - 我们需要用有效的 UTF-8 代码序列替换该字符或删除该字符。

您能帮我如何用有效的 UTF-8 代码替换该字符吗?

当我检查 PG-ADMIN 中的数据库属性时,它显示编码为 UTF-8。

请指导我如何替换输入分隔文件中的字符。

谢谢...


我在加载 TPC-DS 数据集进行实验时在 RedShift 中遇到了这个问题。

以下是我通过 AWS 找到的文档和论坛讨论:https://forums.aws.amazon.com/ann.jspa?annID=2090 https://forums.aws.amazon.com/ann.jspa?annID=2090

以下是可用于解决数据转换错误的显式命令:http://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-acceptinvchars http://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-acceptinvchars

您可以在 COPY 阶段通过声明 ACCEPTINVCHARS 显式替换无效的 UTF-8 字符或忽略它们。

尝试这个:

copy table from 's3://my-bucket/my-path
credentials 'aws_iam_role=<your role arn>'
ACCEPTINVCHARS 
delimiter '|' region 'us-region-1';

Warnings:
Load into table 'table' completed, 500000 record(s) loaded successfully.
Load into table 'table' completed, 4510 record(s) were loaded with replacements made for ACCEPTINVCHARS. Check 'stl_replacements' system table for details.

0 rows affected
COPY executed successfully

Execution time: 33.51s
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

字符串包含无效或不受支持的 UTF8 代码点。错误的 UTF8 十六进制序列: 的相关文章

  • RedShift - 带换行符的 CSV 加载

    我试图在加载时加载 CSV 文件 但出现错误 分隔值缺少结束引号 CSV 文件错误行 红移错误 line number 13 colname Comment col length 250 raw line 123 123 xyz 2009
  • 由于内部错误,不支持相关子查询模式 - 不存在相关子查询

    我有一个查询给我上面的错误 我的代码如下 SELECT dense rank OVER PARTITION BY email ORDER BY priority score comp AS r FROM main query WHERE N
  • Amazon Redshift 中的递归 CTE

    我们正在尝试移植代码以在 Amazon Redshift 上运行 但 Refshift 不会运行递归 CTE 函数 有好心人知道如何移植这个吗 with tt as select t row number over partition by
  • 如何将 Amazon Redshift 连接到 python

    这是我的 python 代码 我想将我的 Amazon Redshift 数据库连接到 Python 但它在主机中显示错误 谁能告诉我正确的语法 我是否正确传递了所有参数 con psycopg2 connect dbname pg tab
  • 尝试在 Redshift 中创建日期表

    我正在尝试在 redshift 中创建一个包含以下列的日期表 date year month 月份名称 年月 月份名称年份 请注意 年份月份的格式为 202001 月份名称年份的格式为 january2020 创建表后如何向表中插入数据 感
  • Redshift - 如何删除 NOT NULL 约束?

    由于Redshift不支持ALTER COLUMN 我想知道是否可以从 Redshift 中的列中删除 NOT NULL 约束 您无法更改该表 还有一种替代方法 您可以创建带有 NULL 约束的新列 将旧列中的值复制到此新列 然后删除旧列
  • 如何获取 Redshift 中的 UDF 列表?

    有没有一种简单的方法来获取 Redshift 中可用的所有 UDF 的列表 此外 我想查找具有参数类型的 UDF 并按名称搜索 UDF 您可以查询pg proc表以获取所有可用的 UDF 按名称过滤 您可以使用以下命令按名称进行过滤pron
  • Redshift 查询:错误 xx000 磁盘已满 redshift

    我执行了以下查询 select employee name max employee dept as dept from employeeDB where employee name is not null and employee nam
  • 转换时区时注意夏令时

    我有一个 Redshift 数据表 其中所有时间值都存储在 CST 中 并且我根据邮政编码 位置 将时间值转换为相应的时区 当我这样做时 我知道所有时间值都是标准时间 因此我的函数用法是 CASE WHEN convert timezone
  • 非聚合查询内部的聚合情况

    我有一个相当大的查询 其最简单的形式如下所示 select r rep id u user id u signup date pi application date pi management date aum from table1 r
  • 为什么 Redshift 不需要物化视图或索引?

    In the 红移常见问题解答 https aws amazon com redshift faqs under 问 与大多数用于数据仓储和分析的传统数据库相比 Amazon Redshift 的性能如何 它说如下 高级压缩 列式数据存储比
  • 如何使用 Python boto3 获取 redshift 中的列名称

    我想使用 python boto3 获取 redshift 中的列名称 创建Redshift集群 将数据插入其中 配置的机密管理器 配置 SageMaker 笔记本 打开Jupyter Notebook写入以下代码 import boto3
  • 如何检查 Redshift 用户是否可以更改表

    在 Redshift 中 我正在检查用户的授权 我怎么知道他们是否可以更改表格 我可以知道他们是否可以删除表 因为 只有表的所有者 架构所有者或超级用户可以删除表 https docs aws amazon com redshift lat
  • generate_series() 方法在 Redshift 中失败

    当我运行 SQL 查询时 select generate series 0 g from select date date1 date date2 as g from mytable 它返回一个错误 INFO Function genera
  • 如何在Redshift中进行分层随机样本?

    我需要对从不同类别购买商品的客户进行随机抽样 有8个类别 订单分布在其中 如果我想对已购买的客户进行随机抽样 但保持每个类别的订单比例相同 我将如何在我的 sql 代码中进行设置 下面的表格强调了这一点 它不包括客户数据 我希望我的客户列表
  • 有条件地删除 Redshift 中的临时表

    我们正在使用http aws amazon com redshift http aws amazon com redshift 我正在报告中创建 删除临时表 有时我们会遇到有人创建了临时表但无法删除它的情况 在其他数据库中 例如 Redsh
  • 需要按天分割日期时间范围

    我有一个需要根据日期时间拆分的表 输入表 ID Start End A 2019 03 04 23 18 04 2019 03 04 23 21 25 A 2019 03 04 23 45 05 2019 03 05 00 15 14 所需
  • 从逗号分隔的字符串中删除重复项 (Amazon Redshift)

    我正在使用亚马逊红移 我在该字符串中有一个列存储为逗号分隔 例如Private Private Private Private Private Private United Healthcare 我想使用删除其中的重复项query 所以结果
  • Amazon Redshift 如何从 s3 复制并设置 job_id

    Amazon Redshift 提供使用 复制 命令从 s3 对象加载表数据的功能 他们是使用复制命令的一种方法 但也为每个插入的行设置额外的 col CONSTANT 我想在每个复制的行上设置一个 job id 不在源数据中 我认为当 c
  • 将 R 数据集中的数据写入 Redshift

    我使用 RPostgreSQL 包将 R 连接到 amazon Redshift 我可以连接 创建和删除表 查询数据库 将数据保存到 R 数据框架中并手动插入值 我不能做的是将数据插入直接从 R 数据帧读取的 Redshift 中 并且由于

随机推荐

  • 在 python 中,以下 AutoVivification 类如何工作?

    在寻找使用嵌套字典的方法时 我发现了以下代码nosklo https stackoverflow com users 17160 nosklo 我想对此进行解释 class AutoVivification dict Implementat
  • 为什么表达式树中需要转换

    From 这个问题 https stackoverflow com questions 5067120 expression trees and nullable types我5分钟前问过 很明显下面的代码抛出了一个异常 指出 未处理的异常
  • 不兼容类型 - 发现:int 必需:boolean

    如果第一个数字输入等于第二个输入 我试图显示 EQUIVALENT 我的代码有什么问题吗 import java io public class TwoNum public static void main String args int
  • 从位于 docker 容器中的服务访问主机数据库

    如果我有一个在主机 操作系统 Linux 上运行的 Postgres 数据库 并且在 docker compose 的容器中运行一些服务 如何从容器中的服务访问数据库 docker compose 中服务的 yaml 文件应该是什么样子 在
  • 新的 PayPal 沙盒 - 疯狂的事情 [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions Paypal 的人改变了一些东西 在
  • PHP版本升级5.3.25至5.6

    我们需要将 PHP 版本 5 3 25 升级到当前稳定版本 5 6 17 因此 为此我们需要找到最好的方法 逐步的方法 我们可以从5 3 X升级到5 4 X 5 4 X到5 5 X等等 直接升级 这里我们直接从5 3 X升级到5 6 X 除
  • Pandas 在 Windows 终端中绘图

    我有一个简单的熊猫数据框 尝试从 IPython 的 Windows 10 终端会话进行绘图给出了以下结果 In 4 df pd DataFrame Y 1 3 5 7 9 X 0 2 4 6 8 In 5 df Out 5 X Y 0 0
  • mongodb 转储并通过管道连接到其他数据库名称

    Mongodb 版本 3 2 12 我有两个本地数据库 base1 和 base2 我想将所有数据 所有集合 从base1复制到base2 替换那里的所有内容 就像将生产转储到开发环境时一样 任何管道命令 或其他简单的方法 可以做到这一点
  • 将鼠标悬停在类上并修改另一个类

    我有一个网格布局 里面是一个宽度为 64px 的侧边栏 网格 container display grid height 100vh width 100vw grid template areas sidebar header sideba
  • 比较浮点数与 numpy 和 scipy

    numpy 或 scipy 模块中是否有 epsilon 常量 如 Matlab 中的 来比较浮点数 您可以使用np finfo http docs scipy org doc numpy reference generated numpy
  • 重复加载同一张图像

    我的网站的 cms 部分有一个页面 启用了 JavaScript 可以强制选择浏览器 它是一个包含大量图像的日历 img src 1 gif img src 1 gif img src 1 gif img src 1 gif img src
  • 查找跨越文本的多行并使用 PowerShell 进行替换

    我正在使用正则表达式搜索来匹配和替换一些文本 文本可以跨越多行 可能有也可能没有换行符 目前我有这个 regex lt php eval gt Get ChildItem exclude bak Where Object Attribute
  • 在 Eclipse 中添加应用程序启动快捷方式?

    我在 Eclipse 中进行 Android 编程已经大约一年了 我总是通过在项目资源管理器中右键单击我的项目名称 然后依次选择 运行方式 和 Android 应用程序 来启动我的应用程序 一定有更好的方法 有没有办法改变这个 点击三下鼠标
  • IE 输入类型日期未显示为日期选择器[重复]

    这个问题在这里已经有答案了 我在 HTML 中使用输入类型 DATE 在 Chrome 和 Firefox 中一切正常 但 IE 不显示日期选择器 当我使用 JQuery Datepicker 时 我在 Chrome 和 Firefox 中
  • 如何为所有的nosetests测试定义一个设置函数?

    我正在使用带有 python 的谷歌应用程序引擎 并想使用nosetest运行一些测试 我希望每个测试都运行相同的设置功能 我已经进行了很多测试 所以我不想遍历所有测试并复制并粘贴相同的功能 我可以在某处定义一个设置函数并且每个测试都会首先
  • HANDLE 类似于 Linux 中的文件描述符吗?

    HANDLE 类似于 Linux 中的文件描述符吗 据我所知 HANDLE用于处理Windows上的所有资源 例如字体 图标 文件 设备 它本质上只是一个指向保存特定资源数据的内存块的空指针 是的 Windows 句柄与 Unix 文件描述
  • 输出神经元是 1 个好还是 10 个好?

    最好有 1 个输出神经元 输出 0 到 15 之间的值 这将是我的最终值 or 16 个输出神经元输出 0 到 1 之间的值 该值代表该值的概率 示例 我们想通过输入学生的学习小时数和智商来找出他的成绩 范围从 0 到 15 TL DR 我
  • Android Studio:如何查看 android 支持 v4 和 v7 的来源?

    在Android Studio支持库中appcompat 对于 ActionBar 被定义为 Gradle 依赖项 dependencies compile fileTree dir libs include jar compile com
  • 使用 Spring Roo 创建列表 <> 成员

    The 春罗 http www springsource org roo命令field set创建一个 Set 成员 字段集 字段名称 类型 如何创建一个 List 呢 从最新版本 1 2 4 开始 roo 支持列表 field list
  • 字符串包含无效或不受支持的 UTF8 代码点。错误的 UTF8 十六进制序列:

    团队 我正在使用红移版本 8 0 2 使用 COPY 命令加载数据时 出现错误 字符串包含无效或不受支持的 UTF8 代码点 错误的 UTF8 十六进制序列 bf 错误 3 似乎 COPY 试图将 UTF 8 bf 加载到 VARCHAR