特殊字符（夏威夷语“Okina”）导致奇怪的字符串行为

2024-03-11

The 夏威夷语报价 https://en.wikipedia.org/wiki/%CA%BBOkina当 T-SQL 与字符串函数结合使用时，它会出现一些奇怪的行为。这里发生了什么？我错过了什么吗？其他角色是否也遇到同样的问题？

SELECT UNICODE(N'ʻ') -- Returns 699 as expected.

SELECT REPLACE(N'"ʻ', '"', '_') -- Returns "ʻ, I expected _ʻ

SELECT REPLACE(N'aʻ', 'a', '_') -- Returns aʻ, I expected _ʻ

SELECT REPLACE(N'"ʻ', N'ʻ', '_') -- Returns __, I expected "_

SELECT REPLACE(N'-', N'ʻ', '_') -- Returns -, I expected -

另外，在使用时很奇怪LIKE例如：

DECLARE @table TABLE ([Name] NVARCHAR(MAX))
INSERT INTO
    @table
VALUES
    ('John'),
    ('Jane')

SELECT
    *
FROM
    @table
WHERE
    [Name] LIKE N'%ʻ%' -- This returns both records. I expected none.

当夏威夷语引号与字符串函数结合使用时，T-SQL 中的夏威夷语引号有一些奇怪的行为。 ...其他角色是否也遇到同样的问题？

一些东西：

这不是夏威夷语“引言”：这是“声门塞音 https://en.wikipedia.org/wiki/Hawaiian_phonology#Glottal_stop”这会影响发音。
这不是“奇怪”的行为：这只是不是您所期望的。
这种行为并不是一个具体的“问题”，尽管是的，还有其他角色表现出类似的行为。例如，以下字符（U+02DA 上方环形）的行为略有不同，具体取决于它位于字符的哪一侧：
```
SELECT REPLACE(N'a˚aa' COLLATE Latin1_General_100_CI_AS, N'˚a',  N'_'); -- Returns a_a
SELECT REPLACE(N'a˚aa' COLLATE Latin1_General_100_CI_AS, N'a˚',  N'_'); -- Returns _aa
```

现在，任何使用 SQL Server 2008 或更高版本的人都应该使用 100（或更高版本）级别的排序规则。他们在 100 系列中添加了许多 90 系列中没有的排序权重和大写/小写映射，或非编号系列，或大多数过时的 SQL Server 排序规则（名称以SQL_).

这里的问题不在于它不等于任何其他字符（二进制排序规则之外），事实上它实际上等于另一个字符（U+0312 组合上面的转逗号 https://unicode-table.com/en/0312/):

;WITH nums AS
(
  SELECT TOP (65536) (ROW_NUMBER() OVER (ORDER BY @@MICROSOFTVERSION) - 1) AS [num]
  FROM   [master].sys.all_columns ac1
  CROSS JOIN   [master].sys.all_columns ac2
)
SELECT nums.[num] AS [INTvalue],
       CONVERT(BINARY(2), nums.[num]) AS [BINvalue],
       NCHAR(nums.[num]) AS [Character]
FROM   nums
WHERE  NCHAR(nums.[num]) = NCHAR(0x02BB) COLLATE Latin1_General_100_CI_AS;
/*
INTvalue    BINvalue    Character
699         0x02BB      ʻ
786         0x0312      ̒
*/

问题是，这是一个“间距修饰符”字符，因此它附加到其之前或之后的字符，并修改其含义/发音，具体取决于您正在处理的修饰符字符。

根据Unicode 标准，第 7 章（欧洲-I） https://www.unicode.org/versions/Unicode12.0.0/ch07.pdf，第 7.8 节（修饰符字母），第 323 页（文档的，而不是 PDF 的）：

7.8 修饰字母

修饰符字母，就 Unicode 标准中使用的意义而言，是通常与其他字母相邻书写并以某种方式修改其用法的字母或符号。它们没有正式组合标记（gc = Mn 或 gc = Mc），也没有以图形方式与它们修改的基本字母组合。他们本身就是基本人物。它们修饰其他字母的意义更多的是它们在使用中的语义问题。它们往往起到变音符号的作用，表示字母发音的变化，或以其他方式区分字母的用途。通常，此变音符号修饰适用于修饰符字母之前的字符，但修饰符字母有时可能会修饰后面的字符。有时，修饰字母可能只是单独代表其自己的声音。
...

间距修饰符字母：U+02B0–U+02FF

语音用法。该块中的大多数修饰符字母都是语音修饰符，包括覆盖国际音标所需的字符。在许多情况下，修饰符字母用于指示相邻字母的发音在某些方面有所不同，因此得名“修饰符”。它们还用于标记重音或音调，或者可能只是代表它们自己的声音。

下面的例子应该有助于说明。我使用的是 100 级排序规则，并且它需要区分重音（即名称包含_AS):

SELECT REPLACE(N'ʻ'    COLLATE Latin1_General_100_CI_AS, N'ʻ',   N'_'); -- Returns _
SELECT REPLACE(N'ʻa'   COLLATE Latin1_General_100_CI_AS, N'ʻ',   N'_'); -- Returns _a
SELECT REPLACE(N'ʻaa'  COLLATE Latin1_General_100_CI_AS, N'ʻ',   N'_'); -- Returns _aa
SELECT REPLACE(N'aʻaa' COLLATE Latin1_General_100_CI_AS, N'ʻ',   N'_'); -- Returns __aa

SELECT REPLACE(N'ʻaa'  COLLATE Latin1_General_100_CI_AS, N'ʻa',  N'_'); -- Returns ʻ__
SELECT REPLACE(N'aʻaa' COLLATE Latin1_General_100_CI_AS, N'ʻa',  N'_'); -- Returns aʻ__

SELECT REPLACE(N'aʻaa' COLLATE Latin1_General_100_CI_AS, N'aʻ',  N'_'); -- Returns _aa
SELECT REPLACE(N'aʻaa' COLLATE Latin1_General_100_CI_AS, N'aʻa', N'_'); -- Returns _a

SELECT REPLACE(N'aʻaa' COLLATE Latin1_General_100_CI_AS, N'a',   N'_'); -- Returns aʻ__
SELECT REPLACE(N'אʻaa' COLLATE Latin1_General_100_CI_AS, N'א',   N'_'); -- Returns אʻaa
SELECT REPLACE(N'ﬀʻaa' COLLATE Latin1_General_100_CI_AS, N'ﬀ',   N'_'); -- Returns ﬀʻaa
SELECT REPLACE(N'ﬀaa'  COLLATE Latin1_General_100_CI_AS, N'ﬀ',   N'_'); -- Returns _aa



SELECT CHARINDEX(N'a', N'aʻa' COLLATE Latin1_General_100_CI_AS); -- 3
SELECT CHARINDEX(N'a', N'aʻa' COLLATE Latin1_General_100_CI_AI); -- 1



SELECT 1 WHERE N'a' = N'aʻ' COLLATE Latin1_General_100_CI_AS; -- (0 rows returned)
SELECT 2 WHERE N'a' = N'aʻ' COLLATE Latin1_General_100_CI_AI; -- 2

如果您需要以忽略其预期语言行为的方式处理这些字符，那么是的，您必须使用二进制排序规则。在这种情况下，请使用最新级别的排序规则，并且BIN2代替BIN（假设您使用的是 SQL Server 2005 或更高版本）。意义：

SQL Server 2000：Latin1_General_BIN
SQL Server 2005：Latin1_General_BIN2
SQL Server 2008、2008 R2、2012、2014 和 2016：Latin1_General_100_BIN2
SQL Server 2017 及更高版本：Japanese_XJIS_140_BIN2

如果您好奇我为什么提出该建议，请参阅：

各种二进制排序规则之间的差异（文化、版本以及 BIN 与 BIN2） https://sqlquantumleap.com/2019/03/13/differences-between-the-various-binary-collations-cultures-versions-and-bin-vs-bin2/

并且，有关排序规则/Unicode/编码/等的更多信息，请访问：校对信息 https://collations.info/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

特殊字符（夏威夷语“Okina”）导致奇怪的字符串行为的相关文章

每行中非空列的计数

我有一个包含 4 列的表在第 5 列中我想存储前 4 列中有多少个非空列的计数例如其中 X 是任意值 Column1 Column2 Column3 Column4 Count X X NULL X 3 NULL NULL X X 2
如何在不使用实体框架的情况下从.Net Core连接到SQL Server？

我们如何从 Net Core连接到SQL Serverwithout使用实体框架你可以简单地使用传统的方式SqlConnection 这是一个例子 public class BaseDataAccess protected string
在 azure Devops 管道中部署 SQL 时遇到错误

我在 azure Devops 的发布管道中使用 sql DACPAC 类型的部署但出现以下错误我对 SQL 不了解有什么建议吗 Publishing to database database name on server Serve
如何去除 XSL 中字符的重音符号？

我一直在寻找但找不到相当于字符规范化空间的 XSL 函数也就是说我的内容带有重音 UNICODE 字符这很好但是从该内容中我正在创建一个文件名但我不想要这些重音那么是否有一些我忽略的东西或者没有正确地谷歌搜索来轻松处
如何连接子查询的第一行？

我有一个发票表和一个按键关联的相关数据的子表特别是对于每张发票我只对子表中的第一个相关行感兴趣鉴于我想要每个发票键都有一个相关行我该如何实现这一点 Select i Invoice Number c Carrier Name Fr
实体框架中的批量插入

我使用批量插入插入大量记录例如 20K 当我仅插入一个实体时它会正常工作但是当我用来插入多个实体例如一对多时它将仅插入父实体而不会插入子实体我的实体和代码 Customer cs public class Customer
SQL Server Like 查询不区分大小写

Query SELECT from Table 2 WHERE name like Joe Output 1 100 Joe 2 200 JOE 3 300 jOE 4 400 joe 为什么不区分大小写 Problem 查询不区分大小写
合并sql中的列

我正在使用 SQL Server 2017 有一个存储过程其中我有一个带有连接的简单选择例如 SELECT p legacyKey AS JobNumber p Name AS JobName G Label AS DesignStat
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
Spring Batch 死锁 - 无法增加身份；嵌套异常是 com.microsoft.sqlserver.jdbc.SQLServerException

我们正在将 Spring Batch 应用程序从 Oracle DB 迁移到 Azure SQL Server 我在尝试执行时收到以下错误两个不同的工作同时更新不同的表但使用相同的公共 BATCH 表引起原因 org springfra
为什么拉丁文小写字母 DOTLESS I（结合上面的点）没有在 NFC 形式中标准化为“i”？

Python 中的示例 gt gt gt s gt gt gt len s 2 gt gt gt list s gt gt gt print join map unicodedata name s LATIN SMALL LETTER DO
如何进行数据透视并计算列平均值

我承认这是迄今为止我必须面对的最复杂的 SQL 语句之一我在这件事上碰壁了我希望有人能帮我一把我在数据库中有这张表 Item ActiveTime sec DateTime 1 10 2013 06 03 17 34 22 gt Mo
有没有办法匹配任意 Unicode 字母字符？

我有一些文档经过 OCR 从 PDF 转换为 HTML 因此他们最终会出现很多随机的 unicode 标点符号而转换器会搞砸即省略号等他们还正确地有一堆非英语但仍然是字母字符如和俄语字符等有没有办法制作一个匹配任何 unico
当从属文本框中没有输入文本时，如何让 gridview 显示所有表格行？

下面的代码可以正常工作并根据文本框中输入的文本过滤我的网格视图当我的文本框中没有输入任何文本时我没有得到任何结果并且无法理解为什么我的问题如何让gridview显示all当文本框中没有输入文本时表行 MSSQL Search n
如何删除 Sql Server 2005 中存在的临时 SP

我的问题很简单如何删除临时存储过程如果存在这是因为当我在脚本中创建临时 SP 时它会在第二次运行时抛出类似数据库中已存在名为 sp name 的对象的错误我不想向用户显示此消息请帮我您的解决方案受到高度赞赏临时进程的删除
SQL Server：将表达式转换为数据类型 bigint 时出现算术溢出错误

这是我的查询顺序 SELECT CASE WHEN BarCode IS NOT NULL AND ExternelBarCode IS NULL THEN BarCode WHEN BarCode IS NULL AND Externel
NVARCHAR 变量在Where 子句中不起作用

在 SQL Server 我想是 2018 我不知道如何判断中我的变量不起作用WHERE的条款NVARCHAR 比较应该返回值但它什么也没返回如果我只是手动输入声明的文本它会突然起作用并返回值没有任何逻辑原因应该有任何不同类型
SQL Server 中高效的字符串后缀搜索？

我想找到与谓词匹配的所有行MyColumn LIKE FooBar 但通过使用索引查找而不是扫描一种方法本质上是创建 MyColumn 的反向版本并搜索反向模式 ooF 在该列上在反向列上有一个常规索引然而我不喜欢手动创建这个反向列
IIF(...) 不是公认的内置函数

我正在尝试在 Microsoft SQL Server 2008 R2 中使用它 SET SomeVar SomeOtherVar IIF SomeBool value when true value when false 但我收到一个错误

随机推荐

malloc()在哪里分配内存？是进程虚拟地址空间的数据段还是堆段？

自从我被介绍到C 有人告诉我在C动态内存分配是使用中的函数完成的malloc家庭我还了解到使用动态分配内存malloc分配在进程的堆部分各种操作系统教科书都这么说malloc涉及系统调用虽然并不总是但有时来将堆上的结构分配给进程
从汇总函数中提取参数系数[重复]

这个问题在这里已经有答案了我已经拟合了一个线性回归模型 Lin lt lm y x data df 当我使用summary函数我得到一些输出如何从该输出中提取参数系数以下是获取参数估计值的几种方法 R gt m lm y x R g
获取 Django ALLOWED_HOSTS 环境。变量直接在 settings.py 中格式化

我面临以下问题我的 env 文件包含如下行 export SERVERNAMES localhost domain1 domain2 domain3 lt exactly this kind of format 但变量称为SERVERNA
返回连续缺失的工作日日期并在缺失日期旁边分配费率

Dates rates 7 26 2019 1 04 7 30 2019 1 0116 7 31 2019 1 005 8 1 2019 1 035 8 2 2019 1 01 8 6 2019 0 9886 8 12 2019 0 965
CSS3相当于jQuery的slideUp和slideDown？

我的应用程序在使用 jQuery 的 SlideDown 和 SlideUp 时表现不佳我希望在支持 CSS3 的浏览器中使用 CSS3 等效项是否可以使用 CSS3 转换来更改元素display none to display blo
WSImport 为多个 Dynamics CRM 4.0 WSDL 生成冲突的 XMLType

我目前正在使用 Dynamics CRM 4 0 Web 服务我做的第一件事是使用 wsimport 生成正确的类Java JAX WS基于 Web 服务的 WSDL 在生成类时我遇到了一些错误 ERROR A class interfa
使用 jQuery 拖动时滚动页面

我尝试过使用kinetic js和下面的代码但是当我在IE11中尝试这个时每次滚动时它都会跳到顶部 html kinetic 我想让页面在平板电脑以及 IE10 和 11 上可滚动以便用户只需向上推动页面即可向下滚动就像在移动设备上
OleDbConnection 字符串和 unicode

在我的程序中我正在从 HTML 文件读取数据但在该文件中有时有些包含 unicode 字符的文本数据会被转换回 UTF 8 米歇尔 gt 米歇尔我使用以下代码从文件中检索数据 string ConnectionString stri
使用 qplot 绘制函数族，无需重复数据

给定函数族f x q x是论证并且q是参数我想可视化这个函数族x从区间取 0 1 对于 9 个值q 从 0 1 到 0 9 到目前为止我的解决方案是 f function p q 0 9 1 1 p q 3 1024 x seq 0 0
重写和非重写构造函数

我只是想问一个简单的问题我有一个从 TLabel 派生的类如下所示 TMyLabel class TLabel constructor Create AOwner TComponent override end constructor
如何静音 SpeechRecognizer 的嘟嘟声？

以前有人问过这个问题但似乎没有人有解决方案静音 SpeechRecognizer 蜂鸣声 https stackoverflow com questions 24579197 muting speechrecognizers beep
Kafka：多个实例中的单个消费者组

我正在致力于为我们的应用程序实施基于 Kafka 的解决方案根据 Kafka 文档我的理解是消费者组中的一个消费者即一个线程在内部映射到订阅主题中的一个分区假设我有一个包含 40 个分区的主题并且有一个在 4 个实例中运行的高级
它们真的是虚拟代码吗？

某些按键的虚拟按键代码例如移位 Del 等与 C C 相比在 java 中显示为不同的值例如 Key Java C C Shift 16 160 91 219 93 221 92 220 Del 127 46 Window 524 9
如何为另一个类型类中的所有类型编写实例？

我必须定义一个类型类Truthy其中包含一个方法true将类型类的实例转换为Bool value 我的类型类声明 class Truthy a where true a gt Bool 接下来我必须为各种类型定义此类的实例包括列表和数字
这段代码使用 wstring 和 MultiByteToWideChar 安全吗？

Using std wstring我现在的样子MultiByteToWideChar std wstring widen const std string in int len MultiByteToWideChar CP UTF8 0 i
Pandas：将列的值分配给字典值设置的限制

我怎样才能删除iterrows 使用 numpy 或 pandas 可以更快地完成此操作吗 import pandas as pd import numpy as np df pd DataFrame A foo bar foo bar f
获取没有滚动条的UITableView的高度

我需要获得一个的完整高度UITableView 即没有更多内容可滚动的高度有什么办法可以做到这一点吗我试过了 tableView sizeThatFits CGSizeZero 但只返回 0x0CGSize Try the conten
GitHub 项目最新版本的下载链接

我正在尝试向我的网站添加一个项目最新 github 版本的下载链接例如链接https github com mongodb mongo archive r3 0 0 rc7 zip https github com mongodb mon
无法恢复几何备份 MySQL 5.7 错误

我一直在从 Mysql 升级网站5 6 to 5 7 当从以下位置恢复备份时mysqldump 在Mysql 5 1 5 6下工作了10年不变在MySQL下不再工作5 7 具体来说第一行几何数据恢复失败 ERROR 1416 2200
特殊字符（夏威夷语“Okina”）导致奇怪的字符串行为

The 夏威夷语报价 https en wikipedia org wiki CA BBOkina当 T SQL 与字符串函数结合使用时它会出现一些奇怪的行为这里发生了什么我错过了什么吗其他角色是否也遇到同样的问题 SELECT U

特殊字符（夏威夷语“Okina”）导致奇怪的字符串行为

7.8 修饰字母

间距修饰符字母：U+02B0–U+02FF

特殊字符（夏威夷语“Okina”）导致奇怪的字符串行为 的相关文章

随机推荐

热门标签

特殊字符（夏威夷语“Okina”）导致奇怪的字符串行为的相关文章