C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？

2024-04-01

我有一个像这样的印地语脚本文件：

3.  भारत का इतिहास काफी समृद्ध एवं विस्तृत है।

我必须编写一个程序，为每个句子中的每个单词添加一个位置。因此，特定单词位置的每一行的编号应以括号中的 1 开头。输出应该是这样的。

3.  भारत(1) का(2) इतिहास(3) काफी(4) समृद्ध(5) एवं(6) विस्तृत(7) है(8) ।(9)

上面这句话的意思是：

3.  India has a long and rich history.

如果您观察到“।”（印地语中的句号相当于英语中的“.”）也有一个单词位置，并且类似的其他特殊符号也会有，因为我正在尝试进行英语-印地语单词对齐（自然语言处理（NLP）的一部分）所以英文句号为“.”应该映射到“।”印地语。序列号保持不变。我认为逐字阅读可能是一个解决方案。我怎样才能做到这一点？

问题是我能够使用 C++ 获取英语文本的单词位置，因为我能够使用 C++ 中的 ASCII 值逐个字符地读取单词位置，但我不知道如何对印地文文本进行同样的处理。

所有这一切的最终目的是查看英语文本的哪个单词位置映射到印地语中的哪个位置。这样我就可以实现双向对齐。

感谢您的时间...：）

哇，已经有 6 个答案了，但没有一个答案真正做到了这一点mgj通缉。jkp很接近，但随后删除了 daṇḍa，导致球落下。

Perl 来救援。更少的代码，更少的错误。

use utf8; use strict; use warnings;
use Encode qw(decode);
my $index;
join ' ', map { $index++; "$_($index)" } split /\s+|(?=।)/, decode 'UTF-8', <>;
# returns भारत(1) का(2) इतिहास(3) काफी(4) समदध(5) एव(6) विसतत(7) ह(8) ।(9)

编辑：更改为读取STDIN根据评论，添加了最佳实践实用程序

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

UTF8

NLP

C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？的相关文章

调用许多网络服务的最佳方式？

我有 30 家子公司每家都实施了他们的 Web 服务使用不同的技术我需要实现一个Web服务来聚合它们例如所有子公司的Web服务都有一个名为的Web方法GetUserPoint int nationalCode 我需要实现我的网络服
在 Web 浏览器中禁用 F5 [重复]

这个问题在这里已经有答案了可能的重复禁用浏览器的后退按钮 https stackoverflow com questions 961188 disable browsers back button 如何禁用浏览器上的 F5 刷新 htt
Nullable 是不可能的，为什么不呢？ [复制]

这个问题在这里已经有答案了如果这是一个愚蠢的问题请原谅我正在尝试更好地理解 Net 中的 Nullable 类型从我从 Microsoft 源代码使用 ReSharper 中注意到的内容我了解到 Nullable 是一个结构而
MSMQ接收和删除

是否有任何选项可以在读取消息后将其从 MSMQ 中删除比如接收删除可以作为原子操作运行吗听起来您想查看下一条消息然后在处理完成后接收它 Message message Queue Peek Queue ReceiveById me
如何查明 .exe 是否正在 C++ 中运行？

给定进程名称例如程序 exe C 标准库没有这样的支持您需要一个操作系统 API 来执行此操作如果这是 Windows 那么您将使用 CreateToolhelp32Snapshot 然后使用 Process32First 和 Pr
为什么 C# 中同一类型的隐式和显式运算符不能共存？ [复制]

这个问题在这里已经有答案了为什么同一类中两个相同类型的运算符显式和隐式不能共存假设我有以下内容 public class Fahrenheit public float Degrees get set public Fahrenhe
类中是否可以有虚拟类声明？

我正在为个人项目中框架的各个组件设置一个接口我突然想到了一些我认为可能对接口有用的东西我的问题是这是否可能 class a public virtual class test 0 class b public a public clas
Nhibernate：连接表并从其他表获取单列

我有以下表格 create table Users Id uniqueidentifier primary key InfoId uniqueidentifier not null unique Password nvarchar 255
C# Winforms Designer 无法打开，因为它无法在同一程序集中找到类型

我收到以下错误找不到类型 My Special UserControl 请确保引用包含此类型的程序集如果此类型是您的开发项目的一部分请确保已使用当前平台或任何 CPU 的设置成功构建该项目但没有任何意义的是My Special Us
检测 TextBox 中的 Tab 键按下

I am trying to detect the Tab key press in a TextBox I know that the Tab key does not trigger the KeyDown KeyUp or the K
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
如何对STL向量进行排序？

我想排序一个vector vector
WinForms - 加载表单时如何使用 PaintEventArgs 运行函数？

我试图理解图形在 Graphics FromImage 文档中它有这样的示例 private void FromImageImage PaintEventArgs e Create image Image imageFile Image
在 mvc4 中创建通用 mvc 视图

我以前也提过类似的问题没有得到答案如何创建一个通用的 mvc4 视图该视图可以显示传递给它的模型列表或单个模型模型可以是个人组织或团体无论传递给它的是什么如果您正在寻找类似的东西 model MyViewModel
用数组或向量实现多维数组

我想使用单个数组或向量实现多维数组可以像通常的多维数组一样访问它例如 a 1 2 3 我陷入困境的是如何实施操作员如果数组的维数为 1 则 a 1 应该返回位于索引 1 处的元素但是如果维数大于一怎么办对于嵌套向量例如 3 维
如何调用与现有方法同名的扩展方法？ [复制]

这个问题在这里已经有答案了我有这样的代码 public class TestA public string ColA get set public string ColB get set public string ColC get se
值和类型的简洁双向静态 1:1 映射

我将从我想象如何使用我想要创建的代码开始它不必完全像这样但它是我在标题中所说的简洁的一个很好的例子就我而言它是将类型映射到相关的枚举值 struct bar foo
使用 IdentityDbContext 和 Code First 自动迁移表位置和架构的实体框架？

我正在尝试使用 IdentityDbContext 类设置自动迁移更新并将更改传播到整个数据库的实际 DbContext 在进入代码之前在使用自动迁移实现 IdentityDbContext 时我收到此错误影响迁移历史系统表位置的自
运行 xunit 测试时无法将输出打印到控制台窗口

public class test2InAnotherProject private readonly ITestOutputHelper output public test2InAnotherProject ITestOutputHel
Emacs C++，打开相应的头文件

我是 emacs 新手我想知道是否有在头文件源文件和相应的源文件头文件之间切换的快捷方式是否有像通用 emacs 参考卡那样的参考卡 Thanks There s ff find other file 您可以使用以下方法将其绑定到

随机推荐

ReferenceError：令牌未定义

我一直在关注使用 ionic 进行身份验证的登录教程但是当我尝试运行该程序并登录时错误是 ReferenceError 令牌未定义在 storeUserCredentials services js 16 在 services js
使用 ASP.NET 进行卷曲请求

我已经阅读了 Stack 上的其他一些帖子但我无法让它工作当我在Windows机器上的git中运行curl命令时它在我的电脑上工作正常但是当我将其转换为asp net时它不起作用 private void BeeBoleReque
如何识别您正在虚拟机下运行？

有没有办法从虚拟机内识别您的代码正在虚拟机内运行我想有或多或少简单的方法来识别特定的虚拟机系统特别是如果虚拟机安装了提供商的扩展例如 VirtualBox 或 VMWare 但是有没有一个通用的方法来识别你不是直接在CPU上运行的呢
标准是否要求重命名是原子的？

当我试图回答这个问题时出现了一个有趣的问题 mv 在我的 fs 上是原子的吗 https unix stackexchange com questions 322038 is mv atomic on my fs 322074 32207
Windows 无法将参数传递给 python 脚本

在 py script py 中 import os import sys l len sys argv if l 1 print no args else if l gt 1 print first arg is s sys argv 1
基于 NSSplitViewController 的应用程序几乎永远不会以正确的大小启动

我有这个应用程序它使用NSSplitViewController作为根并且有一个NSTabViewController作为其详细视图控制器连接此应用程序设置为以 1024x768 启动左窗格应以 320x768 启动右窗格 tabV
如果组件的容器被移除，是否需要调用`unmountComponentAtNode`？

我渲染一个 React 组件SettingsTab在一个名为的包装器中TeamView 它的 API 看起来像 class TeamView constructor this el document createElement div re
TreeView、HierarchicalDataTemplate 和递归数据

对于我的树视图我有两个不同的类提供 ItemsSource public class TreeViewModel ViewModelBase public ObservableCollection
找不到我的语法错误，VC++ 说有一个

我在这里遇到了一些问题我正在搞乱机器代码和函数指针并且 VC 根本拒绝编译我的一些代码这完全按照预期编译和运行 include
Hibernate 使用错误的表名进行三级继承的 order by 表达式

在我们的项目中我们有不同类别呈现的不同用户类型我们有一个 BaseEntity 类作为 MappedSuperclass 当我们尝试将用户类与 InheritanceType JOINED 一起使用时 hibernate 会创建一条我们
如何为react-native应用程序设置URL方案/链接

我想使用 oauth 为 Spotify Web API 授予对 React Native 应用程序的访问权限我知道我需要使用linking https facebook github io react native docs linki
即使具有 SELECT 权限也无法选择表

我有两个用户 USER1 and USER2 USER1有特权create table and USER2没有这个特权 USER1创建了一个名为EMPLOYEE并授予select该表的特权USER2 使用 USER1 凭据 1 创建表 CR
如何知道我的二进制可执行文件的内存占用量

我想知道是否有办法知道用 C 语言编码的二进制可执行文件的内存占用量有关二进制可执行文件的信息使用OpenWrt分支 Attitude Adjustment 的工具链编译架构为x86 在 Linux Unix 系统上您可以使用siz
构建 Keras Tensorboard 图

当我创建一个简单的 Keras 模型时 model Sequential model add Dense 10 activation tanh input dim 1 model add Dense 1 activation linear
如何在 UNIX shell 中将制表符分隔的文本复制到剪贴板，同时保留制表符？

我正在尝试将 UNIX 环境中的文件的几行复制并粘贴到网页中我想通过破坏选项卡来保留原始格式但是当我选择一段文本并将其复制并粘贴到网页中时所有选项卡都已转换为不同长度的空格有人可以告诉我如何保留原始标签吗它需要尽可能简单以便新
数据库表命名，复数或单数[重复]

这个问题在这里已经有答案了命名数据库的表和模式时最好使用单数或复数例如应该是客户还是客户命名时应该用Capital 如Customer或customer吗关于命名有什么最佳实践吗这个问题需要一场宗教战争我毫不怀疑它应该是复数
C++11 空列表联合的初始化 - 是否保证初始化联合的完整长度？

在 C 11 中我有以下联合 union SomeData std uint8 t Byte std uint16 t Word std uint32 t DWord unsigned char String 128 如果我这样初始化联合
Git checkout——恢复丢失的文件

我不小心删除了 git 存储库上的本地文件更改他们没有被承诺甚至没有被推动我做了什么 git 状态然后显示未暂存提交的文件并且我意外地通过此命令删除了名为 smdr 的整个文件夹 git checkout smdr 然后文件更改就
Latex中如何设置标题字体颜色

Latex 中可以更改标题字体颜色吗你可以看看sectsty包裹 secsty 包提供了一组命令用于更改标准 LATEX 2 文档类中各个章节标题所使用的字体 1 从手册中确保您在文档中包含该包方法是在您的文件序言 usepack
C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？

我有一个像这样的印地语脚本文件 3 我必须编写一个程序为每个句子中的每个单词添加一个位置因此特定单词位置的每一行的编号应以括号中的 1 开头输出应该是这样的 3 1 2 3 4 5 6 7 8 9 上面这句话的意思是 3 India

C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？

C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？ 的相关文章

随机推荐

热门标签

C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？的相关文章