Python：在单词边界上分割unicode字符串

2023-11-23

我需要获取一个字符串，并将其缩短为 140 个字符。

目前我正在做：

if len(tweet) > 140:
    tweet = re.sub(r"\s+", " ", tweet) #normalize space
    footer = "… " + utils.shorten_urls(post['url'])
    avail = 140 - len(footer)
    words = tweet.split()
    result = ""
    for word in words:
        word += " "
        if len(word) > avail:
            break
        result += word
        avail -= len(word)
    tweet = (result + footer).strip()
    assert len(tweet) <= 140

所以这对于英语和类似英语的字符串非常有效，但对于中文字符串则失败了，因为tweet.split()只返回一个数组：

>>> s = u"简讯：新華社報道，美國總統奧巴馬乘坐的「空軍一號」專機晚上10時42分進入上海空域，預計約30分鐘後抵達浦東國際機場，開展他上任後首次訪華之旅。"
>>> s
u'\u7b80\u8baf\uff1a\u65b0\u83ef\u793e\u5831\u9053\uff0c\u7f8e\u570b\u7e3d\u7d71\u5967\u5df4\u99ac\u4e58\u5750\u7684\u300c\u7a7a\u8ecd\u4e00\u865f\u300d\u5c08\u6a5f\u665a\u4e0a10\u664242\u5206\u9032\u5165\u4e0a\u6d77\u7a7a\u57df\uff0c\u9810\u8a08\u7d0430\u5206\u9418\u5f8c\u62b5\u9054\u6d66\u6771\u570b\u969b\u6a5f\u5834\uff0c\u958b\u5c55\u4ed6\u4e0a\u4efb\u5f8c\u9996\u6b21\u8a2a\u83ef\u4e4b\u65c5\u3002'
>>> s.split()
[u'\u7b80\u8baf\uff1a\u65b0\u83ef\u793e\u5831\u9053\uff0c\u7f8e\u570b\u7e3d\u7d71\u5967\u5df4\u99ac\u4e58\u5750\u7684\u300c\u7a7a\u8ecd\u4e00\u865f\u300d\u5c08\u6a5f\u665a\u4e0a10\u664242\u5206\u9032\u5165\u4e0a\u6d77\u7a7a\u57df\uff0c\u9810\u8a08\u7d0430\u5206\u9418\u5f8c\u62b5\u9054\u6d66\u6771\u570b\u969b\u6a5f\u5834\uff0c\u958b\u5c55\u4ed6\u4e0a\u4efb\u5f8c\u9996\u6b21\u8a2a\u83ef\u4e4b\u65c5\u3002']

我应该怎么做才能处理 I18N？这对所有语言都有意义吗？

如果这很重要的话，我正在使用 python 2.5.4。

中文中的单词之间通常没有空格，并且根据上下文，符号可以具有不同的含义。您必须理解文本才能在单词边界处拆分它。换句话说，你想做的事情一般来说并不容易。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

internationalization

characterproperties

Python：在单词边界上分割unicode字符串的相关文章

从 Python 中的 message_from_string() 获取发件人地址

有人可以告诉我如何在Python中从email message from string 获取发件人地址吗谢谢我试过 message email message from string email text from message Fr
如何测试该变量不等于多个事物？

这是我的一段代码 choice while choice 1 and choice 2 and choice 3 choice raw input pick 1 2 or 3 if choice 1 print 1 it is elif c
使用 keras 澄清 Yolo v3 模型输出

我将 yolo v3 模型与 keras 一起使用该网络为我提供了形状如下的输出容器 1 13 13 255 1 26 26 255 1 52 52 255 所以我找到了这个link https www cyberailab com ho
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
如何搜索一列并用找到的内容填充另一列？

我有一个带有虚构人物数据的大熊猫数据框下面是一个小例子每个人都由一个数字定义 import pandas as pd import numpy as np df pd DataFrame Number 5569 3385 9832 64
在 ubuntu 中卸载 python 模块

我必须删除一个名为 django 的 python 模块一种流行的模块因为我安装了错误的版本 1 3 py 2 6 中的 beta 如何卸载这个模块请解释一下因为我只在 Windows 中使用过 python 而从未在 Ubuntu
如何检查给定的数字是否是2的幂？

下面的代码不适用于某些输入 a i set 1 while i lt 10000 a add i i lt lt 1 N int input if N in a print True else print False 我最初的想法是检查每个
如何同时有效地运行多个 Pytorch 进程/模型？ Traceback：分页文件太小，无法完成此操作

背景我有一个非常小的网络我想用不同的随机种子进行测试该网络几乎只使用了我的 GPU 计算能力的 1 因此理论上我可以同时运行 50 个进程来同时尝试许多不同的种子 Problem 不幸的是我什至无法在多个进程中导入 pytorch 当
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
python 硒按名称查找元素

查找电子邮件输入的正确代码是什么https accounts google com ServiceLogin html 是
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
在添加数据之前使用 Python gdata 清除工作表中的行

我有一个 Google 电子表格我使用 python 脚本和 gdata 库填充值如果我多次运行脚本它会将新行附加到工作表中我希望脚本在填充之前首先清除行中的所有数据这样每次运行时我都会有一组新的数据脚本我尝试过使用 Updat
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
如何通过 API Gateway 使用事件调用类型调用 Lambda 函数？

文件说默认情况下 Invoke API 采用 RequestResponse 调用类型您可以选择通过将 Event 指定为 InitationType 来请求异步执行因此我可以发送到我的函数 python 的就是到处都是 Inspi
如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co
Python 中的可逆 STFT 和 ISTFT

有没有通用的形式短时傅立叶变换 https en wikipedia org wiki Short time Fourier transform与内置于 SciPy 或 NumPy 或其他什么中的相应逆变换这是pyplotspecgram
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究

随机推荐

高级比较和交换 (CAS) 功能？

我想记录哪些高级即 C 不是内联汇编器函数或宏可用于比较和交换 CAS 原子原语例如 x86 上的 WIN32 有一系列函数 InterlockedCompareExchange in the lt intrin h gt heade
Elastic Beanstalk 自定义 AMI 看不到环境变量

由于一些大型软件包的要求我正在为 Elastic Beanstalk 使用自定义 AMI 当我通过 SSH 访问 EC2 实例时我的应用程序无法使用任何环境变量在 Elastic Beanstalk Web 控制台设置中指定我在生产
获取异步方法主体中的当前任务实例

如果我有一个像这样的异步方法体 public async Task GetSomething await SendText hi await SendImage bla bmp 当等待开始时如何在将任务对象返回给用户之前获取任务对象 ie
React Fontawesome 没有 free-brands-svg-icons，因此无法显示社交媒体图标

我可以在 React 网页上使用社交媒体图标吗 import library from fortawesome fontawesome svg core import FontAwesomeIcon from fortawesome rea
悬停在另一个元素上时隐藏元素

我知道可以在JavaScript 但是我正在寻找解决方案CSS 我有三个div div hide 默认应该是可见的 show 应该是隐藏的当我将鼠标悬停在 main 上时 hide 应该隐藏 show 应该可见 div show 工作正常
是否有浏览器支持输入元素的 form 属性？

HTML5 规范允许与形式相关的元素参考他们的联系
Spring Boot应用程序启动后立即关闭

我目前正在开发一个包含 Spring 框架的项目一切都按方面进行但有一个问题当我尝试在笔记本电脑上启动应用程序时它在启动后立即关闭它在其他所有机器上都可以工作所以这个问题只发生在我的笔记本电脑上也许您知道什么会导致这个问题我
如何重新安装已安装的 Eclipse 插件？

如何将 Eclipse 插件从一个 Eclipse 安装删除或复制到另一个安装例如我安装了两个 eclipse 其中一个安装了一个插件但我没有安装程序也不容易在线获得是否可以在我的其他版本的 eclipse 上安装此插件
在浏览器中显示word/pdf/excel等文件。（ASP.NET、C#.NET 2008）

我有一个需要在浏览器中显示 Pdf Word 文档任何版本或 Excel 的要求类似于GMAIL的功能我怎样才能实现这个目标我正在使用 Asp net 代码隐藏为 C 申请时间是2008年 Try 如何使用 ASP NET 和 V
如何在使用相对 URL 时更改 http/https 协议

协议相关 URLaren t我在寻找什么我正在寻找一种绝对指定协议 http 与 https 同时保持 url 相对主机名的方法给定一个相对 URL 例如 SearchForStuff 我希望能够指定不同的协议 https 与 http
如何在 Linux 上使用 GCC 编译 C 和 Gtk+？

我搜索了又搜索但没有得到我真正想要的信息有人可以尽可能完整地从根本上解释一下在 Linux 上使用 GCC 用 C 语言编写时 Gtk 代码是如何编译的吗有些东西像反引号 c99 和 o 文件我根本不理解我也非常感谢任何学习 Gt
RealityKit - 为 ModelEntity 的不透明度设置动画？

通过设置材质的颜色model的财产ModelEntity 我可以改变对象的不透明度 alpha 但如何将其动画化呢我的目标是使对象具有完全不透明度的动画然后让它们淡入设定的不透明度例如 50 With SCNAction fadeOp
R 中 igraph 网络的输出 shapefile

你好我在 R 中有一个使用 igraph 库的网络 Vertices 616 Edges 6270 Directed TRUE No graph attributes Vertex attributes name Lat Lon Edge
为什么 JavaScript 中的匿名函数有名字？

我正在读一本很棒的书名为 JavaScript Ninja 的秘密作者是 John Resig 和 Bear Bibeaoult 3 2章中给出了一个例子 var canFly function return true 然后它说创建一
按创建顺序对哈希表进行排序

这类似于如何保持哈希表中元素的顺序 NET 除外有没有Hashtable or Dictionary在 NET 中允许您访问它的 Index条目的属性是否按照添加到集合中的顺序排列 A NameValueCollection可以通过索引
如何在 sails.js 中获取当前域名地址

我试图使用获取当前网址sails js 我尝试了以下方法 req param host and req param X Forwarded Protocol 返回未定义 req headers host 返回本地主机但我的域不是本地主机
如何获取管道中第一个命令的退出状态？ [复制]

这个问题在这里已经有答案了我做了一个简单的脚本 more test bash bin bash echo test exit 1 当我运行脚本时退出状态应该是1 tmp test bash echo 1 但是当我按以下方式运行时 tmp
如何找出我的代码在哪里导致 GLib-GObject-CRITICAL？

当 C C 应用程序失败并出现以下 CRITICAL 错误时您能否告诉我如何找出导致错误的代码在哪里我尝试在调试器中运行它尝试在程序失败时执行 bt 但它没有显示导致关键问题的代码在哪里 process 3155 GLib GObje
在 python 中，我可以将 print 函数的输出重定向到 stderr 吗？

有很多print功能 python 2 7 在我的程序中有什么方法可以添加几行然后所有输出都可以重定向到stderr 我想要的是 python 代码而不是 linux 管道例如我的程序是这样的 print hello world 我想
Python：在单词边界上分割unicode字符串

我需要获取一个字符串并将其缩短为 140 个字符目前我正在做 if len tweet gt 140 tweet re sub r s tweet normalize space footer utils shorten urls po

Python：在单词边界上分割unicode字符串

Python：在单词边界上分割unicode字符串 的相关文章

随机推荐

热门标签

Python：在单词边界上分割unicode字符串的相关文章