如何消除 ☎ unicode?

2024-01-10

在网页抓取过程中,在删除所有 html 标签后,我得到了 unicode 中的黑色电话字符 \u260e (☎)。但不同于这个回应 https://stackoverflow.com/questions/7266842/character-u260e我也想摆脱它。

我在Scrapy中使用以下正则表达式来消除html标签:

pattern = re.compile("<.*?>|&nbsp;|&amp;",re.DOTALL|re.M)

然后我尝试匹配 \u260e,我想我被抓住了反斜杠瘟疫 http://docs.python.org/2/howto/regex.html#the-backslash-plague。我尝试了这种模式但没有成功:

pattern = re.compile("<.*?>|&nbsp;|&amp;|\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>|&nbsp;|&amp;|\\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>|&nbsp;|&amp;|\\\\u260e",re.DOTALL|re.M)

这些都不起作用,我仍然有 \u260e 作为输出。 我怎样才能让这个消失?


使用 Python 2.7.3,以下内容对我来说效果很好:

import re

pattern = re.compile(u"<.*?>|&nbsp;|&amp;|\u260e",re.DOTALL|re.M)
s = u"bla ble \u260e blo"
re.sub(pattern, "", s)

Output:

u'bla ble  blo'

正如@Zack 所指出的,这是因为字符串现在是 unicode 格式,即字符串已经被转换,并且字符序列\u260e现在可能是用于写入那个黑色小手机的两个字节☎(:

一旦要搜索的字符串和正则表达式都有黑色手机本身,而不是字符序列\u260e,它们都匹配。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何消除 ☎ unicode? 的相关文章

  • 在 Python distutils 中从 setup.py 查找脚本目录的正确方法?

    我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
  • Pandas 中允许重复列

    我将一个大的 CSV 包含股票财务数据 文件分割成更小的块 CSV 文件的格式不同 像 Excel 数据透视表之类的东西 第一列的前几行包含一些标题 公司名称 ID 等在以下列中重复 因为一家公司有多个属性 而不是一家公司只有一栏 在前几行
  • 忽略 Mercurial hook 中的某些 Mercurial 命令

    我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
  • [A-z0-9]+ 正则表达式匹配方括号[重复]

    这个问题在这里已经有答案了 我正在努力解决以下正则表达式 A z0 9 如果针对此字符串进行测试 a919238 a asd 它返回a919238 包括方括号 我尝试输入我在 regex101 上的测试用例 https www regex1
  • Python urllib.request.urlopen:AttributeError:'bytes'对象没有属性'data'

    我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹 我对SO进行了很多研究 但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
  • 在flatpak项目中使用scrapy脚本

    我正在构建一个 flatpak 构建的项目 我有一个按钮 当单击它时我希望它运行 scrapy 脚本来抓取数据 窗口用户界面
  • 按元组分隔符拆分列表

    我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
  • 首先对列表中最长的项目进行排序

    我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
  • 将 JSON 对象传递给带有请求的 url

    所以 我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
  • 如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串?

    我有一个 CSV 文件 需要重新排列和重新编码 我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行 或者我想自己迭代行 运行重新编码 并仅使用单行解析表单
  • 使用 Firefox 绕过弹出窗口下载文件:Selenium Python

    我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
  • JS用正则表达式替换数字

    我有元素的标识符 如下所示 form book 1 2 3 我想要的是用其他值替换该标识符中的第二个数字 我将函数 match 与以下正则表达式一起使用 var regexp d d d 但它返回我包含的数组 1 2 3 2 因此 当我尝试
  • Oracle REGEXP_INSTR() 和“a-z”字符范围与预期不匹配

    我想用REGEXP INSTR 在 oracle 数据库中检查小写 大写字符 我知道 upper and lower POSIX 字符类 但我选择了a z这给了我非常奇怪的结果 我不明白 有人可以解释一下吗 SELECT REGEXP IN
  • 使用FFMpeg确定视频类型,然后进行转换?

    我正在尝试以编程方式确定文件的真实类型 看来我必须使用 FFMPeg 来实现这一点 我想确定上传的文件实际上是否是 MP4 或 FLV 对于 Flash 视频 或 WebM 对于 HTML5 我知道 FFMPeg 中的 i 运算符 但我不知
  • 从字符串中获取数字

    我有一个字符串 例如 lorem 110 ipusm 我想获取 110 我已经尝试过这个 preg match all 0 9 string ret 但这正在返回 Array 0 gt 1 1 gt 1 2 gt 0 我想要这样的东西 Ar
  • 如何在 javascript 正则表达式中匹配平衡分隔符?

    我原以为这个问题是不可能的 据我所知 Javascript 的正则表达式既没有递归插值 也没有漂亮的 NET 平衡组功能 但问题就在那里 如问题 12 所示正则表达式 alf nu http regex alf nu 匹配平衡对 lt an
  • 在Python中按属性获取对象列表中的索引

    我有具有属性 id 的对象列表 我想找到具有特定 id 的对象的索引 我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
  • 检查字典键是否有空值

    我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典 但是 它不会包含带有空字符串的键 它不会包
  • 从 Twitter API 2.0 获取 user.fields 时出现问题

    我想从 Twitter API 2 0 端点加载推文 并尝试获取标准字段 作者 文本 和一些扩展字段 尤其是 用户 字段 端点和参数的定义工作没有错误 在生成的 json 中 我只找到标准字段 但没有找到所需的 user fields 用户
  • Scrapy Spider不存储状态(持久状态)

    您好 有一个基本的蜘蛛 可以运行以获取给定域上的所有链接 我想确保它保持其状态 以便它可以从离开的位置恢复 我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

  • Kinect SDK 2 与 Xbox 360 Kinect 兼容吗?

    我正在尝试使用 Xbox 360 的 Kinect 开发一个有趣的人脸识别应用程序 我想知道应该使用哪个 SDK 和 Visual Studio 版本才能最好地访问 Kinect Kinect SDK 2 与 Xbox 360 Kinect
  • BoostBuild:patchlevel.h 不存在

    我正在尝试在 Ubuntu 11 04 上使用 bjam 编译 C 项目 我不断收到以下错误 libraries boost 1 44 0 boost python detail wrap python hpp 75 24 fatal er
  • 调试 pthread 需要什么?

    我想在我的自定义 Linux 发行版上调试 pthreads 但我缺少一些东西 我的主机是 Ubuntu 12 04 我的目标是使用 crosstool NG 交叉编译器工具集构建的 i486 定制嵌入式 Linux 操作系统的其余部分是使
  • 在待完成的活动消失后,找出当前活动最终是否将成为任务根

    If FirstActivity是任务的根 它会自行完成并启动SecondActivity 然后调用isTaskRoot in SecondActivity立即返回false 因为FirstActivity的完成是异步发生的 因此尚未完成
  • 给定日期,获取星期几 - SYSTEMTIME

    如果提供了日期 月 日 年 是否可以使用 SYSTEMTIME 确定星期几 或者该结构只是单向的 如果 SYSTEMTIME 无法做到这一点 使用 Win32 完成我所要求的任务的最轻量级方法是什么 根据msdn http msdn mic
  • 如何在 iOS 设备 ( Safari ) 中消除或限制滚动事件

    我正在尝试为移动和桌面设备实现无限滚动下拉菜单 在 无限滚动 下 我的意思是 如果您有 100 条记录 当到达可滚动容器的末尾时 将加载 20 条新记录 并且前 20 条记录将隐藏 向后方向相同 我遇到了以下问题 除了 Safari 移动浏
  • 必须先发出 STARTTLS 命令

    我正在用我的运行这个简单的例子Gmail帐户 但它无法正常工作并给出以下错误 send failed exception com sun mail smtp SMTPSendFailedException 530 5 7 0 Must is
  • std::common_type 的目的是什么?

    我开始看std common type我不太确定其目的和功能 有几件事仍然让我觉得奇怪 参数的顺序很重要 common type
  • 访问 Pod 中的资源

    我想将图像资源包含在 cocoapod 库中 但访问它们时遇到问题 我已阅读这些资源来寻求帮助 Cocoapods 资源 http guides cocoapods org syntax podspec html resources Coc
  • Rust 中的 Some 和 Option 有什么区别?

    它们是一样的吗 我有时可以看到文档使用它们 就好像它们是相等的一样 不 它们不一样 并且文档将它们视为相同是错误的 或者是您的误解 Option是一种类型 更准确地说 是泛型类型构造函数 Option
  • 返回具有多种类型迭代器的 impl Iterator [重复]

    这个问题在这里已经有答案了 我试图将我的问题提炼成一个最小的例子 在下面的函数中 如果我只有 if 语句的任一分支 则程序可以正常编译 fn foo bar bool gt impl Iterator
  • 如何从自定义主键迁移到默认ID [重复]

    这个问题在这里已经有答案了 我创建了一个以电子邮件地址作为自定义主键的模型 如下所示 email models EmailField max length 255 primary key True 现在我意识到这对我来说不是一个好主意 我想
  • 取消 UIView animateWithDuration 中的块

    void startLoading self blink void blink UIView animateWithDuration 0 5 delay 0 0 options UIViewAnimationOptionAllowUserI
  • 为什么我必须将 Vinyl-source-stream 与 gulp 一起使用?

    我正在尝试使用 gulp 和 browserify 来改变我的 jsx文件到 js files var gulp require gulp var browserify require browserify var reactify req
  • 来自 REST 端点的 PHP 模拟数据

    我正在围绕第三方 API 编写 PHP 包装器 对于练习来说更是如此 但我目前还没有在任何地方看到一个好的可用的 所以也许将来它会被其他人使用 我的单元测试非常简单 但现在我已经达到了极限 API 的开发人员有最大请求限制 每秒 1 个 每
  • 如何使提交按钮显示为链接?

    这在 IE 中不起作用 text button background transparent text decoration none cursor pointer
  • 应用程序应该处于运行状态才能触发意图吗?

    我有一个非常简单的 IntentReceiver 来在时间变化时接收事件 这是代码 public class IntentRec extends BroadcastReceiver Override public void onReceiv
  • 配置文件与默认钥匙串中的任何有效证书/私钥对不匹配

    我正在为一家公司开发一个应用程序 他们给了我管理员角色 以便我可以编辑配置文件 我在 XCode 上收到 找不到分发文件的有效签名身份 和 配置文件与默认钥匙串中的任何有效证书 私钥对不匹配 错误 通常我会通过创建密钥链来撤销分发配置文件我
  • Facebook SSO 如何知道要返回哪个应用程序?

    使用 Facebook SSO 单点登录 在系统提示用户授予使用其 Facebook 帐户的权限后 它会将用户引导回正在运行 SSO 的应用程序 FB SSO 具体是如何实现这一目标的 授予权限后如何知道要重新打开哪个应用程序 我们正在构建
  • 如何消除 ☎ unicode?

    在网页抓取过程中 在删除所有 html 标签后 我得到了 unicode 中的黑色电话字符 u260e 但不同于这个回应 https stackoverflow com questions 7266842 character u260e我也