如何消除 ☎ unicode？

2024-01-10

在网页抓取过程中，在删除所有 html 标签后，我得到了 unicode 中的黑色电话字符 \u260e (☎)。但不同于这个回应 https://stackoverflow.com/questions/7266842/character-u260e我也想摆脱它。

我在Scrapy中使用以下正则表达式来消除html标签：

pattern = re.compile("<.*?>|&nbsp;|&amp;",re.DOTALL|re.M)

然后我尝试匹配 \u260e，我想我被抓住了反斜杠瘟疫 http://docs.python.org/2/howto/regex.html#the-backslash-plague。我尝试了这种模式但没有成功：

pattern = re.compile("<.*?>|&nbsp;|&amp;|\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>|&nbsp;|&amp;|\\u260e",re.DOTALL|re.M)
pattern = re.compile("<.*?>|&nbsp;|&amp;|\\\\u260e",re.DOTALL|re.M)

这些都不起作用，我仍然有 \u260e 作为输出。我怎样才能让这个消失？

使用 Python 2.7.3，以下内容对我来说效果很好：

import re

pattern = re.compile(u"<.*?>|&nbsp;|&amp;|\u260e",re.DOTALL|re.M)
s = u"bla ble \u260e blo"
re.sub(pattern, "", s)

Output:

u'bla ble  blo'

正如@Zack 所指出的，这是因为字符串现在是 unicode 格式，即字符串已经被转换，并且字符序列\u260e现在可能是用于写入那个黑色小手机的两个字节☎（：

一旦要搜索的字符串和正则表达式都有黑色手机本身，而不是字符序列\u260e，它们都匹配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

Scrapy

如何消除 ☎ unicode？的相关文章

在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
[A-z0-9]+ 正则表达式匹配方括号[重复]

这个问题在这里已经有答案了我正在努力解决以下正则表达式 A z0 9 如果针对此字符串进行测试 a919238 a asd 它返回a919238 包括方括号我尝试输入我在 regex101 上的测试用例 https www regex1
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
JS用正则表达式替换数字

我有元素的标识符如下所示 form book 1 2 3 我想要的是用其他值替换该标识符中的第二个数字我将函数 match 与以下正则表达式一起使用 var regexp d d d 但它返回我包含的数组 1 2 3 2 因此当我尝试
Oracle REGEXP_INSTR() 和“a-z”字符范围与预期不匹配

我想用REGEXP INSTR 在 oracle 数据库中检查小写大写字符我知道 upper and lower POSIX 字符类但我选择了a z这给了我非常奇怪的结果我不明白有人可以解释一下吗 SELECT REGEXP IN
使用FFMpeg确定视频类型，然后进行转换？

我正在尝试以编程方式确定文件的真实类型看来我必须使用 FFMPeg 来实现这一点我想确定上传的文件实际上是否是 MP4 或 FLV 对于 Flash 视频或 WebM 对于 HTML5 我知道 FFMPeg 中的 i 运算符但我不知
从字符串中获取数字

我有一个字符串例如 lorem 110 ipusm 我想获取 110 我已经尝试过这个 preg match all 0 9 string ret 但这正在返回 Array 0 gt 1 1 gt 1 2 gt 0 我想要这样的东西 Ar
如何在 javascript 正则表达式中匹配平衡分隔符？

我原以为这个问题是不可能的据我所知 Javascript 的正则表达式既没有递归插值也没有漂亮的 NET 平衡组功能但问题就在那里如问题 12 所示正则表达式 alf nu http regex alf nu 匹配平衡对 lt an
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

Kinect SDK 2 与 Xbox 360 Kinect 兼容吗？

我正在尝试使用 Xbox 360 的 Kinect 开发一个有趣的人脸识别应用程序我想知道应该使用哪个 SDK 和 Visual Studio 版本才能最好地访问 Kinect Kinect SDK 2 与 Xbox 360 Kinect
BoostBuild：patchlevel.h 不存在

我正在尝试在 Ubuntu 11 04 上使用 bjam 编译 C 项目我不断收到以下错误 libraries boost 1 44 0 boost python detail wrap python hpp 75 24 fatal er
调试 pthread 需要什么？

我想在我的自定义 Linux 发行版上调试 pthreads 但我缺少一些东西我的主机是 Ubuntu 12 04 我的目标是使用 crosstool NG 交叉编译器工具集构建的 i486 定制嵌入式 Linux 操作系统的其余部分是使
在待完成的活动消失后，找出当前活动最终是否将成为任务根

If FirstActivity是任务的根它会自行完成并启动SecondActivity 然后调用isTaskRoot in SecondActivity立即返回false 因为FirstActivity的完成是异步发生的因此尚未完成
给定日期，获取星期几 - SYSTEMTIME

如果提供了日期月日年是否可以使用 SYSTEMTIME 确定星期几或者该结构只是单向的如果 SYSTEMTIME 无法做到这一点使用 Win32 完成我所要求的任务的最轻量级方法是什么根据msdn http msdn mic
如何在 iOS 设备 ( Safari ) 中消除或限制滚动事件

我正在尝试为移动和桌面设备实现无限滚动下拉菜单在无限滚动下我的意思是如果您有 100 条记录当到达可滚动容器的末尾时将加载 20 条新记录并且前 20 条记录将隐藏向后方向相同我遇到了以下问题除了 Safari 移动浏
必须先发出 STARTTLS 命令

我正在用我的运行这个简单的例子Gmail帐户但它无法正常工作并给出以下错误 send failed exception com sun mail smtp SMTPSendFailedException 530 5 7 0 Must is
std::common_type 的目的是什么？

我开始看std common type我不太确定其目的和功能有几件事仍然让我觉得奇怪参数的顺序很重要 common type
访问 Pod 中的资源

我想将图像资源包含在 cocoapod 库中但访问它们时遇到问题我已阅读这些资源来寻求帮助 Cocoapods 资源 http guides cocoapods org syntax podspec html resources Coc
Rust 中的 Some 和 Option 有什么区别？

它们是一样的吗我有时可以看到文档使用它们就好像它们是相等的一样不它们不一样并且文档将它们视为相同是错误的或者是您的误解 Option是一种类型更准确地说是泛型类型构造函数 Option
返回具有多种类型迭代器的 impl Iterator [重复]

这个问题在这里已经有答案了我试图将我的问题提炼成一个最小的例子在下面的函数中如果我只有 if 语句的任一分支则程序可以正常编译 fn foo bar bool gt impl Iterator
如何从自定义主键迁移到默认ID [重复]

这个问题在这里已经有答案了我创建了一个以电子邮件地址作为自定义主键的模型如下所示 email models EmailField max length 255 primary key True 现在我意识到这对我来说不是一个好主意我想
取消 UIView animateWithDuration 中的块

void startLoading self blink void blink UIView animateWithDuration 0 5 delay 0 0 options UIViewAnimationOptionAllowUserI
为什么我必须将 Vinyl-source-stream 与 gulp 一起使用？

我正在尝试使用 gulp 和 browserify 来改变我的 jsx文件到 js files var gulp require gulp var browserify require browserify var reactify req
来自 REST 端点的 PHP 模拟数据

我正在围绕第三方 API 编写 PHP 包装器对于练习来说更是如此但我目前还没有在任何地方看到一个好的可用的所以也许将来它会被其他人使用我的单元测试非常简单但现在我已经达到了极限 API 的开发人员有最大请求限制每秒 1 个每
如何使提交按钮显示为链接？

这在 IE 中不起作用 text button background transparent text decoration none cursor pointer
应用程序应该处于运行状态才能触发意图吗？

我有一个非常简单的 IntentReceiver 来在时间变化时接收事件这是代码 public class IntentRec extends BroadcastReceiver Override public void onReceiv
配置文件与默认钥匙串中的任何有效证书/私钥对不匹配

我正在为一家公司开发一个应用程序他们给了我管理员角色以便我可以编辑配置文件我在 XCode 上收到找不到分发文件的有效签名身份和配置文件与默认钥匙串中的任何有效证书私钥对不匹配错误通常我会通过创建密钥链来撤销分发配置文件我
Facebook SSO 如何知道要返回哪个应用程序？

使用 Facebook SSO 单点登录在系统提示用户授予使用其 Facebook 帐户的权限后它会将用户引导回正在运行 SSO 的应用程序 FB SSO 具体是如何实现这一目标的授予权限后如何知道要重新打开哪个应用程序我们正在构建
如何消除 ☎ unicode？

在网页抓取过程中在删除所有 html 标签后我得到了 unicode 中的黑色电话字符 u260e 但不同于这个回应 https stackoverflow com questions 7266842 character u260e我也

如何消除 ☎ unicode？

如何消除 ☎ unicode？ 的相关文章

随机推荐

热门标签

如何消除 ☎ unicode？的相关文章