处理推文时使用 JSON 或正则表达式

2024-01-09

哪种方法更快，使用 JSON 解析器（python 2.6）或正则表达式来获取相关数据。由于数据量巨大，我认为使用一种方法与其他方法相比在时间上会有很大差异。

假设你在问什么......

我相信您会问，通过反序列化序列化 JSON 字符串或通过正则表达式搜索相关匹配项来从序列化 JSON 字符串获取信息是否更快。

快速回答

根据我在序列化 JSON 中的活动流对象（推文、转发或引用）中查找单个键值对的非官方经验，使用正则表达式比解析整个 JSON 对象更好.

Why?

这是因为推文是相当大的，当您处理数十万个时，反序列化entireJSON 字符串并随机访问单个键值对生成的 JSON 对象就像使用大锤敲开坚果一样。

潜在的剧情漏洞...

然而，当键在不同的嵌套级别重复时，就会出现问题。

例如，引号有一个根级别属性，称为twitter_quoted_status其中包含此引用对象引用的推文的副本。

这意味着any属性名称共享者推文和引用如果您使用正则表达式搜索序列化的报价对象，将返回至少 2 个匹配项。

由于您不能也不应该依赖 JSON 对象中属性顺序的可靠性（字典键应该是无序的！），您甚至不能依赖您想要的第一个或第二个（或其他）匹配如果您到目前为止已经识别出该模式，则匹配。

目前我可以与您分享的唯一证据是，要从 100,000 个原始推文对象（没有引用或转发）中检索单个键值对，在使用反序列化方法时，我的桌面往往需要 8-14 秒，并且使用正则表达式时为 0-2。

免责声明

数字是近似值并且来自记忆。抱歉，只是提供一个快速答案，目前我没有工具来测试此问题并发布调查结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

json

python26

处理推文时使用 JSON 或正则表达式的相关文章

如何删除 PyCharm 中的项目？

如果我关闭一个项目然后删除该项目文件夹则在 PyCharm 重新启动后会再次创建一个空的项目文件夹只需按顺序执行以下步骤即可他们假设您当前在 PyCharm 窗口中打开了该项目单击文件 gt 关闭项目关闭项目在 PyCha
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
PHP URL 验证

我知道有无数的线程问这个问题但我一直无法找到一个可以帮助我解决这个问题的线程我基本上试图解析大约 10 000 000 个 URL 的列表确保它们根据以下标准有效然后获取根域 URL 此列表包含您能想象到的几乎所有内容包括类似的内
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
Slim 3 - 斜杠作为路由参数的一部分

我需要使用可以包含斜杠的参数来编写 URL 例如经典的 hello username 路线默认情况下 hello Fabien将匹配此路线但不匹配 hello Fabien Kris 我想问你如何在 Slim 3 框架中做到这一点
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt

随机推荐

为什么视频观看速度这么慢？

我在我的应用程序中放置了一个视频视图它工作正常但是当您打开页面时它需要永远加载缓冲无论如何我可以解决这个问题吗我的意思是这是一个3秒视频加载时间应该不会太长正确的 code package jslsoftware co nr
是否可以为命名类型/结构定义相等性？

读完一篇后相关问题 https stackoverflow com questions 20297503 slice as a key in map关于在映射中使用切片我对 Go 中的相等性感到好奇我知道可以覆盖equalsJava 的
检测亮图像和暗图像

我从 stackoverflow 答案中得到了这段代码来检测明亮和黑暗的图像问题是它不起作用我不知道为什么例如如果我打电话 IsDark bitmap 40 0 9 this always sees the image as brig
我可以在 C++ 中嵌套 try-catch 块吗？

我可以嵌套 try catch 块吗例如 void f try Some code try Some code catch ExceptionA a Some specific exception handling Some code c
使用网络摄像头、OpenCV 和 Python 跟踪眼瞳位置

我正在尝试建造一个可以通过基本的眼球运动来控制的机器人我将网络摄像头对准我的脸根据我瞳孔的位置机器人会以某种方式移动如果瞳孔位于眼睛的上下左右角机器人将分别向前向后向左向右移动我最初的计划是使用眼哈尔级联来找到我的左
如何对多个wordpress自定义字段值进行排序？

显示按价格自定义字段排序的产品类型的帖子 query new WP Query array post type gt product orderby gt meta value meta key gt price 如果还想按尺寸
git stash save 和 git stash push 有什么区别？

我应该什么时候使用git stash save代替git stash push反之亦然 git stash save接受一个非选项参数隐藏消息 git stash push接受带有选项的消息 m并接受要存储的文件列表作为参数
如何将用户输入转换为列表[重复]

这个问题在这里已经有答案了我想编写一个Python程序要求用户输入7个数字该输入应转换为列表并首先显示单个数字然后显示整个列表所以我的想法是从 for 循环开始 for a in range 1 8 number int inpu
Mobile Safari 文本输入宽度错误？

看看这些屏幕截图 https i stack imgur com 1TFuj png https i stack imgur com 1TFuj png https i stack imgur com 3fukT png https i s
设置 » JavaScript 的 document.title 中的 HTML 实体？

我正在设置document title使用 JavaScript 但我找不到提供的方法 raquo 而不显示为文字文本这是我的代码 document title Home raquo site com 如果我使用在文档的标题标签中它工
Rails 在控制器中异步执行任务

当我的路线中有一条路线时我需要执行三项任务Controller叫做现在我的代码看起来像这样缩写 def set quotas TaskOne new ex TaskTwo new ex TaskThree new ex quotas
如何将svn分支和标签导入git-svn？

我有一个必须提交的中央 SVN 存储库但我对 git 充满热情就像我认识的任何其他开发人员一样此案众所周知然后我读到了 git svn 并尝试了一下由于我不需要完整的历史记录只需要两个月左右的时间我确实喜欢这样 git svn
如何使用 OpenCv 查找图像上的角点

我正在尝试找到图像上的角点我不需要轮廓只需要 4 个角点我将使用 4 个角来改变视角我正在使用 Opencv 但我需要知道找到角点的步骤以及我将使用什么函数 My images will be like this without r
检查 Android 设备上的 NFC 功能

这是为了回应question https stackoverflow com questions 5805034 detecting nfc on android devices Step 1 Put this in your manife
Z3 对指数的支持

我是 Z3 的新手我试图了解它是如何工作的以及它能做什么和不能做什么我知道Z3至少有some通过幂运算符支持指数请参阅Z3py 使用 pow 函数返回未知方程 https stackoverflow com questions 3
如何使用 Java 计算 Selenium WebDriver 中的 HTML 子标签数量

在 Selenium JAVA WebDriver 中如何计算子标签例子 div class subcategory container div class products container div class product ro
MongoDB - 多对多关系？

我很好奇如何构建一个具有多对多关系可能有数万条记录的 MongoDB 假设您有一个餐厅数据库可以跟踪大量餐厅以及所有入住过这些餐厅的人因此用户可能想要查找一个人并查看他们已签到的所有餐厅而且还想查找一家餐厅并查看所有已签到的人如
“react-native弹出”：无法识别的命令“弹出”

我正在尝试为我的反应本机项目重新创建 ios 和 android 文件夹据我所知这是通过以下命令完成的 react native eject 但我收到错误 error Unrecognized command eject 我做错了什么吗
从 ItemDataBound 事件中的转发器控件获取值

如何在 ItemDataBound 事件中获取转发器控件的值我写了下面的asp代码
处理推文时使用 JSON 或正则表达式

哪种方法更快使用 JSON 解析器 python 2 6 或正则表达式来获取相关数据由于数据量巨大我认为使用一种方法与其他方法相比在时间上会有很大差异假设你在问什么我相信您会问通过反序列化序列化 JSON 字符串或通过正则表达式

热门标签