在 pandas 数据框中解析/分割 URL 的 pythonic 方法

2024-02-08

我有一个 df，它在标记为 url 的列中为不同的用户提供了数千个链接，如下所示：

https://www.google.com/something
https://mail.google.com/anohtersomething
https://calendar.google.com/somethingelse
https://www.amazon.com/yetanotherthing

我有以下代码：

import urlparse

df['domain'] = ''
df['protocol'] = ''
df['domain'] = ''
df['path'] = ''
df['query'] = ''
df['fragment'] = ''
unique_urls = df.url.unique()
l = len(unique_urls)
i=0
for url in unique_urls:
    i+=1
    print "\r%d / %d" %(i, l),
    split = urlparse.urlsplit(url)
    row_index = df.url == url
    df.loc[row_index, 'protocol'] = split.scheme
    df.loc[row_index, 'domain'] = split.netloc
    df.loc[row_index, 'path'] = split.path
    df.loc[row_index, 'query'] = split.query
    df.loc[row_index, 'fragment'] = split.fragment

该代码能够正确解析和分割 url，但速度很慢，因为我正在迭代 df.txt 的每一行。有没有更有效的方法来解析 URL？

您可以使用Series.map http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.Series.map.html#pandas.Series.map在一行中完成相同的任务：

df['protocol'],df['domain'],df['path'],df['query'],df['fragment'] = zip(*df['url'].map(urlparse.urlsplit))

使用 timeit，这运行在2.31 ms每个循环而不是179 ms当在 186 个 url 上运行时，每个循环与原始方法中一样。（但请注意，代码未针对重复进行优化，并且将通过 urlparse 多次运行相同的 url。）

完整代码：

import pandas

urls = ['https://www.google.com/something','https://mail.google.com/anohtersomething','https://www.amazon.com/yetanotherthing'] # tested with list of 186 urls instead
df['protocol'],df['domain'],df['path'],df['query'],df['fragment'] = zip(*df['url'].map(urlparse.urlsplit))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

urlparse

在 pandas 数据框中解析/分割 URL 的 pythonic 方法的相关文章

Python 中的 if len(list)

我正在将 Python 代码转换为 C 代码以便利用 HPC 系统上可用的并行性最初的程序员在 Python 中使用了一个令我困惑的条件 if rnum lt gt current res alim 0 if len f alim f
如何绘制日期和月份

我有一张随时间变化的每日趋势图表年份与此处无关我只想显示日期和月份我知道你可以显示年份和月份但事实并非如此我尝试创建一个名为 Day Month 的新变量 import datetime as dt df Day df date
是否可以在 python shebang 中包含命令行选项？

我的 python 脚本顶部有规范的 shebang usr bin env python 但是当我运行脚本时我仍然经常希望将未缓冲的输出导出到日志文件因此我最终调用 python u myscript py gt myscript
当存在多个条件时替换 numpy 数组中的元素

这个问题与以下帖子相关如果满足条件则替换 Numpy 元素 https stackoverflow com questions 19766757 replacing numpy elements if condition is met 假
Python启动脚本[重复]

这个问题在这里已经有答案了我想执行一个脚本work py在Python中执行一些初始化脚本后init py 如果我正在寻找交互式会话请执行python i init py或设置PYTHONSTARTUP path to init py
如何在 SQLAlchemy 中连接两个表中的数据？

我有3张桌子 Account User and Organization Account由组成id name and organization id User由组成email and organization id Organization
如何将 python 点列表转换为 numpy 图像数组？

我有一个 python 点列表 x y 坐标 200 245 344 248 125 34 它表示二维平面上的轮廓我想使用一些 numpy scipy 算法进行平滑插值等它们通常需要 numpy 数组作为输入例如scipy ndim
使用 Python 从基于 AJAX 的网站提取信息

我正在尝试使用 Python 检索基于 ajax 的网站例如 www snapbird org 上的查询结果由于它没有显示在页面源中我不确定如何继续我是一个Python新手因此如果我能得到一个指向正确方向的指针那就太好了如果更容
修改Keras中的层权重

我正在尝试修改 Keras 中某个层的输出我有一个编码器它将时间序列转换为潜在空间之后对于每个压缩的时间序列我想向时间序列添加一些数字例如我有 input d Input 100 h1 d Reshape 100 1 input
使用 BeautifulSoup 查找 html 中的所有表

我想使用 BeautifulSoup 查找 html 中的所有表格内部表应包含在外部表中我创建了一些有效的代码并且它给出了预期的输出但是我不喜欢这个解决方案因为它使用 decompose 这会破坏汤对象你知道如何以更优雅的
尝试使用 Paramiko 通过 SSH 连接到新的 EC2 实例时出现问题

我正在编写一个脚本该脚本使用 boto 启动一个新的 EC2 实例并使用 Paramiko SSH 客户端在该实例上执行远程命令无论出于何种原因 Paramiko 客户端无法连接我收到错误 Traceback most recent
如何使用 python 子进程杀死性能记录？

我正在尝试使用性能实用程序 https www brendangregg com perf html监视我的系统它将在 python 脚本中启动和终止我创建了一个沙箱如下所示 extra params F 99 g a record
在没有 paramiko 的情况下通过 python 运行 ssh 时，“伪终端不会被分配，因为 stdin 不是终端”

我在 Python 中运行 ssh 而不使用像 Paramiko 这样的外部库我这样做有我的理由而不是通过外部库基本上我正在做subprocess Popen ssh t bla command 执行此操作时我收到以下消息 Pseud
覆盖 Autobahn/Twisted WebsocketClientProtocol 类

我想重写我的 WebSocketClientFactory 类以允许传入数据填充作业队列这是我正在尝试的连接代码 factory WebSocketClientFactory ws localhost 7096 job queue Que
清除pyqt中布局中的所有小部件

有没有办法清除删除布局中的所有小部件 self plot layout QtGui QGridLayout self plot layout setGeometry QtCore QRect 200 200 200 200 self r
联合超过 2 个 pandas 数据框

我正在尝试将 sql 查询转换为 python sql语句如下 select from table 1 union select from table 2 union select from table 3 union select fro
Django 查询集和生成器

出乎意料的是我想知道以下使用生成器迭代结果集的方式是否会对正常迭代产生任何积极或消极的影响 eg def all items generator for item in Item objects all yield item for it
如何从本地计算机或网络资源在 Jupyter Notebook 中嵌入图像或图片？

我想将图像包含在 jupyter 笔记本中如果我执行以下操作它会起作用 from IPython display import Image Image img picture png 但我想将图像包含在 markdown 单元格中并且
如何在 Apache Airflow 中混合使用 Celery Executor 和 Kubernetes Executor？

我有多个使用 Celery Executor 的 dag 但我希望使用 Kubernetes Executor 运行一个特定的 dag 我无法推断出一种良好且可靠的方法来实现这一目标我有一个airflow cfg我在其中声明了Celery
真实文件对象比 StringIO 和 cStringIO 慢？

StringIO其代码中有以下注释 Notes Using a real file is often faster but less convenient There s also a much faster implementation

随机推荐

react-hook-form：使用 onBlur 模式时验证不起作用

我正在尝试显示错误yup and react hook form当用户选择超过 5 个复选框但未成功时相反当选择第七个复选框时会显示错误这是简化的代码 imports const schema yup object shape opt
需要有关必须显示 250 000 条折线的 Google 地图应用程序的指导

我正在为我正在开发的使用 Google 地图的应用程序寻求建议 Summary 用户具有用于搜索满足条件的街道段的条件列表街道段将用 3 种颜色来表示分别是低于平均水平平均水平和高于平均水平然后用户单击街道路段查看一个信息窗口
如何在android中垂直均匀分布按钮/布局？

我有一个类似于计算器的布局每行 4 个按钮大约有 5 行我使用以下方法创建了每一行LinearLayout 我已经成功地通过使用完全填充了每行的宽度android layout weight 1 在每个按钮中LinearLayout
Flexbox：重新排序和堆叠列

我有三列我想在特定的屏幕尺寸下交换它们的顺序当前的顺序是两个 1 4 宽度的列中间有 1 2 宽度我想将两个1 4宽度的列变成1 2宽度并在开始时将它们堆叠起来我可以使用浮动来复制它但无法找到使用弹性盒的方法我正在努力让两个
替换无序列表中的值（html）+ JQuery

D1 nav d1 span text X1 会改变 span D1 span to span X1 span
通过触摸停止和启动动画。目标C

我制作了一个在屏幕上移动的动画我的动画连续循环如何在点击动画图像时停止动画然后在松开触摸时让动画继续我知道如何使用 TouchesMoved 来移动指定的按钮如下所示 CGPoint point event allTouches
virtualenv激活后“python”仍然运行系统版本

我使用以下命令安装了 Python 2 7 configure prefix usr local enable unicode ucs4 enable shared LDFLAGS Wl rpath usr local lib make m
Jupyter Lab 中的 pycwt 包出现 ModuleNotFoundError

我有一个conda环境我已经安装了wavelet包pycwt https pypi org project pycwt using conda install n myenv c conda forge pycwt 按照规定蟒蛇云 htt
ng2-文件上传访问控制来源问题

我已经使用这个库进行 angular2 文件上传https github com valor software ng2 file upload https github com valor software ng2 file upload
无法编译调用 tgkill 的程序

我正在尝试编写一个使用 tgkill 向特定线程发送信号的程序但是每当我用 gcc 编译它时我都会收到有关 tgkill 未定义引用的错误我尝试使用 lpthread 进行编译但没有帮助我用谷歌搜索了又搜索但找不到任何答案我如
.NET Excel 文件解析器

因此我工作的公司正在寻找一种方法来验证给定的 xls xlsx 文件是否有效这意味着检查列行和其他数据他让我评估 GrapeCity Spread 和 SpreadsheetGear 但我想知道是否还有其他人可以查看其他外部工具的建
如何解析flutter中的map Json列表？

I have one Json structure with three maps one is list of products then total and tax I have to parse this json structure
如何知道 npm `unzip` 模块何时完成解压文件？

我正在使用unzip来自 npm 的模块用于提取 zip 存档的内容我需要知道何时完成提取并且文件已完全写入磁盘 My code fs createReadStream master zip pipe unzip Extract path
C++ 中用于分离标头/源的模板专业化的稳健方法是什么

在中等规模甚至大型复杂项目中将模板声明和定义分开是有用的以减少编译时间然而在复杂的代码中程序员的小错误可能会导致不被注意的行为变化例如调用通用版本而不是专门化版本例子由于错过了声明模板专业化变得不可见 file A hpp
如何将 Emacs 与 Python 结合使用

我是 emacs 新手我想使用 emacs 进行 python 开发我使用的是 Ubuntu 9 10 我对让 emacs 与 python 一起工作感到沮丧我使用 GNU Emacs 23 1 50 1 x86 64 pc linu
以渐变方式绘制背景颜色

此代码生成下面的第一个图 water height lt seq 0 5 1 y lt seq 0 1500 length out 6 df lt data frame water height y library ggplot2 ggpl
vb.net 中可以实现内联函数吗？

问题在标题中我看到的答案假设您正在谈论编译或 JIT 时内联它们是完全正确的然而我听说过的内联一词的另一种用法是用于 lambda 表达式之类的东西在 C 中例如 public IEnumerable
在 Android 上安装预构建的二进制文件：“未找到”

我正在尝试在自定义 Android 映像中安装预构建的二进制文件为此我已将其复制到新目录中prebuilt android arm 与Android mk文件类似于此 LOCAL PATH call my dir include CLE
进程地址空间与虚拟内存

根据我阅读几篇文章的理解我假设进程地址空间 PAS 和虚拟内存 VM 是相同的难道是我的理解有问题有人可以解释一下这一点并启发我吗我很困惑我知道进程地址空间与 RAM 或物理内存无关但只是对 PAS 和 VM 感到困惑 Firs
在 pandas 数据框中解析/分割 URL 的 pythonic 方法

我有一个 df 它在标记为 url 的列中为不同的用户提供了数千个链接如下所示 https www google com something https mail google com anohtersomething https cal

在 pandas 数据框中解析/分割 URL 的 pythonic 方法

在 pandas 数据框中解析/分割 URL 的 pythonic 方法 的相关文章

随机推荐

热门标签

在 pandas 数据框中解析/分割 URL 的 pythonic 方法的相关文章