Pandas：将知识产权解析为国家/地区的最快方式

2024-02-27

我有一个函数find_country_from_connection_ip它需要一个 ip，经过一些处理后返回一个国家/地区。就像下面这样：

def find_country_from_connection_ip(ip):
    # Do some processing
    return county

我正在使用里面的功能apply方法。像下面这样：

df['Country'] = df.apply(lambda x: find_country_from_ip(x['IP']), axis=1)

因为它非常简单，所以我想要的是从 DataFrame 中的现有列评估新列，该列具有>400000 rows.

它运行，但速度非常慢，并抛出如下异常：

…………：设置复制警告：尝试在 DataFrame 的切片副本上设置一个值。尝试使用 .loc[row_indexer,col_indexer] = value 代替

请参阅文档中的警告：http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

if name == 'main': 在[38]中：

我明白这个问题，但不太清楚如何使用loc with apply and lambda.

注意：请建议您是否有更有效的替代解决方案，可以带来最终结果。

**** 编辑 ********

该函数主要是查找mmdb数据库如下：

def find_country_from_ip(ip):
    result = subprocess.Popen("mmdblookup --file GeoIP2-Country.mmdb --ip {} country names en".format(ip).split(" "), stdout=subprocess.PIPE).stdout.read()
    if result:
        return re.search(r'\"(.+?)\"', result).group(1) 
    else:
        final_output = subprocess.Popen("mmdblookup --file GeoIP2-Country.mmdb --ip {} registered_country names en".format(ip).split(" "), stdout=subprocess.PIPE).stdout.read()
        return re.search(r'\"(.+?)\"', final_output).group(1)

然而，这是一个代价高昂的操作，当你有一个带有以下内容的 DataFrame 时>400000行，应该需要时间。但多少钱呢？就是那个问题。大约需要2个小时，我想这也差不多了。

我会用maxminddb-geolite2(GeoLite) 模块。

首次安装maxminddb-geolite2 module

pip install maxminddb-geolite2

Python代码：

import pandas as pd
from geolite2 import geolite2

def get_country(ip):
    try:
        x = geo.get(ip)
    except ValueError:
        return pd.np.nan
    try:
        return x['country']['names']['en'] if x else pd.np.nan
    except KeyError:
        return pd.np.nan

geo = geolite2.reader()

# it took me quite some time to find a free and large enough list of IPs ;)
# IP's for testing: http://upd.emule-security.org/ipfilter.zip
x = pd.read_csv(r'D:\download\ipfilter.zip',
                usecols=[0], sep='\s*\-\s*',
                header=None, names=['ip'])

# get unique IPs
unique_ips = x['ip'].unique()
# make series out of it
unique_ips = pd.Series(unique_ips, index = unique_ips)
# map IP --> country
x['country'] = x['ip'].map(unique_ips.apply(get_country))

geolite2.close()

Output:

In [90]: x
Out[90]:
                     ip     country
0       000.000.000.000         NaN
1       001.002.004.000         NaN
2       001.002.008.000         NaN
3       001.009.096.105         NaN
4       001.009.102.251         NaN
5       001.009.106.186         NaN
6       001.016.000.000         NaN
7       001.055.241.140         NaN
8       001.093.021.147         NaN
9       001.179.136.040         NaN
10      001.179.138.224    Thailand
11      001.179.140.200    Thailand
12      001.179.146.052         NaN
13      001.179.147.002    Thailand
14      001.179.153.216    Thailand
15      001.179.164.124    Thailand
16      001.179.167.188    Thailand
17      001.186.188.000         NaN
18      001.202.096.052         NaN
19      001.204.179.141       China
20      002.051.000.165         NaN
21      002.056.000.000         NaN
22      002.095.041.202         NaN
23      002.135.237.106  Kazakhstan
24      002.135.237.250  Kazakhstan
...                 ...         ...

Timing:对于 171.884 个唯一 IP：

In [85]: %timeit unique_ips.apply(get_country)
1 loop, best of 3: 14.8 s per loop

In [86]: unique_ips.shape
Out[86]: (171884,)

结论：这将需要大约。在我的硬件上为您提供 400K 唯一 IP 的 DF 需要 35 秒：

In [93]: 400000/171884*15
Out[93]: 34.90726303786274

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

GEO

Pandas：将知识产权解析为国家/地区的最快方式的相关文章

Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败

随机推荐

AWS XRay 与适用于 NodeJS 的 AWS 开发工具包 v3

有没有办法将 XRay 仪器用于 AWS NodeJS SDK v3 在 SDK v2 中 AWSXray 能够捕获任何客户端并对其进行检测以跟踪到 XRay 我一直在使用 v3 尝试同样的事情代码片段如下 const DynamoDBC
Python工具Poetry如何知道项目虚拟环境的路径？

我的问题 Python工具Poetry如何知道项目虚拟环境的路径解释当我跑步时poetry init在目录内创建一个新项目然后我跑poetry install并创建一个新的虚拟环境但是该虚拟环境的路径和哈希值均不存储在pypro
是否有类似 stackoverflow 投票的 Ajax（原型或 JQuery 插件）示例？

有没有好的 ajax 示例可以实现类似于 stackoverflow com 的向上和向下按钮的投票您创建一个投票页面例如 yoursite com vote postid 1234 direction up 将投票保存在数据库中然后
从 JTabbedPane 中选定的选项卡获取 JTable

我有 JTabbedPane 其中包含许多动态生成的 JPanel 其中包含 JTable 如何从选定的 JTabbedPane 选项卡获取设置 JTable 已尝试使用 JTabbedPane getComponents 但它不包含任何
如何处理将 UTF-8 编码、代码页 = 65001 的文件导入 SQL Server

在挪威我们有 3 个非常烦人的角色它们会造成各种各样的问题自 sql server 2008 起 Microsoft 决定不再支持代码页 65001 我找到了一个可管理的解决方案解决使用 OPENROWSET BULK 将 UTF
如何在不使用计时器的情况下在 Windows 服务中进行循环

我想每 10 秒从 Windows 服务调用一个业务层方法使用 C 和 NET 完成但是我不想使用 Timer Elapsed 事件因为如果第一个线程进程仍在运行它会启动另一个线程进程我只需要一个单线程方法因为对同一业务方
ACE 编辑器自动补全大写关键字

我有一个带有自定义突出显示模式的 ACE 编辑器基于 sql 模式一切都工作正常但我以大写形式定义关键字当自动完成程序显示可用选项时它们全部都是小写形式我检查了旧的 sql 模式在修改之前行为完全相同有什么方法可以将此选项
在 Windows 中通过 OpenSSL 为我的 Android 应用程序创建带有自签名证书的 PKCS#12 文件

我正在编写一个 Android 应用程序需要对某些 Web 请求进行 SSL 认证我需要构建一个 PKCS12 文件 pfx 与自签名证书我决定使用 OpenSSL 库但无法在我的计算机 Windows x64 平台上构建它我想
即使我在 ADO 中的第一个位置有一个填充的记录集，EOF也会返回 true

我试图从记录集中的列中获取行然后将它们插入简单明了的表中记录集已填充我使用 MoveFirst 从 rs 的开头开始但我仍然在开始时得到 EOF true 并且它跳出了 do while 我有一个类似的功能可以工作但由于某种原因这
如何在不克隆的情况下更改对拥有值的引用？

我正在练习在阅读这本书时学到的 Rust 概念我已经能够迭代我的List枚举通过复制Box并分配list到复制的框但直观上我觉得必须有一种方法可以使其指向行中的下一个指针如果我尝试这样做而不bx clone 像这样 self li
如何在崩溃时创建进程迷你转储而不在 Windows 7 上显式运行 AdPlus？

我有一个 NET 进程有时会在某些第 3 方库的本机代码中因 AccessViolationException 而失败当发生这种情况时我希望有完整的内存迷你转储我已阅读此页 http support microsoft com kb
将数值转换为二进制 (0/1)

我有一个数据框其中包含不同人的不同种类水果的数量像下面这样 apple banana orange Tim 3 0 2 Tom 0 1 1 Bob 1 2 2 如何将其转换为二进制矩阵即如果一个人至少有一个水果无论他有多少那么我记
使用 ActiveRecord 连接到 SQL Server

您是否曾经需要使用 ActiveRecord 连接到 SQL Server 这可能吗谁能提供一些起点这是我用的从这里 http github com rails sqlserver 2000 2005 adapter tree mas
在 R/3.0.2 中安装 minqa 时出错

我正在安装lme4使用 README md 文件他们的 github 帐户 https github com lme4 lme4我在安装依赖项时失败了我尝试单独安装它们但在安装时仍然崩溃minqa包裹我在 RHEL6 上使用 R 3
数据库插入

if lines size gt 5 String Actor it next String Bio it next String More Bio it next String Reason it next String Fact it
删除已知提交 ID 的特定提交

假设我有一个包含以下提交的存储库 git 版本 1 7 1 A gt B gt C gt D gt E我的头在E 现在我想删除 C 同时保持一切相同A gt B gt D gt E 你能帮我看看该怎么做吗你可以这样做git rebase
SOA - 服务应该有多细粒度才能维持性能？

我正在接手一个项目从头开始替换一个古老的遗留系统在我加入之前该公司聘请了一位顾问他绘制了系统的基本草图并大力推行 SOA 这就产生了一长串实体服务目的是将它们组成更复杂的服务组合例如想要委员会信息的用户可以访问委员会服
PHP 5.3 + 的 ereg_replace ？

我已经看到了一个不必重新使用 PHP 5 3 的 ereg 函数的解决方案 PHP 中 eregi 的良好替代方案 https stackoverflow com questions 737198 good alternative to e
如何制作通用类型转换方法

我想做的是 bool Convert out Object output Object source find type of output convert source to that type if possible store res
Pandas：将知识产权解析为国家/地区的最快方式

我有一个函数find country from connection ip它需要一个 ip 经过一些处理后返回一个国家地区就像下面这样 def find country from connection ip ip Do some pro

Pandas：将知识产权解析为国家/地区的最快方式

Pandas：将知识产权解析为国家/地区的最快方式 的相关文章

随机推荐

热门标签

Pandas：将知识产权解析为国家/地区的最快方式的相关文章