如何提高Python循环速度？

2024-02-08

我有一个包含 370k 记录的数据集，存储在 Pandas Dataframe 中，需要集成。我尝试了多处理、线程、Cpython 和循环展开。但我没有成功，显示的计算时间是 22 小时。任务如下：

%matplotlib inline  
from numba import jit, autojit
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

with open('data/full_text.txt', encoding = "ISO-8859-1") as f:
 strdata=f.readlines()
data=[]

for string in strdata:
 data.append(string.split('\t'))

df=pd.DataFrame(data,columns=["uname","date","UT","lat","long","msg"])

df=df.drop('UT',axis=1)

df[['lat','long']] = df[['lat','long']].apply(pd.to_numeric)

from textblob import TextBlob
from tqdm import tqdm

df['polarity']=np.zeros(len(df))

线程：

 from queue import Queue
 from threading import Thread
 import logging
 logging.basicConfig(
 level=logging.DEBUG,
  format='(%(threadName)-10s) %(message)s',
  )


class DownloadWorker(Thread):
   def __init__(self, queue):
       Thread.__init__(self)
       self.queue = queue

   def run(self):
       while True:
           # Get the work from the queue and expand the tuple
         lowIndex, highIndex = self.queue.get()
         a = range(lowIndex,highIndex-1)
         for i in a:
            df['polarity'][i]=TextBlob(df['msg'][i]).sentiment.polarity
         self.queue.task_done()

  def main():
   # Create a queue to communicate with the worker threads
   queue = Queue()
   # Create 8 worker threads
   for x in range(8):
     worker = DownloadWorker(queue)
     worker.daemon = True
     worker.start()
  # Put the tasks into the queue as a tuple
   for i in tqdm(range(0,len(df)-1,62936)):
     logging.debug('Queueing')
     queue.put((i,i+62936 ))
     queue.join()
     print('Took {}'.format(time() - ts))

 main()

带循环展开的多处理：

pool = multiprocessing.Pool(processes=2)
r = pool.map(assign_polarity, df)
pool.close()

def assign_polarity(df):
   a=range(0,len(df),5)
   for i in tqdm(a):
       df['polarity'][i]=TextBlob(df['msg'][i]).sentiment.polarity
       df['polarity'][i+1]=TextBlob(df['msg'][i+1]).sentiment.polarity
       df['polarity'][i+2]=TextBlob(df['msg'][i+2]).sentiment.polarity
       df['polarity'][i+3]=TextBlob(df['msg'][i+3]).sentiment.polarity
       df['polarity'][i+4]=TextBlob(df['msg'][i+4]).sentiment.polarity

如何提高计算速度？或者以更快的方式将计算存储在数据框中？我的笔记本电脑配置

Ram: 8GB
物理核心：2
逻辑核心：8
Windows 10

实现多重处理给了我更长的计算时间。线程是按顺序执行的（我认为是因为 GIL）循环展开给了我相同的计算速度。 Cpython 在导入库时给我错误。

ASD——我注意到迭代地在 df 中存储一些东西非常慢。我会尝试将 TextBlob 存储在列表（或其他结构）中，然后将该列表转换为 df.txt 的列。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

parallelprocessing

Iteration

Computation

如何提高Python循环速度？的相关文章

从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x

随机推荐

在 Visual Basic 2008 中获取当前日期

我不知道如何在 Visual Basic 2008 中获取当前日期这是一个示例代码 regDate Format Date Now ddMMMyyyy 输出类似于 7 02 1900 需要帮忙用户可以使用这个 Dim todaysdat
Eclipse 报告“无法加载 JNI 共享库”[重复]

这个问题在这里已经有答案了我无法打开 Eclipse 因为我收到一条警告无法加载 JNI 共享库 C Program Files x86 eclipse jre bin client jvm dll 我在 YouTube 上找到了一种解
有什么反对 bitnami.org Ruby/Rails/Redmine Stack 的言论吗？

我希望在本地工作站的 Windows 虚拟机上设置 Redmine 服务器背景于这个相关问题 https stackoverflow com questions 2396307 starting with redmine locally
当尝试选择用appendChild()注入的节点时，如何防止Range.selectNode()选择过多的DOM？

我遇到了使用组合的问题appendChild and Range selectNode 在 JavaScript 中当尝试使用范围来选择新附加的
当两个引用的程序集都定义类型 A.A1 时出现问题

如果两个程序集都定义namespace A含有class A1 那么这两个类被认为是唯一类型 a 这两个命名空间是否也被认为是唯一的 b If program P都有对两个程序集的引用我们如何创建这两种类型的实例也就是说当我尝试创建一
在 MySQL 中选择所有行都满足条件

在MySQL中如何选择每行都满足特定条件的数据例如假设我有一个表显示员工何时到达工作地点它具有三个字段 CREATE TABLE ArrivalTimes UserID INT Day DATE ArrivalTime TIME 我
如何通过 SwiftyJson 和 Alamofire 发布嵌套 json？

如何通过 SwiftyJson 和 Alamofire 将如下所示的嵌套 json 作为方法主体发布 Swift 3 a a1 v1 a2 v2 b bv 我查了很多帖子使用 alamofire 在 swift 中 Json 发布嵌套对象
如何以编程方式将 SWF 嵌入到 PDF 中？

是否可以通过 C 应用程序以编程方式将 SWF 嵌入到 PDF 中您可以使用 iText 库的 C 端口它被称为 iTextSharp http itextsharp com http itextsharp com 代码示例如下 cre
获取场景图中具有 styleClass 的所有节点

我想在我的程序中定义全局搜索我的程序在一个场景中有很多节点不同节点上有很多共同的东西可以被搜索我考虑定义一个可搜索的类和一个在每个节点中搜索的方法因此当我通过类选择器搜索时我将能够到达所有节点为用户突出显示它们例如如果 S
Windows Phone 内存泄漏 90MB - 只有两个静态页面

我创建了两个尽可能基本的 XAML 页面静态页面 xaml 显示内存使用情况 MemoryTest xaml 的链接内存测试 xaml 不执行任何操作只是显示 10 个左右的文本块每个文本块带有 Text This is some
在弹出窗口中显示部分视图[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我是 MVC 框架的新手我需要您的
如何在知道线程 id 的情况下获取消息线程 URL？

有如果我有消息 ID 如何构建链接以查看 facebook com 上的消息 http facebook stackoverflow com questions 7747622 how can i construct a link to v
jquery mobile 和 ui 不兼容

尽管有很多人提到类似的兼容性问题但 50 的问题在 StackOverflow 上得到了解决我希望我的问题能够成为 51 49 考虑这段代码
macOS 公证：找不到 altool

我想开始构建一个公证自动化脚本但是当我尝试在终端中使用 xcrun altool 时出现以下错误 xcrun error unable to find utility altool not a developer tool or in
如何正确引用本地XML Schema文件？

我在 XML 文件中引用 XML 架构时遇到此问题我的 XSD 位于此路径中 C environment workspace maven ws ProjectXmlSchema email xsd 但是当我在 XML 文件中尝试像这样查
服务器标记格式不正确

这真是太愚蠢了但却让我快疯了
堆叠 UITableViews 不会在其视图下方传递触摸事件

我将 3 个 UIView 堆叠在一起 UI表格视图平面视图根视图 TableView 位于顶部 rootView 位于底部 rootView 不可见因为 TableView 在它上面我在 rootView 中实现了以下代码 code
错误 TS2707 通用类型“ɵɵDirectiveDeclaration”需要 6 到 8 个类型参数

安装角度材料并将角度材料导入 app module ts 添加到项目后我遇到错误并且到目前为止所有解决方案都不起作用我的角度为 14 节点为 16 第一个错误实际上要长得多 Error node modules angular cd
如何使用 Python 从巨大的 Excel 工作表中提取特定行的数据？

我需要获取其中包含某些关键字名称的特定数据行并将它们写入另一个文件起始文件是 1 5 GB Excel 文件我不能只是打开它并将其另存为不同的格式我应该如何使用 python 处理这个问题我是 xlrd 的作者和维护者请编辑您
如何提高Python循环速度？

我有一个包含 370k 记录的数据集存储在 Pandas Dataframe 中需要集成我尝试了多处理线程 Cpython 和循环展开但我没有成功显示的计算时间是 22 小时任务如下 matplotlib inline fro

如何提高Python循环速度？

如何提高Python循环速度？ 的相关文章

随机推荐

热门标签

如何提高Python循环速度？的相关文章