pandas

在 pandas dataframe python 列中搜索单词

我有两个文本列我想查找一列中的单词是否存在于另一列中我编写了下面的代码它运行得很好但它会检测字符串中的任何位置是否存在单词例如它将在 ham 中查找 ha 我想改用正则表达式但我被困住了我遇到了这个post https st

python regex pandas

从 pandas 数据帧创建 BigQuery 表，无需显式指定架构

我有一个 pandas 数据框想从中创建一个 BigQuery 表我知道有很多帖子询问这个问题但到目前为止我能找到的所有答案都需要明确指定每列的架构例如 from google cloud import bigquery as bq

python pandas googlebigquery

Python Pandas - “loc”和“where”之间的区别？

只是对 where 的行为以及为什么要使用它而不是 loc 感到好奇如果我创建一个数据框 df pd DataFrame ID 1 2 3 4 5 6 7 8 9 10 Run Distance 234 35 77 787 243 543

python pandas

如何计算第一和第三四分位数？

我有数据框 time diff avg trips 0 0 450000 1 0 1 0 483333 1 0 2 0 500000 1 0 3 0 516667 1 0 4 0 533333 2 0 我想获得该列的第一个四分位数第三个四

python python27 pandas NumPy

计算列中连续真实值的数量

假设我有一个数据框如下所示 df pd DataFrame A 1 1 1 1 1 0 0 1 1 0 1 1 1 1 1 0 0 0 0 0 1 1 然后我将其转换为布尔形式 df eq 1 Out 213 A 0 True 1 Tr

python pandas Boolean cumsum

如何从Python文件中查找每个工作角色的平均工资

我想写一个python代码来查找平均工资对于每种类型的工作角色我认为您这样做是为了学习如何使用 Python 编写此类代码的练习那么这种仅使用基本 Python 命令和类型的方法应该会有所帮助 read file content wit

python pandas Average

将 csv 文件转换为 pandas 数据框

我有一个以下格式的 CSV 文件 DATES 01 12 2010 01 12 2010 01 12 2010 02 12 2010 02 12 2010 02 12 2010 UNITS Hz kV MW Hz kV MW Interva

pandas

用 pandas 查找树中叶节点的所有祖先

我有一个表有两列父和子这是从 SAP ERP 下载的 SETNODE 表需要在 python 中创建一个数据框其中每个级别作为其自己的列相对于其父级和之前的所有级别在Python 3 中完整关系的级别数量未知或始终变化

python python3x pandas DataFrame Tree

应用函数创建以多列作为参数的字符串

我有一个像这样的数据框 name size type av size type 0 John 23 Qapra 22 1 Dan 21 nuk neH 12 2 Monica 12 kahless 15 我想用一个句子创建一个新列如下所示

python pandas DataFrame pandasapply

Python 视图与复制错误希望我仅在脚本中使用 .loc

我正在运行一个很长的脚本其中有一个数据框df 随着脚本运行构建和修改df我在命令行中一列又一列地收到此错误尝试在 DataFrame 的切片副本上设置一个值尝试使用 loc row indexer col indexer valu

python pandas

如何在 Pandas 中叠加“一天”内的数据进行绘图

我有一个数据框里面有一些更有意义数据格式如下 In 67 df Out 67 latency timestamp 2016 09 15 00 00 00 000000 0 042731 2016 09 15 00 16 24 3769

python python27 pandas matplotlib plot

如何使用 pandas groupby 函数根据 groupby 值应用公式

我的问题可能有点令人困惑所以让我解释一下我有一个信息数据框我想按唯一订单 ID 对其进行分组该 ID 将生成以下列 sum qty 每个订单 ID 执行的总金额 csv 这是每个订单 ID 的 csv 列的总和除以订单 ID 的已执

python pandas DataFrame

使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整

python sqlserver pandas python27 hive

如何使用python将dataframe的行数据转换为json中的列名作为键，行数据作为值

我在转换数据帧的按行数据时遇到问题其中列名作为键行数据作为值我想将此按行 json 传递给另一个 API 作为输入我无法获取此 json 数据 for row in df iterrows out row to json orien

json python3x pandas

pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它

pandas PySpark

Python 字典组并对多个值求和[重复]

这个问题在这里已经有答案了我在字典格式列表中有一组数据如下所示 data name A tea 5 coffee 6 name A tea 2 coffee 3 name B tea 7 coffee 1 name B tea 9 co

python pandas Dictionary Sum GROUPING

根据列中的条件将 Pandas 数据框拆分为多个数据框

为了为 ML 任务正确准备数据我需要能够将原始数据帧拆分为多个较小的数据帧我想要获取上面的所有行包括 BOOL 列的值为 1 的行对于每次出现的 1 即 n 个数据帧其中 n 是 1 出现的次数数据样本 df pd DataFr

python pandas DataFrame

按位置对 MultiIndex pandas DataFrame 进行切片

我目前正在尝试按位置对具有三个级别的多索引数据帧进行切片我正在使用熊猫 19 1 Level0 Level1 Level2 Value 03 00368 A Item111 6 9 03 00368 A Item333 19 2 03 0

python pandas multiindex

为一列中的多行生成不同的随机数

我得到了一列带有整数值 n 行的列我想生成满足特定条件的值的正态分布范围内的随机数我尝试使用下面的代码但它们太慢了 df members bd df members bd apply lambda x np random norma

python pandas DataFrame

使用Python Selenium访问网页上的表对象

一段时间以来我尝试从网页中提取下表我正在尝试进入网站上不同页面的 tr 对象 1 8 我设法存储并打开页面并希望循环遍历表 tbody 其中包含 tr 对象表示我想要访问的信息行然而当运行以下代码时我只获得所有 8 个页面中的

python pandas selenium seleniumwebdriver seleniumchromedriver