时间序列：每个 ID 号每天每小时的平均值

2023-11-30

我是一个有点初学者的程序员，正在学习 python (+pandas)，希望我能很好地解释这一点。我有一个大型时间序列 pd 数据框，包含超过 300 万行，最初有 12 列，跨越多年。这涵盖了从身份证号码（共 350 个）表示的不同地点取票的人。每一行都是一个实例（占用一张票）。我搜索过很多问题，例如每天每小时统计记录 and 几年来平均每小时。但是，我遇到了包含“Id”变量的麻烦。我正在寻找每小时、一周中的每一天（周一至周五）和每个车站买票的人的平均值。
我有以下内容，将日期时间设置为索引：

    Id          Start_date  Count  Day_name_no
    149 2011-12-31 21:30:00      1            5  
    150 2011-12-31 20:51:00      1            0  
    259 2011-12-31 20:48:00      1            1  
    3015 2011-12-31 19:38:00     1            4  
    28 2011-12-31 19:37:00       1            4

Using groupby and Start_date.index.hour，我似乎无法包含“Id”。

我的替代方法是将小时从日期中分离出来并具有以下内容：

    Id  Count  Day_name_no  Trip_hour
    149      1            2         5
    150      1            4         10
    153      1            2         15
    1867     1            4         11
    2387     1            2         7

然后我首先得到计数：

Count_Item = TestFreq.groupby([TestFreq['Id'], TestFreq['Day_name_no'], TestFreq['Hour']]).count().reset_index()

     Id Day_name_no Trip_hour   Count
     1  0           7          24
     1  0           8          48
     1  0           9          31
     1  0           10         28
     1  0           11         26
     1  0           12         25

然后使用 groupby 和mean：

Mean_Count = Count_Item.groupby(Count_Item['Id'], Count_Item['Day_name_no'], Count_Item['Hour']).mean().reset_index()

然而，这并没有给出期望的结果，因为平均值不正确。我希望我已经清楚地解释了这个问题。我正在寻找每个 ID 每天每小时的平均值，因为我计划在对这些组应用预测模型之前进行聚类以将数据集分成组。

任何帮助将不胜感激，如果可能的话，请解释我做错了什么，无论是代码方面还是我的方法。

提前致谢。

我对此进行了编辑，试图使其更清晰一些。在睡眠不足的情况下写问题可能是不可取的。我从一个玩具数据集开始：

    Date        Id     Dow Hour Count
    12/12/2014  1234    0   9   1
    12/12/2014  1234    0   9   1
    12/12/2014  1234    0   9   1
    12/12/2014  1234    0   9   1
    12/12/2014  1234    0   9   1
    19/12/2014  1234    0   9   1
    19/12/2014  1234    0   9   1
    19/12/2014  1234    0   9   1
    26/12/2014  1234    0   10  1
    27/12/2014  1234    1   11  1
    27/12/2014  1234    1   11  1
    27/12/2014  1234    1   11  1
    27/12/2014  1234    1   11  1
    04/01/2015  1234    1   11  1

我现在意识到我必须首先使用日期并得到类似的东西：

    Date         Id    Dow Hour Count
    12/12/2014  1234    0   9   5
    19/12/2014  1234    0   9   3
    26/12/2014  1234    0   10  1
    27/12/2014  1234    1   11  4
    04/01/2015  1234    1   11  1

然后计算每个 Id、每个 Dow、每小时的平均值。并想要得到这个：

    Id  Dow Hour    Mean
    1234    0   9   4
    1234    0   10  1
    1234    1   11  2.5

我希望这能让它更清楚一些。我的真实数据集跨越 3 年，包含 300 万行，包含 350 个 ID 号。

你的问题不是很清楚，但我希望这对你有帮助：

df.reset_index(inplace=True)
# helper columns with date, hour and dow
df['date'] = df['Start_date'].dt.date
df['hour'] = df['Start_date'].dt.hour
df['dow'] = df['Start_date'].dt.dayofweek
# sum of counts for all combinations
df = df.groupby(['Id', 'date', 'dow', 'hour']).sum()
# take the mean over all dates
df = df.reset_index().groupby(['Id', 'dow', 'hour']).mean()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

时间序列：每个 ID 号每天每小时的平均值的相关文章

补丁 - 为什么相对补丁目标名称不起作用？

我已经从模块导入了一个类但是当我尝试修补类名而不使用模块作为前缀时出现类型错误 TypeError Need a valid target to patch You supplied MyClass 例如以下代码给出了上述错误 imp
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
保留完整姓氏，在 pandas 列中获取名字的首字母（如果有的话，还有中间名）

我有一个 pandas 数据框其中有一列表示几位网球运动员的姓氏和姓名如下所示 Player 0 Roddick Andy 1 Federer Roger 2 Tsonga Jo Wilfred 我想保留完整的姓氏并获取姓名的首字母和中
删除 Django 1.7 中的应用程序（和关联的数据库表）

是否可以使用 Django 1 7 迁移来完全删除卸载应用程序及其所有跟踪主要是其所有数据库表如果没有在 Django 1 7 中执行此操作的适当方法是什么 python manage py migrate
Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
如果未引发异常，则通过 Python 单元测试

在Python中unittest框架是否有一种方法可以在未引发异常的情况下通过单元测试否则会因 AssertRaise 而失败如果我正确理解你的问题你could做这样的事情 def test does not raise on va
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
Django send_mail SMTPSenderRefused 530 与 gmail

一段时间以来我一直在尝试使用 Django 从我正在开发的网站接收电子邮件现在我还没有部署它并且我正在使用Django开发服务器我不知道这是否会影响它这是我的 settings py 配置 EMAIL BACKEND djang
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
.pyx 文件出现未知文件类型错误

我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误检查以下输出 python setup py build running build running build py creating b
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
Python：IndexError：修改代码后列表索引超出范围

我的代码应该提供以下格式的输出我尝试修改代码但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
ANTLR 获取并拆分词法分析器内容

首先对我的英语感到抱歉我还在学习我为我的框架编写 Python 模块用于解析 CSS 文件我尝试了 regex ply python 词法分析器和解析器但我发现自己在 ANTLR 中第一次尝试我需要解析 CSS 文件中的注释
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
python 线程安全可变对象复制

Is 蟒蛇的copy http docs python org 2 library copy html模块线程安全吗如果不是我应该如何在 python 中以线程安全的方式复制 deepcopy 可变对象蟒蛇的GIL http en w
将上下文管理器的动态可迭代链接到单个 with 语句

我有一堆想要链接的上下文管理器第一眼看上去 contextlib nested看起来是一个合适的解决方案但是此方法在文档中被标记为已弃用该文档还指出最新的with声明直接允许这样做自 2 7 版起已弃用 with 语句现在支持此
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练

随机推荐

如何在不强制兼容模式的情况下让IE8显示汉字？

所有解决方案这个问题说使用它之所以有效是因为它强制浏览器在兼容性视图中呈现即就像 IE7 一样但当用户实际使用 IE7 或许多其他浏览器时字符不会显示相反我看到了正方形还有其他人遇到过这种情况吗你是怎么处理的在CSS中
Keycloak Docker 需要 HTTPS

我已经初始化了https hub docker com r jboss keycloak 在我的 Digital Ocean Docker Droplet 上 docker run e KEYCLOAK USER admin e p 808
如何消除文本图像的倾斜并检索该图像的新边界框 Python OpenCV？

这是我得到的收据图像我使用 matplotlib 绘制了它如果您看到该图像则其中的文本不直我怎样才能去歪斜并修复它 from skimage import io import cv2 x1 y1 x2 y2 x3 y3 x4 y4
如何根据与其关联的 ngModel 检查单选按钮

我正在编写一个简单的 Angular 7 页面其中包含 2 个单选按钮和一个文本输入当页面加载时 ngOnInit 方法执行对数据库的调用并检索一些应反映在单选按钮和文本输入上的数据我无法根据从数据库检索到的值在页面打开时选择单选按钮
使用 SciPy 或 NumPy 生成具有指定权重的离散随机变量

我正在寻找一个简单的函数它可以根据相应的也指定的概率生成指定随机值的数组我只需要它来生成浮点值但我不明白为什么它不能生成任何标量我可以想出很多从现有函数构建这个函数的方法但我想我可能只是错过了一个明显的 SciPy 或 Num
如何使用 PHP SDK 检查当前 facebook 用户是否喜欢某个页面？

我如何检查当前 Facebook 用户是否喜欢某个 Facebook 页面我有这个代码 require once path to sdk facebook php Create our Application instance repla
如何回复 GKTurnBasedExchange？ GKLocalPlayerListener 委托收到的 ExchangeReplies 被间歇性调用

有一些帖子讨论了 Game Center 的推送通知在沙箱中相当不可靠然而沙箱在 iOS 9 中被混淆了所以我不确定为什么我的 Game Center 推送通知如此不可靠当我回复活跃的交换时发件人很少收到通知 exchange r
Facebook Graph API - 来自事件的大图像？

因此我目前正在尝试从我为我所在的组织创建的 FB 页面检索事件图像当调用 graph facebook com event id picture 时我得到一个小得离谱的 50x50 图像但是文档列出了 type 参数的一些大小 h
在市场上找不到应用程序

我在 Asus Transform 上手动安装了我的应用程序的 apk 它工作正常我将其部署在市场上但我找不到它我可以使用我的 Samsung Galaxy Ace 找到它我应该在我的清单上设置一些内容吗谢谢编辑清单文件
在 Windows x64 模式下打开命令窗口

我有一个安装在 x64 中的应用程序我想在 x64 命令提示符下执行此 EXE CASE 1 如果我以管理员身份手动打开命令提示符 Start gt Type cmd exe gt Right click gt Run as Admini
如何从 Soap Web Response 获取元素数据？网络

我正在尝试从网络服务获取数据只返回一个结果即给定商品的库存数量我成功获得了结果但需要从中删除所有 XML 代码以简单返回数字返回的 XML 如下所示
在 Python 3.6+ 中按位置高效访问字典项目

我理解字典是Python 3 6 中的插入顺序作为 3 6 中的实现细节和 3 7 中的官方版本 Given they are ordered it seems strange that no methods exist to retri
生成正则表达式的所有匹配项

对于用户选择我想提供与给定正则表达式匹配的数字列表正则表达式本身非常简单只能看起来像这样123 0 9 0 9 or 4 9 34 2 我发现Fare https github com moodmosaic Fare 正在以某种方式完
Haskell 中元组的模式匹配相等性

对于这个关于元组对称相等的函数 symEq Eq a gt a a gt a a gt Bool symEq x y u v x y u v x y v u 想使用模式匹配重写它如下所示 symEq Eq a gt a a gt a a
根据 Django 管理中的相关类别限制子类别下拉列表中的选择

我有三个模型 class Category models Model name models CharField max length 128 class SubCategory models Model category models F
如何正确解析本地XML？

我是 iOS 编程新手现在我正在尝试解析本地 XML 文件它工作正常并在 NSLog 中显示名称但是当我将同样的东西粘贴到上面时它只显示了一次谁能指导我如何在日志中再次显示相同的字符串这是我第一次尝试解析时的本地 XML 它显示
如何在 443 上运行 Nodejs 服务器，确保 nginx 不会停止工作

我的 Nginx 默认文件如下所示 server listen 80 server name humanfox com www humanfox com rewrite https www humanfox com 1 permanent
如何使用 RichEditViewer 在 Inno Setup 中添加可点击链接到自定义页面？

如何添加可点击的链接RichEditViewer在 Inno 设置中我尝试了这个解决方案如何向自定义 Inno Setup WelcomeLabel 添加可点击链接使用下面的代码 Code var Page TWizardPage pr
Office 加载项（任务窗格）默认情况下如何不显示

我有一个任务窗格 Office 加载项 https msdn microsoft com en us library office fp123523 aspx 在注册的 Office 365 网站上当用户从该网站上的文档库打开电子表格时
时间序列：每个 ID 号每天每小时的平均值

我是一个有点初学者的程序员正在学习 python pandas 希望我能很好地解释这一点我有一个大型时间序列 pd 数据框包含超过 300 万行最初有 12 列跨越多年这涵盖了从身份证号码共 350 个表示的不同地点取票的人

时间序列：每个 ID 号每天每小时的平均值

时间序列：每个 ID 号每天每小时的平均值 的相关文章

随机推荐

热门标签

时间序列：每个 ID 号每天每小时的平均值的相关文章