R包实践:lubridate 处理时间数据

2023-11-20

人生有一道难题,那就是如何使一寸光阴等于一寸生命。在数据分析中也有一道难题,那就是如何自如的操作时间数据。R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它不包括时间和时区信息,另一类是POSIXct/POSIXlt类型数据,其中包括了日期、时间和时区信息。一般来讲,R语言中建立时序数据是通过字符型转化而来,但由于时序数据形式多样,而且R中存贮格式也是五花八门,例如Date/ts/xts/zoo/tis/fts等等。用户很容易被一系列的数据格式所迷惑,所以时序数据的转化和操作并不是非常方便。所幸的是,我们有了lubridate包。lubridate包主要有两类函数,一类是处理时点数据(time instants),另一类是处理时段数据(time spans)。

时点类函数,它包括了解析、抽取、修改。

# 从字符型数据解析时间,会自动识别各种分隔符
> x <- ymd('2010-04-08')
# 观察x日期是一年中的第几天
> yday(x)
# 修改x日期中的月份为5月
> month(x) <- 5

时段类函数,它可以处理三类对象,分别是:
interval:最简单的时段对象,它由两个时点数据构成。
duration:去除了时间两端的信息,纯粹以秒为单位计算时段的长度,不考虑闰年和闰秒,它同时也兼容基本包中的difftime类型对象。
period:以较长的时钟周期来计算时段长度,它考虑了闰年和闰秒,适用于长期的时间计算。以2012年为例,duration计算的一年是标准不变的365天,而period计算的一年就会变成366天。
有了时点和时段数据,就可以进行各种计算了。

# 从两个时点生成一个interval时段数据
> y <- new_interval(x,now())
# 从interval格式转为duration格式
> as.duration(y)
# 时点+时段生成一个新的时点
> now() + as.duration(y)
# 10天后的时间数据
> now() + ddays(10)
# 下面的两条语句很容易看出duration和period的区别,dyears(1)表示duration对象的一年,它永远是365天。而years(1)表示period对象的一年,它识别出2012是闰年,它有366天,所以得到正确的时点。
> ymd('20120101') + dyears(1)
[1] "2012-12-31 UTC"
> ymd('20120101') + years(1)
[1] "2013-01-01 UTC"

为了处理时区信息,lubridate包提供了三个函数:
tz:提取时间数据的时区
with_tz:将时间数据转换为另一个时区的同一时间
force_tz:将时间数据的时区强制转换为另一个时区

# 输入欧洲杯决赛在乌克兰的开场时间,再转为北京时间
eurotime <- ymd_hms('2012-07-01 21:45:00',tz='EET')
with_tz(eurotime,tzone='asia/shanghai')

最后来玩玩股票指数作为结束吧,在金融市场中谣传着一种日历效应。即在一周的第一天或者一年的第一个月份,股票会出现不错的上涨。让我们用热图来观察一下。首先是获取上证指数数据,然后根据不同的月份和星期数,将收益率汇集到不同的组中。将该组收益率的中位数映射到图形颜色上去。可以从下图看到,似乎并不存在明显周一效应或是一月效应。

library(quantmod)
library(ggplot2)
library(lubridate)
# 读取上证指数历史数据
getSymbols('^SSEC',src='yahoo',from = '1997-01-01')
time <- ymd(as.character(index(SSEC)))
open <- as.numeric(Op(SSEC))
high <- as.numeric(Hi(SSEC))
low <- as.numeric(Lo(SSEC))
close <- as.numeric(Cl(SSEC))
volume <- as.numeric(Vo(SSEC))
# 根据收盘和开盘计算当日收益率
profit <- (close-open)/open
# 提取时间数据中的周数和月份
wday <- wday(time)-1
mday <-month(time)
data <- data.frame(time,wday,mday,profit)
p <- ggplot(data,aes(factor(mday),factor(wday),z=profit))
# 收益率的热图,图中颜色越浅,表示汇集到这个组中的收益率中位数越高
p +stat_summary2d(fun=function(x) median(x))+
  opts(legend.position = "top")+ labs(x='月份',y='星期')

 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R包实践:lubridate 处理时间数据 的相关文章

  • 如何融合颜色和形状?

    当我有一个超过 6 个值的变量时 我的麻烦就开始了 因为这是 ggplot2 中 scale shape 函数的当前最大值 由于这个问题 我尝试使用另一个变量来解决这个问题 我只是将原始变量的长度包裹起来 这是我的示例代码 dataf lt
  • 如何从多边形数据中提取栅格值然后加入到空间数据框中?

    我想将多边形数据和栅格数据合并到一个数据框中 以便随后在 R 中使用 randomForests 包 这涉及首先提取每个多边形的平均栅格值 到目前为止 我有以下内容 load libraries library raster library
  • 如何在 R 中的另一个函数中使用 `sink` 函数?

    我有一个函数fun依赖于外部函数external 即来自某个包 我如何收集来自的所有警告external在字符向量中 这是一个最小的设置 External function from another package external lt
  • R:使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点?

    我有一个 R 包 它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环 很大程度上依赖于 BLAS 和 LAPACK 例程 作为 Fortran 的接口 我使用 Fortran功能 我刚刚读过乔纳森卡拉汉的博客文章 http
  • R Data.Table 创建带有条件的变量

    我需要在下面的数据集中创建一个新变量 A X a 1 b 2 c 3 d 4 e 5 f 6 g 7 h 8 i 9 j 10 The newvar如果X等于 2 5 7 或 9 否则 newvar应该是 0 Code dt1 lt dat
  • 在 R 中按组检查重叠开始和结束时间

    我想检查数据的重叠 这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
  • 删除 R 中具有重复属性的行

    我有一个大数据框 其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目 在该数据框中对于某些IDs存在多个条目 行 我想删除这些多行 显然 同一 ID 的其他属性会有所不同 或者换句话说 我只想要每个 ID 一个条目 行
  • 分组和计数以获得接近值

    我想计算每country的次数status is open以及次数status is closed 然后计算closerate per country Data customer lt c 1 2 3 4 5 6 7 8 9 country
  • 栅格堆叠后如何写入?

    我想操作几个光栅文件 然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
  • 将 read.csv 与符号链接文件一起使用

    我正在尝试做什么 我的源文件非常大 我想避免将其复制到其他文件夹中 我决定创建一个指向大文件的符号链接并想使用read csv读取文件 文件夹结构 项目1 数据 源文件 csv 项目2 数据 别名到源文件 csv 什么地方出了错 读取源文件
  • 使用starts_with() 将 NA 替换为 0

    我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头 所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点 我已经看到了有关 SO 的其他几个问题 但是它们都需要使用特
  • kmeans 对分组数据进行聚类

    目前 我尝试在分组数据中找到簇的中心 通过使用示例数据集和问题定义 我能够创建kmeans每个组内的集群 然而 当涉及到给定组的集群的每个中心时 我不知道如何获取它们 https rdrr io cran broom man kmeans
  • 以编程方式触发 R 传单中的标记鼠标单击事件以获得闪亮效果

    我的问题与此相同 在 R 传单中触发标记鼠标单击事件以获得闪亮效果 https stackoverflow com questions 56962857 trigger marker mouse click event in r leafl
  • 具有动态变量数的公式

    假设有一些 data framefoo data frame想要找到目标列的回归Y由其他一些专栏 为此目的 通常使用一些公式和模型 例如 linear model lt lm Y FACTOR NAME 1 FACTOR NAME 2 fo
  • 从向量中删除元素在 R 中出现的时间量

    我想从一个向量中删除元素在另一个向量中出现的时间 就像我要减去它们一样 鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
  • 如何从R中的日期中提取月份

    我正在使用lubridate封装并应用month从日期中提取月份的函数 我在日期字段上运行了 str 命令 得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
  • 访问 R 工作区中的数据[重复]

    这个问题在这里已经有答案了 我是自学 R 的 可能有一些非常基本的东西我可能不熟悉 如果是这样我道歉 我正在尝试访问外部来源提供给我的数据 它作为一个工作空间出现 我的流程如下 gt ls 1 2003OHT HR gt attach 20
  • 在函数中使用 quit/q 会导致 RStudio 出现致命错误

    更多的是好奇 但当你使用时q or quit在 R studio 内的函数内部 它会导致致命错误 如下所示 但 rgui 中的相同函数会导致 R 像往常一样停止 并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
  • 使用自定义渐变填充直方图箱

    我想在 R 和 ggplot2 中创建一个直方图 其中根据连续的 x 值填充箱 大多数教程仅通过离散值或密度 计数进行着色 下列的这个例子 https stackoverflow com questions 40284227 how to
  • R闪亮:使用闪亮的JS从数据表中获取信息

    我想读出所有列名称以及它们在数据表中显示的顺序 由于不同的原因 我无法使用 stateSave 等选项 我对 JS 没有什么把握 但我确信用它可以完成 所以我需要你帮助我 我尝试过类似的代码片段 datatable data callbac

随机推荐

  • DHorse v1.3.2 发布,基于 k8s 的发布平台

    版本说明 新增特性 构建版本 部署应用时的线程池可配置化 优化特性 构建版本跳过单元测试 解决问题 解决Vue应用详情页面报错的问题 解决Linux环境下脚本运行失败的问题 解决下载Maven安装文件失败的问题 升级说明 下载v1 3 2安
  • WSL无法访问网络的解决办法

    今天在用WSL的时候突然网络抽风 域名解析出了问题 apt update都用不了 网上查了很多方法 什么vEthernet的IP啊 ifconfigip啊 ip route add default啥的 都不管用 最后还是看了一下 etc r
  • 论文总结——因果发现与推断

    文章目录 背景 非时序因果模型 因果充分性假设 两个变量之间的因果关系 基于约束的方法 结构方程模型 Structural Equation Model SEM 时序因果模型 待解决的问题 参考 背景 很多科学都需要通过观测一组变量或者对其
  • Idea部署OpenCV3.4.14开发环境

    Idea配置OpenCV开发环境 一 开发环境 idea 2018 3 3 opencv 3 4 14 jdk 1 8 0 191 二 下载OpenCV3 4 14 下载地址 https opencv org releases 三 把下载的
  • 解决Keil调试模式下无法设置断点的问题

    问题描述 使用Keil打开工程文件 进入调试模式后 只有main c文件里面可以设置断点 其余文件都不可以设置断点 可能的原因及解决方案 原因1 工程路径包含中文 解决方案1 更换为全英文路径 原因2 工程没有全部Rebuild 解决方案2
  • 单目摄像头光学图像测距_单目测距算法

    单目测距算法 相似三角形 用相似三角形计算物体或者目标到相机的距离 将使用相似三角形来计算相机到一个已知的物体或者目标的距离 假设有一个宽度为 W 的目标或者物体 然后将这个目标放在距离的相机为 D 的位置 用相机对物体进行拍照并且测量物体
  • 报错:No Session found for current thread

    No Session found for current thread 没有找到当前线程的会话 这个问题我是在整合Spring时出现的 问题很好解决 在Hibernate的配置文件hibernate cfg xml中加入这 样一条配置就好
  • “反AI斗士”马斯克宣布成立xAI :目标是了解宇宙真实本质

    北京时间7月13日凌晨 马斯克在Twitter上宣布 xAI正式成立 去了解现实 马斯克表示 推出xAI的原因是想要 了解宇宙的真实本质 Ghat GPT横空出世已有半年 国内外 百模大战 愈演愈烈 AI大模型的现状与发展 你怎么看 方向一
  • 剑指Offer(牛客网)-数据流中的中位数

    题目来源 https www nowcoder com practice 9be0172896bd43948f8a32fb954e1be1 tpId 13 tqId 11216 tPage 4 rp 4 ru ta coding inter
  • 内网DNS域名解析 dnsmasq搭建

    此片文章为DNS内网解析部署文档 简单实用 解决企业内部web服务IP地址访问问题 企业内部如果不启用域名DNS服务 服务器就只能通过IP进行访问了 除了传统的bind解决方案 推荐一个新的DNS解决方案 dnsmasq dnsmasq 用
  • springboot邮件发送 端口587/465不同配置

    Spring Boot教程 26 如何发送邮件 知乎 大体上来说 发送的方式有两种 一种是使用SMTP协议 连上SMTP服务器发送邮件 一种是使用第三方的邮件发送服务 调调API就行 我们先来说说前者 SMTP是 简单邮件传输协议 的简称
  • 杰里之ENC降噪】【篇】

    对于TWS耳机 比起ANC功能 通话降噪才是真正的刚需 主动降噪 ANC 通话降噪 ENC ENC Environment Noise Cancellation 环境噪音消除 的实现方法多种多样 ENC与ANC ANC Active noi
  • BFP 过滤规则

    设置过滤规则就是让网络设备只是捕获我们感兴趣的网络数据包 如果没有设置过滤规则 即上面的 filter app 是空字符串 那么网络设备就捕获所有类型的数据包 否则只是捕获过滤规则设置的数据包 此时过滤规则的逻辑值为真 此过滤规则是通用的
  • 交换机与路由器工作原理

    前言 这篇博客的主要目的是为了聊一下路由器和交换机 以及它们各自的工作原理和对应的两张表 交换机 1 简单介绍交换机 这里的交换机主要讲的是 二层交换机 它工作在OSI七层模型中的第二层 也就是数据链路层 因此就不得不说一下数据链路层的功能
  • 梯度提升树(GBDT)原理和超参数调节小结

    GBDT原理 GBDT超参数调节 以上都出自刘建平老师的博客 刘老师的博客对机器学习算法的总结很细致全面 值得学习
  • 关于obsidian和typora之间格式无法兼容的解决(图片显示问题)

    要在obsidian中进行如下设置 也就是将每个markdown文件中的图片都放在该markdown文件所在的文件夹中 然后图片的格式是通用markdown的格式 路径是基于该文件的相对路径 使用时 每个文件都单独创建一个文件夹来放置 然后
  • 【超级无敌详细的韩顺平java笔记】从入门到精通---配置patth

    JVM 是一个虚拟的计算机 具有指令集并使用不同的存储区域 负责执行指令 管理数据 内存 寄存器 包含在 JDK 中 java文件 源文件 class文件 字节码文件 目录 一 编译 二 运行 三 JDK JRE 和 JVM 的包含关系 四
  • 瑞吉外卖项目实战

    目录 一 软件开放流程 二 瑞吉外卖项目概述 三 开发环境搭建 1 数据库环境的搭建 一 启动Navicat 二 数据库设计 三 创建数据库 四 导入数据库脚本 五 查看数据库中的表 四 Maven项目搭建 一 创建Maven项目 二 检查
  • 基于Springboot搭建java项目(十五)——RabbitMq的确认机制和延时通知

    RabbitMq的确认机制和延时通知 一 消息发送确认 在RabbitConfig中两个回调函数 一个叫 ConfirmCallback 一个叫 RetrunCallback 1 交换机确认 ConfirmCallback方法 Confir
  • R包实践:lubridate 处理时间数据

    人生有一道难题 那就是如何使一寸光阴等于一寸生命 在数据分析中也有一道难题 那就是如何自如的操作时间数据 R语言的基础包中提供了两种类型的时间数据 一类是Date日期数据 它不包括时间和时区信息 另一类是POSIXct POSIXlt类型数