改进R中从google获取股票新闻数据的功能

2024-05-16

我已经编写了一个函数来从 Google 获取和解析给定股票代码的新闻数据，但我确信有一些方法可以改进它。对于初学者来说，我的函数返回一个 GMT 时区的对象，而不是用户当前的时区，如果传递的数字大于 299，它就会失败（可能是因为 google 只返回每只股票 300 个故事）。这有点回答我自己的问题 https://stackoverflow.com/questions/5749252/getting-stock-news-data-from-google-in-r/5749643#5749643堆栈溢出，并且严重依赖这篇博文 http://pleasepasstheroc.blogspot.com/2011/04/how-to-build-dataset-in-r-using-rss.html.

tl;dr: 我该如何改进这个功能？

 getNews <- function(symbol, number){

    # Warn about length
    if (number>300) {
        warning("May only get 300 stories from google")
    }

    # load libraries
    require(XML); require(plyr); require(stringr); require(lubridate);
    require(xts); require(RDSTK)

    # construct url to news feed rss and encode it correctly
    url.b1 = 'http://www.google.com/finance/company_news?q='
    url    = paste(url.b1, symbol, '&output=rss', "&start=", 1,
               "&num=", number, sep = '')
    url    = URLencode(url)

    # parse xml tree, get item nodes, extract data and return data frame
    doc   = xmlTreeParse(url, useInternalNodes = TRUE)
    nodes = getNodeSet(doc, "//item")
    mydf  = ldply(nodes, as.data.frame(xmlToList))

    # clean up names of data frame
    names(mydf) = str_replace_all(names(mydf), "value\\.", "")

    # convert pubDate to date-time object and convert time zone
    pubDate = strptime(mydf$pubDate, 
                     format = '%a, %d %b %Y %H:%M:%S', tz = 'GMT')
    pubDate = with_tz(pubDate, tz = 'America/New_york')
    mydf$pubDate = NULL

    #Parse the description field
    mydf$description <- as.character(mydf$description)
    parseDescription <- function(x) {
        out <- html2text(x)$text
        out <- strsplit(out,'\n|--')[[1]]

        #Find Lead
        TextLength <- sapply(out,nchar)
        Lead <- out[TextLength==max(TextLength)]

        #Find Site
        Site <- out[3]

        #Return cleaned fields
        out <- c(Site,Lead)
        names(out) <- c('Site','Lead')
        out
    }
    description <- lapply(mydf$description,parseDescription)
    description <- do.call(rbind,description)
    mydf <- cbind(mydf,description)

    #Format as XTS object
    mydf = xts(mydf,order.by=pubDate)

    # drop Extra attributes that we don't use yet
    mydf$guid.text = mydf$guid..attrs = mydf$description = mydf$link = NULL
    return(mydf) 

}

这是您的更短（并且可能更有效）的版本getNews功能

  getNews2 <- function(symbol, number){

    # load libraries
    require(XML); require(plyr); require(stringr); require(lubridate);  

    # construct url to news feed rss and encode it correctly
    url.b1 = 'http://www.google.com/finance/company_news?q='
    url    = paste(url.b1, symbol, '&output=rss', "&start=", 1,
               "&num=", number, sep = '')
    url    = URLencode(url)

    # parse xml tree, get item nodes, extract data and return data frame
    doc   = xmlTreeParse(url, useInternalNodes = T);
    nodes = getNodeSet(doc, "//item");
    mydf  = ldply(nodes, as.data.frame(xmlToList))

    # clean up names of data frame
    names(mydf) = str_replace_all(names(mydf), "value\\.", "")

    # convert pubDate to date-time object and convert time zone
    mydf$pubDate = strptime(mydf$pubDate, 
                     format = '%a, %d %b %Y %H:%M:%S', tz = 'GMT')
    mydf$pubDate = with_tz(mydf$pubDate, tz = 'America/New_york')

    # drop guid.text and guid..attrs
    mydf$guid.text = mydf$guid..attrs = NULL

    return(mydf)    
}

此外，您的代码中可能存在错误，因为我尝试使用它symbol = 'WMT'它返回了一个错误。我认为getNews2对于 EMT 来说效果很好。检查一下并告诉我它是否适合您。

PS. The description列仍然包含 html 代码。但从中提取文本应该很容易。当我有时间时我会发布更新

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

改进R中从google获取股票新闻数据的功能的相关文章

闪亮的演示文稿 (ioslides)：自定义 CSS 和徽标

我安装了以下内容 RStudio 预览版版本 0 98 864 2014 年 5 月 24 日 knitr 和shiny 的开发版本来自 devtools install github c yihui knitr rstudio shi
R：变换不规则时间字符串

我有两个不同的时间序列来自不同的数据帧具有不同的不规则格式但问题是相同的我只想提取小时分钟秒和毫秒时代系列看起来像这样 ts1 08 27 23 445 08 27 24 280 08 27 25 115 I tried st
在 Shiny 中使用 readlines(prompt = )

我有一个代码使用以下方式获取输入readlines prompt 功能您能告诉我 Shiny 中的哪个输入函数足以将此代码适应 Shiny 应用程序吗我需要一个交互功能我无法使用简单的输入selectInput 因为我有很多read
udunits2 R 安装：找不到 udunits2.h

我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹但是安装程序在检查 udunits2 时始终失败我已经尝试过中的说明this https stackoverflow com questions 47059517
仅在具有重复块名称的另一个 Rmarkdown 文档中运行一个 Rmarkdown 文档中的代码

我正在 Rmarkdown 中编写一系列相互补充的报告我想将上一份报告的结果纳入我目前正在编写的报告中我看到其他建议使用的问题purl从 Rmarkdown 文档中提取 R 代码然后运行它所以我尝试了以下操作 r read previ
使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件（纯文本、xml、json、csv）的选项

我是 Spark 新手想知道除了下面的选项之外是否还有其他选项可以使用 SparkR 从 RStudio 读取存储在 hdfs 中的数据或者我是否正确使用它们数据可以是任何类型纯文本 csv json xml 或任何包含关系表的数据
如何在R中逐行写入文件

我正在尝试逐行读取 csv 文件并且仅选择左侧的第二个和第三个单元格以及右侧的第三个单元格例如如果这一行中有 17 个单元格我将选取第 15 个单元格然后我想合并这 3 个单元格用逗号分隔然后将此行写入一个新的 csv 文件
R：在函数中包含循环？

以下代码可用于创建一个 data frame 其中 Kendall Tau 和 Spearman 相关结果彼此相邻 data mtcars mtcars correlation lt function x y df1 cor data fr
为什么我在 ddply 中看到“错误：length(rows) == 1 is not TRUE”？

我有一个数据框比如工资单例如 payroll lt read table text AgencyName Rate PayBasis Status NumRate HousingAuthority 26 843 00 Annual Fu
R中有字典功能吗

有没有办法在 R 中创建一个字典使其具有对一些效果 x dictionary c Hi Why water c 1 5 4 x Why 5 我问这个是因为我实际上正在寻找两个分类变量函数所以如果 x dictionary c a b
当子集长度为零时，如何简洁地处理子集？

从向量中排除元素x x lt c 1 4 3 2 我们可以减去位置向量 excl lt c 2 3 x excl 1 1 2 这也是动态工作的 excl lt which x which max x gt quantile x 25 1 2
使用亚毫秒日期时间从字符->POSIXct->字符准确转换

我的文件中有一个字符日期时间列我加载文件到data table 并执行需要将列转换为的操作POSIXct 然后我需要写POSIXct值返回文件但日期时间不会相同因为打印不正确这个打印格式问题是众所周知的并且已经被讨论过多次我
如何在 R 中查找平衡面板数据（又名，如何查找面板中的哪些条目在给定窗口内完整）

我有来自 Compustat 的大量数据我向其中添加了一些手工收集的数据认真地从一堆旧书中手工收集但我不想手工收集整个面板只想随机选择一个子集为了找到更大的集合我从中随机选择我想从 Compustat 的平衡面板开始我看到p
通过 RCpp 返回 NA

新手 RCpp 问题在这里 How can I make a NumericVector returnNA到R 例如假设我有一个 RCpp 代码它分配NA到向量的第一个元素 RCpp export NumericVector myFun
R：如何更改ggvis闪亮应用程序中特定范围的绘图背景颜色

I have a simple shiny app like below and you can run it The plots are created by ggvis and user can choose student name
绘制带有颜色渐变的geom_segment线？（或者还有另一种方法来强调开始与结束吗？）

我的数据框中有大量行 100 000 的两组纬度和经度变量我正在尝试绘制一个连接这两组坐标的图即从纬度1 经度1 to 纬度2 经度2 使用 geom segment 使用非常低的 alpha 使线条透明因为线条太多我想强调这些线
在 R 中收集多组列[重复]

这个问题在这里已经有答案了我有一个宽数据框需要将其收集或融化成一个高数据框我遇到的问题是我有几组列需要保持关联分组我每个表单提交有 2 个用户每个用户有 3 列数据我想将这 6 列基本上以 3 组的形式堆叠起来以便每个用户都
求解非线性方程组

我正在尝试求解以下四个方程组我尝试过使用 rootSolve 包但似乎我无法通过这种方式找到解决方案我正在使用的代码如下 model lt function x F1 lt sqrt x 1 2 x 3 2 1 F2 lt sqrt
java Web应用程序中的日期转换

String date1 13 03 2014 16 56 46 AEDT SimpleDateFormat sdf new SimpleDateFormat dd MM yyyy HH mm ss z sdf setTimeZone Ti
R 在安装包依赖项时不考虑最大版本

假设我正在开发一个名为magicr做一些统计魔术我希望它使用另一个名为的包中的函数fairydust 假设存在于 CRAN 上很遗憾fairydust刚刚向 CRAN 发布了 2 0 0 版本完全破坏了我计划使用的功能所以我更新了

随机推荐

使用 forge（或其他 JavaScript 方法）生成随机大素数

我需要在 JavaScript 中生成一个随机大大约 4096 位素数并且我已经在使用 forge Forge 必须有某种生成器来完成此类任务因为它实现了 RSA 而 RSA 也依赖于随机素数然而当你只想获得一个随机素数类似于
如何在 Swift 中使用 CoreBluetooth 更新 BLE 设备的电池电量？

func peripheral peripheral CBPeripheral didDiscoverCharacteristicsFor service CBService error Error for c in service cha
服务器响应中的“连接：保持活动状态”

我正在尝试建立从 Silverlight 应用程序到 Apache 服务器托管的 PHP 页面的 HTTP 持久连接即无需为每个 HTTP 请求创建新的 TCP 连接为此我需要网络服务器发送其 HTTP 响应并将 Connectio
使用服务中的可观察量测试错误情况

假设我有一个订阅服务功能的组件 export class Component ngOnInit this service doStuff subscribe data IData gt doThings data error Error g
JavaScript 数字在内存中的大小都相同吗？

我正在阅读本书的面向 Web 开发人员的专业 JavaScript 似乎所有 ECMAScript 数字都是 binary64 浮点数这得到了证实这篇 MDN 文章 https developer mozilla org en US do
Outlook COM 插件已安装但未在 Outlook 中加载

我已经使用 Visual Studio 2010 创建了一个 Outlook 插件它安装得很好并按照我的指定在程序文件 x86 中创建了适当的注册表项和文件夹并且它显示在添加和删除程序中但是当我启动 Outlook 2010
正则表达式的命名空间不起作用

我正在翻新一些曾经在 NET Framework 3 5 上运行的旧代码使其能够使用 C 在 NET Framework 4 上运行以下正则表达式过去在 3 5 版本中运行良好但由于某些奇怪的原因不再运行 public static
如何在不使用实体框架的情况下从.Net Core连接到SQL Server？

我们如何从 Net Core连接到SQL Serverwithout使用实体框架你可以简单地使用传统的方式SqlConnection 这是一个例子 public class BaseDataAccess protected string
部署到 Netlify 时，Nuxt 将 CSS 不透明度编译为 1%，而不是 100%

我有一个 Nuxt 应用程序在本地运行得很好当我将它部署到 Netlify 时其中yarn generate自动运行我注意到发生了一些奇怪的 CSS 事情我有一张具有悬停效果的卡片
Spotify Apps API：库类不会返回用户播放列表

我试图获取一个包含用户库中所有播放列表的数组 http developer spotify com download spotify apps api reference dcdebc652c html 其他类属性专辑艺术家加星标的播
Perl 的反引号、system 和 exec 有什么区别？

有人可以帮帮我吗在 Perl 中以下之间有什么区别 exec command and system command and print command 还有其他方法可以运行 shell 命令吗 exec 执行命令并一去不复返这就像一个
我们什么时候在 javascript 导入中使用“{ }”？ [复制]

这个问题在这里已经有答案了我正在学习 Javascript 导入但我还不明白当我们从另一个 JS 文件导入项目函数对象变量时使用花括号 import Search from models Search import as sea
如何禁用 Alt + F4 关闭表单？

What is the best way to disable Alt F4 in a c win form to prevent the user from closing the form 我使用表单作为弹出对话框来显示进度条但我不希
我应该定义索引（A）和索引（B），还是索引（A，B），或者两者都定义？

在我的表中我有两个密切相关的列 A 和 B 我应该考虑哪些因素来决定是否创建索引 A 和索引 B 索引 A B 以上两者如果我仅使用类似的查询where A 5 and B 10 并且从不喜欢where A 5 也可以使用类似的查询
如何使用 Plotly 将两张图合并为一张图？

我有2个csv文件我的代码如下 df pd read csv test csv sep t skiprows range 9 names A B C D df2 pd read csv LoadMatch Limit csv skipro
两个程序对象运行时比较的方法

我正在进行一种特定类型的代码测试该测试相当麻烦并且可以自动化但我不确定最佳实践在描述问题之前我想澄清一下我正在寻找合适的术语和概念以便我可以阅读有关如何实现它的更多信息当然欢迎就最佳实践提出建议但我的目标很具体这种方法叫
有没有办法在不使用 foreach 或其他函数的情况下在 PHP 中内爆关联数组的键和值？

我有一个像这样的关联数组 myarray array a gt 1 b gt 2 c gt 3 我想显示数组键和值如下所示 a is 1 b is 2 c is 3 我不想使用 print r 或 var dump 来执行此操作我也不想
WebSocket 无法与 DNS 配合使用

我有一个网络应用程序我正在使用 websockets 我在使用 ws myDomain com 作为 websocket 服务器的地址时遇到问题这个问题很奇怪因为我使用许多 PC 测试了连接似乎这适用于大约 1 5 的 PC 当我将
Haskell / GHC - 是否有“警告不完整模式”的中缀标签/编译指示

我正在寻找一个可以对特定的不完整模式发出警告的编译指示它会使编译器失败并显示以下假设的代码 FAILIF incomplete patterns f Int gt Int f 0 0 我正在尝试使用 Arrows 编写一个编译器并
改进R中从google获取股票新闻数据的功能

我已经编写了一个函数来从 Google 获取和解析给定股票代码的新闻数据但我确信有一些方法可以改进它对于初学者来说我的函数返回一个 GMT 时区的对象而不是用户当前的时区如果传递的数字大于 299 它就会失败可能是因为 goog

改进R中从google获取股票新闻数据的功能

改进R中从google获取股票新闻数据的功能 的相关文章

随机推荐

热门标签

改进R中从google获取股票新闻数据的功能的相关文章