巨潮资讯网年报爬虫

2023-11-07

巨潮资讯网年报爬虫

代码直接复制即可使用
这是一个Post请求爬虫，与Get请求存在一点小区别，不过核心思想是一致的
Tips:
需要在py文件夹目录下，新建一个“年报”名称的文件夹，存放下载的报表
同时在py文件夹目录下，需要一个stockcode.xlsx文件，里面是需要爬取的公司代码，格式如图所示，其中公司代码需要为字符型，数字型的保存会有问题（000520会变成520）
B站视频讲解
在代码中这个位置可以根据需要调整爬取年份

'''
由于数据量较大，建议将数据分成几组，多次爬虫，避免一次爬虫过程中，爬虫时间较长，出现意外情况而未能保存数据
'''
import requests,time,random,json
import pandas as pd

def req(stock,year,org_dict):
    # post请求地址（巨潮资讯网的那个查询框实质为该地址）
    url = "http://www.cninfo.com.cn/new/hisAnnouncement/query"
    # 表单数据，需要在浏览器开发者模式中查看具体格式
    data  = {
        "pageNum":"1",
        "pageSize":"30",
        "tabName":"fulltext",
        "stock":stock + "," + org_dict[stock] ,# 按照浏览器开发者模式中显示的参数格式构造参数
        "seDate":f"{str(int(year)+1)}-01-01~{str(int(year)+1)}-12-31",
        "column":"szse",
        "category":"category_ndbg_szsh",
        "isHLtitle": "true",
        "sortName":"time",
        "sortType": "desc"
        }
    # 请求头
    headers =  {"Content-Length": "201","Content-Type":"application/x-www-form-urlencoded"}
    # 发起请求
    req = requests.post(url,data=data,headers=headers)
    
    if json.loads(req.text)["announcements"]:# 确保json.loads(req.text)["announcements"]非空，是可迭代对象
        for item in json.loads(req.text)["announcements"]:# 遍历announcements列表中的数据，目的是排除英文报告和报告摘要，唯一确定年度报告或者更新版
            if "摘要" not in item["announcementTitle"]:
                if "英文" not in item["announcementTitle"]:
                    if "修订" in item["announcementTitle"] or "更新" in item["announcementTitle"]:
                        adjunctUrl = item["adjunctUrl"] # "finalpage/2019-04-30/1206161856.PDF" 中间部分便为年报发布日期，只需对字符切片即可
                        pdfurl = "http://static.cninfo.com.cn/" + adjunctUrl
                        r = requests.get(pdfurl)
                        f = open("年报" +"/"+ stock + "-" + year + "年度报告" + ".pdf", "wb")
                        f.write(r.content)                       
                        print(f"{stock}-{year}年报下载完成！") # 打印进度
                        break
                    else:
                        adjunctUrl = item["adjunctUrl"] # "finalpage/2019-04-30/1206161856.PDF" 中间部分便为年报发布日期，只需对字符切片即可
                        pdfurl = "http://static.cninfo.com.cn/" + adjunctUrl
                        r = requests.get(pdfurl)
                        f = open("年报" +"/"+ stock + "-" + year + "年度报告" + ".pdf", "wb")
                        f.write(r.content)                       
                        print(f"{stock}-{year}年报下载完成！") # 打印进度
                        break
# 该函数主要是通过http://www.cninfo.com.cn/new/data/szse_stock.json该json数据，找到每个stock对应的orgid，并存储在字典org_dict中
def get_orgid():
    org_dict = {}
    org_json = requests.get("http://www.cninfo.com.cn/new/data/szse_stock.json").json()["stockList"]

    for i in range(len(org_json)):
        org_dict[org_json[i]["code"]] = org_json[i]["orgId"]

    return org_dict
if __name__ == "__main__":# 程序入口
    # 读取需要爬取的股票代码
    pdlist = pd.read_excel("stockcode.xlsx",converters={'stockcode':str})["stockcode"]
    stock_list = pdlist.to_numpy().tolist()

    org_dict = get_orgid()

    for stock in stock_list:# 一层循环，按股票代码循环
        for year in ["2018","2019","2020"]:# 二层按年份循环
            req(stock,year,org_dict)# 调用req函数
            time.sleep(random.randint(0,2))# 适当休眠，避免爬虫过快

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

巨潮资讯网年报爬虫的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

Java数据结构和算法（一）——简介

本系列博客我们将学习数据结构和算法为什么要学习数据结构和算法这里我举个简单的例子编程好比是一辆汽车而数据结构和算法是汽车内部的变速箱一个开车的人不懂变速箱的原理也是能开车的同理一个不懂数据结构和算法的人也能编程但是如果一个开车
apk文件 -- 反编译

源博客 https www cnblogs com mfrbuaa p 4588057 html 编译工具 apktool 资源文件获取能够提取出图片文件和布局文件进行使用查看 dex2jar 将apk反编译成java源代码 classe
Python中多线程和线程池的使用方法

Python是一种高级编程语言它在众多编程语言中拥有极高的人气和使用率 Python中的多线程和线程池是其强大的功能之一可以让我们更加高效地利用CPU资源提高程序的运行速度本篇博客将介绍Python中多线程和线程池的使用方法并提
ad9361收发异常问题分析

最近在调试ad9361 发送都调试好了但是接收一直没调试好折腾了一个多月才搞定接收根据官方提供的api代码需要修改的有 1 修改reference clk rate参考时钟 2 修改xo disable use ext refclk
CTF——被改错的密码

http ctf idf cn index php g game m article a index id 29 cca9cc444e64c8116a30la00559c042b4看着像一串MD5加密但是实际不是去掉中间的l 进行md5
新手小白一看就懂的Excel技能之入门基础

很多同学开开心心拿到新买的电脑开机一看桌面干干净净的想打开Excel 半天找不到这些痛只有新手小白才能懂今天我给大家好好讲讲怎么使用Excel 鼠标左键点击电脑桌面左下角的搜索输入 Excel 看到 Microsoft O
过拟合现象，原因，以及降低过拟合的方法

一什么是过拟合为什么要避免过拟合图1 1 Overfit Normal 上图是一张使用线性回归拟合二维样本数据的matlab输出图片其中Normal曲线是使用使用了带参数空间限制的最小二乘法进行求解的模型 Overfit曲线是使用最
微服务中常用的注解

注解的定义 Annotation 注解用于为Java代码提供元数据简单理解注解可以看做是一个个标签用来标记代码是一种应用于类方法参数变量构造器及包的一种特殊修饰符 1 Target 表示该注解类型所使用的程序元素类型结合E
机器学习实践（一）—sklearn之概述

1956年人工智能元年人类能够创造出人类还未知的东西这未知的东西人类能够保证它不误入歧途吗一机器学习和人工智能深度学习的关系机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来二机器学习深度学习的应用场
Office 2019 for Mac 安装

1 下载微软官方Office 2019 for Mac 64位大小 1 7G 2 按照提示安装Office 2019 for Mac 3 下载14743217 Microsoft Office 2019 VL Serializer安装器
发qq邮件被对方服务器拒绝,QQ被对方拉黑了。我发QQ邮件对对方能收到吗？

QQ被对方拉黑了我发QQ邮件对对方能收到吗以下文字资料是由历史新知网www lishixinzhi com 小编为大家搜集整理后发布的内容让我们赶快一起来看一下吧 QQ被对方拉黑了我发QQ邮件对对方能收到吗拉黑删除能收到的邮件
Scrapy实战案例--抓取股票数据并存入SQL数据库（JS逆向）

目标网址 http webapi cninfo com cn marketDataZhishu 之前在这篇文章里面对该网站的JS进行了一个逆向的解析 JS逆向解析案例接下来我们来创建一个Scrapy项目来爬取某潮的数据并保存在数据库中过
基于LayUI+Servlet的权限管理系统的设计

权限管理是所有后台系统的都会涉及的一个重要组成部分主要目的是对不同的人访问资源进行权限的控制避免因权限控制缺失或操作不当引发的风险问题如操作错误隐私数据泄露等问题本系统基于JSP Servlet JDBC LayUI的技术在系统
WebRTC打开本地摄像头

本文使用WebRTC的功能打开电脑上的摄像头并且把摄像头预览到的图像显示出来纯网页实现能支持除IE外的多数浏览器手机浏览器也可用本文链接引入依赖我们需要引入adapter latest js 这个WebRTC adapter
计算机中模板与母版的区别,ppt中母版模板主题版式之间的区别和联系？

ppt中母版模板主题版式之间的区别和联系由会员分享可在线阅读更多相关 ppt中母版模板主题版式之间的区别和联系 1页珍藏版请在人人文库网上搜索 1 模板是现成的样式包括图片动画等直接输入内容就可以使用了母版是自己设计模板的菜单
STM32单片机Flash模拟EEPROM

摘要 STM32单片机都带有ROM和RAM 其中STM32根据自身的ROM Flash 可以分为小容量产品中容量产品大容量产品根据FLASH容量可以分为小容量 0 32K 中容量 64 128K 大容量 256K以上包含256K
【Green公式】Hunter’s Apprentice（判断多边形为顺时针或逆时针）--鞋带公式

题目描述 When you were five years old you watched in horror as a spiked devil murdered your parents You would have died too
C语言字节对齐

文章来源于点击打开链接文章最后本人做了一幅图一看就明白了这个问题网上讲的不少但是都没有把问题说透一概念对齐跟数据在内存中的位置有关如果一个变量的内存地址正好位于它长度的整数倍他就被称做自然对齐比如在32位cpu下假设
ElasticSearch基础操作入门

参考 4条消息教你快速入门ElasticSearch 超详细简单暗余的博客 CSDN博客 elasticsearch菜鸟教程一个索引就是一个拥有几分相似特征的文档的集合使用Chrome浏览器ElasticSearch Head 具体
巨潮资讯网年报爬虫

巨潮资讯网年报爬虫代码直接复制即可使用这是一个Post请求爬虫与Get请求存在一点小区别不过核心思想是一致的 Tips 需要在py文件夹目录下新建一个年报名称的文件夹存放下载的报表同时在py文件夹目录下需要一个stock

巨潮资讯网年报爬虫

巨潮资讯网年报爬虫

巨潮资讯网年报爬虫 的相关文章

随机推荐

热门标签

巨潮资讯网年报爬虫的相关文章