如何从巨潮资讯爬取股票公告

2023-11-13

之前我写了上面这篇文章来说明如何从深交所或者上交所的网站爬取文件，但是这个爬虫是有点不稳定的，因为网速的原因。

偶然间我发现巨潮资讯已经整合了所需要的公告，因此又写了一个针对巨潮资讯的爬虫。

相较来说，这个爬虫简洁的多，稳定性也要好得多。但是还有很多可以提升的空间。

from selenium import webdriver
from time import sleep
import pandas as pd
import datetime
import os
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from tqdm import tqdm
import functools


def log(text):
    print('-' * 15)
    print(text)


def logging(func):
    def wrapper(*args, **kw):
        try:
            print('%s %s():' % ('excute', func.__name__))
            return func(*args, **kw)
        except Exception as e:
            print('错误明细是', e.__class__.__name__, e)
    return wrapper


class find_document_jc(object):

    def __init__(self, stock_list):
        self.done_list = []
        self.stock_list = stock_list
        self.stock_list_neat = [stock[-6:] for stock in self.stock_list]
        self.current_dir = os.getcwd()
        date = str(datetime.date.today())
        self.work_dir = os.path.join(self.current_dir, date)

        @logging
        def set_driver(self):
            download_dir = self.work_dir
            options = Options()
            options.page_load_strategy = 'normal'
            options.add_experimental_option('prefs', {
                "download.default_directory": download_dir,  # 更改默认下载地址
                "download.prompt_for_download": False,  # 自动下载文件
                "download.directory_upgrade": True,
                "plugins.always_open_pdf_externally": True  # 不直接在chrome内显示pdf
            })
            return options

        self.driver = webdriver.Chrome(options=set_driver(self))
        self.jc_web = 'http://www.cninfo.com.cn/new/commonUrl/pageOfSearch?url=disclosure/list/search&lastPage=index'

    @logging
    def set_work_dir(self):
        work_dir = self.work_dir
        if not os.path.isdir(work_dir):
            os.mkdir(work_dir)
            log('创建文件夹“%s”' % work_dir)
        else:
            log('文件夹“%s”已存在' % work_dir)

    @logging
    def file_rename(self, file_name, work_dir):
        flag = 0
        while flag == 0:
            try:
                file_list = os.listdir(work_dir)
                file_list.sort(key=lambda fn: os.path.getmtime(work_dir + "\\" + fn))
                target_file = file_list[-1]
                old = os.path.join(work_dir, target_file)
                new = os.path.join(work_dir, file_name)
                assert target_file[-3:].lower() == 'pdf'
                flag = 1
                if not os.path.exists(new):
                    log('找到目标文件，开始改名')
                    print('From:' + old)
                    print('To:' + new)
                    os.renames(old, new)
                else:
                    log('文件已存在：' + new)
            except Exception as e:
                print('错误明细是', e.__class__.__name__, e)
                print('错误,等待三秒后重试：可能由于【文件未下载完成】或【文件已存在】导致')
                sleep(3)

    def jc_file_name(self, r, results):
        code = results[r - 2].text
        stock = results[r - 1].text
        file = results[r].text
        file_name = '_'.join([code, stock, file])
        return file_name


    @logging
    def jc_search(self):
        # 获取内容
        results = self.driver.find_elements(By.CLASS_NAME, 'ahover')
        flag = 0
        # 遍历内容
        for r, result in enumerate(results):
            text = result.text
            if '初步询价' in text:
                file_name = self.jc_file_name(r, results)
                print(f'正在下载：{file_name}')
                href = result.find_element(By.XPATH, './a').get_attribute('href')
                print('进入下载页面：' + href)
                self.driver.get(href)
                download_icon = self.driver.find_element(By.CLASS_NAME, 'icongonggaoxiazai')
                download_icon.click()
                self.done_list.append(text)
                sleep(5)
                flag = 1
                self.flag_search = 1
                break
        if flag != 1:
            self.driver.find_element(By.CLASS_NAME, 'btn-next').click()

    @logging
    def jc(self, stock, stock_neat):
        self.flag_search = 0
        _driver = self.driver
        _driver.get(self.jc_web)
        _driver.implicitly_wait(10)
        sleep(3)
        search_line = _driver.find_elements(By.CLASS_NAME, 'el-input__inner')
        search_line[2].send_keys(stock_neat)
        sleep(3)
        search_icon = _driver.find_element(By.CLASS_NAME, 'el-button--primary')
        search_icon.click()
        log(f'目标股票：{stock_neat}')
        print('开始搜索文件：')
        # 搜索文件
        while self.flag_search != 1:
            self.jc_search()
        file_name = stock + '.pdf'
        # 重命名文件
        self.file_rename(file_name, self.work_dir)
        sleep(5)
        # 下载文件

    @logging
    def get_document(self):
        # 整理股票顺序
        stock_list_neat = self.stock_list_neat
        print(stock_list_neat)
        # 遍历股票
        for stock, stock_neat in zip(tqdm(stock_list), stock_list_neat):
            # 检查股票代码
            assert stock[-6:] == stock_neat
            self.jc(stock=stock, stock_neat=stock_neat)
        sleep(10)
        self.driver.quit()
        log('已获取文件：')
        list(map(lambda x: print(x), self.done_list))


if __name__ == '__main__':
    stock_list = '424-2021-10-11-688553,425-2021-10-11-688737,426-2021-10-11-301082,427-2021-10-11-688255,' \
                 '428-2021-10-12-301087,429-2021-10-13-688211,430-2021-10-14-301090,431-2021-10-14-301088,' \
                 '432-2021-10-14-688280,433-2021-10-14-688257,434-2021-10-18-301093,435-2021-10-18-688739,' \
                 '436-2021-10-18-301092'.split(',')

    func = find_document_jc(stock_list=stock_list)
    func.get_document()

运行效果：

“互联网精神”即：开放、平等、协作、快速、分享

对更多内容感兴趣欢迎关注我的个人公众号：梧承 Book House

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

如何从巨潮资讯爬取股票公告的相关文章

Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
Python 中的字节数组

如何在 Python 中表示字节数组如 Java 中的 byte 我需要用 gevent 通过网络发送它 byte key 0x13 0x00 0x00 0x00 0x08 0x00 在Python 3中我们使用bytes对象也称为s
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

基本数据类型：浮点型、指针

浮点数家族包括float double和long double类型通常这些类型分别提供单精度双精度以及在某些支持扩展精度的机器上提供扩展精度 ANSI标准仅仅规定long double至少和double 一样长而double至少和f
如何创建Spring项目以及如何使用？

目录 1 创建Spring项目 2 将对象存储在Spring中 3 从Spring中取出对象 4 使用对象 5 总结 Spring 就是个包含了众多具法的 IoC 容器它具备两个最基本的功能将对象存储到容器 Spring 中从容
三层交换机单臂路由 trunk access接口

交换机单独使用时条件比较苛刻通信双方同一网段同一网关单臂路由和三层交换机可以实现跨网段通信三层交换机交换机和路由器兼并可以设置VLAN 概念分隔广播域广播一对多人为进行切割互不相干逻辑分隔属于代码交换机为了提
简历中不写年龄、毕业院校、预期薪资会怎样？

第五自我评价这一项与文凭一样作者可能传达的意思是不要写在个人信息栏中但很容易让人误解为不要写这块真的需要看情况如果你的自我评价非常好那一定要提前曝光展现比如我的自我评价中会写到全网博客访问量过千万 CSDN排名前100
C语言九九乘法表

C语言编程实现九九乘法表样式要求长方形右三角形左三角形解题思路这个问题的算法很简单就是两个for循环的嵌套三角形的样式就是多了一些空格长方形源代码演示 include
国内企业CAE仿真的作用和特点

在知乎上看到某前辈所写的国内CAE仿真的现状的回答觉得其将国内企业CAE仿真的作用和特点分析的很到位询问可以转发之后就转发到自己的博客中希望也能给刚从事CAE仿真的同行一点帮助知乎原文链接聊一聊国内CAE领域的现状吧知乎 zhi
jar包中的文件找不到对应的地址的解决方法

对于本地的地址测试时可以一上到服务环境就报错 xml的文件地址找不到于是也找了好多网上的方式解决但始终解决不了于是在一次偶然机会找到了一种方式反射流的方式解决 InputStream inputStream ClassUt
Qt Install FrameWork——Qt打包工具

主要介绍三部分内容 Qt Install FrameWork安装打包程序程序安装环境配置一 Qt Install FrameWork安装两种方式编译源码安装预编译好的Installer 推荐安装预编译好的Installer 下
FreeRTOS的学习（二）——队列的介绍和操作

目录队列的简介任务对队列的操作读取队列中的消息向队列中发送消息队列结构体队列创建 1 函数 xQueueCreate 动态创建队列函数原型参数返回值 2 函数 xQueueCreateStatic 静态创建队列函数原型
C++ cout ＜＜ “\n“与 cout ＜＜ endl的一个区别

一句话概括 n 不会终止setw的计算 endl会实际场景代码1 include
MySQL必知必会学习笔记第十八章全文本搜索

并非所有引擎都支持全文本搜索 MyISAM支持更新 1 MySQL 5 6 以前的版本只有 MyISAM 存储引擎支持全文索引 2 MySQL 5 6 及以后的版本 MyISAM 和 InnoDB 存储引擎均支持全文索引 3 只有字段的
idea自定义注释模板方法名、参数、返回类型为空的问题

重点的地方在你的方法上输入然后加上模板的名称 param和retrun才不会为空如果你直接模板的名称按键就会为空 https blog csdn net weixin 39591795 article details 7884442
如何给Winform 的Panel控件添加滚动条

真是太笨了刚想起来 Panel控件还有一个AutoScoll属性直接修改为true即可添加Panel控件的如下两个事件即可当然只是添加的竖向滚动条横向滚动条只需把VerticalScroll改为HorizontalScroll即
linux进阶-运维自动化工具之ansible

文章目录云计算运维工程师核心职能 ansible特性 ansible架构 ansible组成部分 ansible命令执行来源 ansible使用注意事项 ansible安装和入门 epel源的rpm包安装编译安装 git方式 pip安装
ConvertException: Unsupported source type: class java.lang.String

项目上遇到文件异步上传时会把不符合标准的数据放入redis 然后隔几秒去请求redis里面的数据但是时不时会出现ConvertException Unsupported source type class java lang Strin
tensorflow报错总结

项目场景 tensorflow 版本不兼容产生的报错问题描述 1 AttributeError module tensorflow has no attribute random uniform 解决办法 tf2 0中用tf rando
使用rancher在k8s上完成第一个CI/CD的项目_.NET篇

隔了几天没写了一是忙的不行二是遇到一个问题一直没解决我们自己搭建的harbor仓库是没有域名的也没做nginx转发所以都是http请求的构建项目时会在两个地方遇到关于docker访问http仓库不通的问题第一个构建成功pus
Hadoop集群——shell自动采集文件到HDFS

1 配置环境变量在 export data logs目录下目录不存在则先提前创建该目录使用vi命令创建 upload2HDFS sh脚本文件在编写Shell脚本时需要设置Java环境变量即使当前虚拟机节点已经配置了Java环
windows10下navicat 无限使用小技巧

windows10下navicat 无限次使用小技巧 1 首先win R 输入regedit 2 找到HKEY CURRENT USER gt Software gt Classes gt CLSID gt 下面文件夹中有info的删除掉
如何从巨潮资讯爬取股票公告

z如何做一个难以被反制的爬虫 Selenium Python爬取新股材料实例之前我写了上面这篇文章来说明如何从深交所或者上交所的网站爬取文件但是这个爬虫是有点不稳定的因为网速的原因偶然间我发现巨潮资讯已经整合了所需要的公告因此又写

如何从巨潮资讯爬取股票公告

“互联网精神”即：开放、平等、协作、快速、分享

如何从巨潮资讯爬取股票公告 的相关文章

随机推荐

热门标签

如何从巨潮资讯爬取股票公告的相关文章