python如何爬虫股票数据_自学python之爬虫3股票数据爬虫

2023-11-15

目标：获取股票上交所和深交所所有股票的名称和交易信息，保存在文件中

使用到的技术：requests+bs4+re

网站的选择（选取原则：股票信息静态存在HTML页面，非js代码生成没哟robot协议限制）

1. 获取股票列表：http://quote.eastmoney.com/stocklist.html （因为东方财富网站的有全部股票信息的列表，百度股票网站只要个股信息）

2. 获取个股信息：

百度股票：https://gupiao.baidu.com/stock/

单个股票：https://gupiao.baidu.com/stock/sz002939.html

程序的设计结构：

步骤1：从东方财富获取股票列表

步骤2：根据股票列表逐个到百度股票获取个股信息

步骤3：将结果存储到文件

【步骤1】

通过发送请求获取到东方财富网站股票列表信息，查看页面源代码，如下：

发现股票代码存储在的href属性中，且上交和深交的股票代码前分别为“sh”和"sz"，接下来可以利用这个规律进行解析和匹配。

首先使用BeautifulSoup4获取所有：

soup = BeautifulSoup(html, 'html.parser')

a = soup.find_all('a')

然后配合正则表达式提取的股票代码，并存储在lst列表中：

for i in a:

try:

href = i.attrs['href']

lst.append(re.findall(r"[s][hz]\d{6}", href)[0])

except:

continue

此时列表 lst = ['sh201000' , 'sh201001' , 'sh201002' ...]

【步骤2】

接下来根据获取的股票代码列表，逐个在百度股票获取个股信息。

百度股票个股信息的url：https://gupiao.baidu.com/stock/sz002939.html

因此，先进行url的拼接，然后发送请求获取页面

for stock in lst:

url = 'https://gupiao.baidu.com/stock/' + stock + ".html"

html = getHTMLText(url)

然后进行页面解析，查看源代码

发现所有的股票信息都存在的

中，然后使用BeautifulSoup进行一步一步的解析

soup = BeautifulSoup(html, 'html.parser')

stockInfo = soup.find('div',attrs={'class':'stock-bets'})

if stockInfo:

name = stockInfo.find_all(attrs={'class':'bets-name'})[0]

infoDict.update({'股票名称': name.text.split()[0]})

else:

print('stockInfo is null')

break

keyList = stockInfo.find_all('dt')

valueList = stockInfo.find_all('dd')

for i in range(len(keyList)):

key = keyList[i].text

val = valueList[i].text

infoDict[key] = val

此时，infoDict = {"成交量":"31.07万手" , "最高":"9.89", "涨停":"10.86" ...}

【步骤3】

最后，把结果输出到文件中：

with open(fpath, 'a', encoding='utf-8') as f:

f.write( str(infoDict) + '\n' )

完整代码如下：

#CrawBaiduStocksA.py

importrequestsfrom bs4 importBeautifulSoupimporttracebackimportre#获取页面的公共方法

defgetHTMLText(url):try:

r=requests.get(url)

r.raise_for_status()

r.encoding=r.apparent_encodingreturnr.textexcept:return "get fail"

#获取股票代码列表

defgetStockList(lst, stockURL):

html=getHTMLText(stockURL)

soup= BeautifulSoup(html, 'html.parser')

a= soup.find_all('a')for i ina:try:

href= i.attrs['href']

lst.append(re.findall(r"[s][hz]\d{6}", href)[0])except:continue

#获取个股信息并输出到文件中

defgetStockInfo(lst, stockURL, fpath):for stock inlst:

url= stockURL + stock + ".html"html=getHTMLText(url)try:if html=="":continueinfoDict={}

soup= BeautifulSoup(html, 'html.parser')

stockInfo= soup.find('div',attrs={'class':'stock-bets'})ifstockInfo:

name= stockInfo.find_all(attrs={'class':'bets-name'})[0]

infoDict.update({'股票名称': name.text.split()[0]})else:print('stockInfo is null')breakkeyList= stockInfo.find_all('dt')

valueList= stockInfo.find_all('dd')for i inrange(len(keyList)):

key=keyList[i].text

val=valueList[i].text

infoDict[key]=val

with open(fpath,'a', encoding='utf-8') as f:

f.write( str(infoDict)+ '\n')except:

traceback.print_exc()continue

defmain():

stock_list_url= 'http://quote.eastmoney.com/stocklist.html' #东放财富股票列表

stock_info_url = 'https://gupiao.baidu.com/stock/' #百度股票信息

output_file = 'D:/BaiduStockInfo.txt' #结果存储的文件

slist=[]

getStockList(slist, stock_list_url)

getStockInfo(slist, stock_info_url, output_file)

main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python如何爬虫股票数据

python如何爬虫股票数据_自学python之爬虫3股票数据爬虫的相关文章

HuTool 工具类简单使用

官方文档 https hutool cn docs 简介 Hutool是一个小而全的Java工具类库通过静态方法封装降低相关API的学习成本提高工作效率使Java拥有函数式语言般的优雅让Java语言也可以甜甜的 Hutool中的
Python爬虫实战案例——第三例

文章中所有内容仅供学习交流使用不用于其他任何目的严禁将文中内容用于任何商业与非法用途由此产生的一切后果与作者无关若有侵权请联系删除起点中文网月票榜加密字体处理字体加密的原理就是将一种特定的字体库来代替浏览器本身的字体库显示的
JeecgBoot页面级联选择框(三种方法)

JeecgBoot页面级联选择框三种方法 1 form表单级联选择框已实践 2 j vxe table联动示例已实践 3 j editable table三级联动简单测试只贴代码不做过多说明一 form表单级联选择框 1 1
【Mac】Mac 下安装MySQL优化工具mysqltuner执行报错 [!!] Attempted to use login credentials

1 背景 base lcc lcc MySQLTuner perl mysqltuner pl socket var lib mysql mysql sock gt gt MySQLTuner 1 7 19 Major Hayden
FPGA选型

原来SG6twotwo FPGA推荐型号0 GX480系列 FPGA推荐型号1 GX570系列 FPGA推荐型号2 GX660系列 SG622 FPGA型号 10AX027 F34 10AX048 10AX057 10AX066 引脚数量
postcss_PostCSS简介

postcss Most developers who spend their time working with CSS are familiar with preprocessors such Less Sass and Stylus
[管理与领导-62]：IT基层管理者 - 潜技能 - 1 - 职场中的陷阱 - 了解职场中潜法则，保护自己

目录前言生存法则一老板对你讲的道理永远都是对他有利的生存法则二目标要明确拿钱要及时生存法则三有点的领导夸你越多你得到的越少生存法则四表面讲大义心里是生意生存法则五得罪人是要付出代价的生存法则六别人对你越坏
物理选择题~~好好答哦

a啊 D
桶排序、计数排序、基数排序 -- 大数据排序，线性排序以及应用场景

桶排序桶排序其实就是把数据分到各个桶中比如把100个数据到10个桶中然后每个桶再进行排序比如快排桶和桶之间也是有顺序的桶排序是线性排序也就是时间复杂度为O n 假设数据有 n 个把它们均匀地划分到 m 个桶内每个桶里就有 k
计算机网络常见面试题总结(一)

本文主要内容转载自 http blog csdn net jxh 123 article details 40316081 整理一下计算机网络部分的面试常考点参考书籍计算机网络第五版谢希仁的那本希望对大家有所帮助 OSI TCP
网站服务器ftp密码设置,服务器设置ftp密码

服务器设置ftp密码内容精选换一换本节操作介绍Linux操作系统云服务器使用重新挂载系统盘的方式重置密码的操作步骤本文档适用于X86架构的CentOS 7 Ubuntu EulerOS操作系统云服务器进入单用户模式下重置root
Ubuntu18.04安装facebook folly库

安装步骤安装boost ubuntu18 04安装的boost有点陈旧因此自行下载最新版本执行安装即可 https www boost org 具体步骤直接参考readme 安装gtest wget https github com
c语言发牌小程序

include
Windows 2003 Server远程代码执行漏洞集合

目录 MS08 067 CVE 2017 7269 MS08 067 发布日期 2008 10 22 针对端口 139 445 漏洞等级高危漏洞影响服务器服务中的漏洞可能允许远程执行代码受影响的操作系统 Windows 2000 X
nginx关键字

对关键字的解释会慢慢加上 master进程 worker进程 pass proxy core Nginx c daemon master process timer resolution pid lock file worker proce
如何正确使用示波器的温度延长线扩展功能

电子产品的信号测试验证过程中不可避免地需要进行高低温工况下的信号完整性测试但是目前的高速有源探头的工作温度范围有限不足以直接使用为此诸如泰克是德科技等仪器公司都有相对应的测试解决方案基本采用的是焊接前端温度延长线有源
图论17（Leetcode864.获取所有钥匙的最短路径）

用二进制表示获得的钥匙假设n 钥匙个数 000000000代表没有钥匙 0000000001代表有idx为1的钥匙 0000000011代表有idx 1 2的钥匙这方法巧妙又复杂代码 class Solution static int
补码的求法

补码源码取反再加一 eg CAN通信的一部分 1024对应0xfcc 第一种方法 1024二进制 0000010000000000 注意数据类型需要加上0 取反 1111101111111111 加一 1111110000000000
Base64编码相关知识总结

Base64编码是什么 Base64 顾名思义就是包括小写字母a z 大写字母A Z 数字0 9 符号一共64个字符的字符集另加一个实际是65个字符任何符号都可以转换成这个字符集中的字符这个转换过程就叫做base64编码 Bas

随机推荐

jdbc的内容以及如何在5秒钟后自动跳转到login.html页面

首先在5秒钟之后跳转到login html 最初的解决方法 try Thread sleep 5000 response sendRedirect login html catch Exception e e printStackTrac
STM32 GPIO ｜CSDN创作打卡

GPIO结构框图推挽输出 0 3 3 在该结构中输入高电平时上方的P MOS导通下方的N MOS截止对外输出高电平而在该结构中输入低电平时 N MOS管导通 P MOS截止对外输出低电平当引脚高低电平切换时两个管子轮流导通
如何下载b站视频到本地

传送门转载于 https www cnblogs com yaoling1997 p 10793366 html
assert()理解

源自一道CTF题理解全部写在注释里面 if isset GET page page GET page else page home file templates page php I heard is dangerous strpos通过
JAVA中字符串长度和（字符串）数组长度的函数【string.length和string.length()】

字符串数组strs 获取数组的长度是利用数组的属性length 所以就是 strs length 字符串strs 获取长度的话是调用strs length 方法字符串长度字符串数组长度字符串数组的长度的因为任意的数组都有length
五十七.斐波那契数列JAVA

public class Main public static int fibonacci int n if n 0 n 1 return n else return fibonacci n 1 fibonacci n 2 public s
2021-07-01

2021年已经过去七个月了学习目标把vue element echarts给撸下来学习内容 7 1 7 4 学习 Echarts 7 5 7 11 学习封装router 7 12 7 18 学习如何部署网站到gitee 7 19 7
对象池学习

概念为了避免大量创建构造对象销毁析构对象带的性能开销设计对象队列初始化时指定队列长度出队入队操作需要加锁保护对象的构造在初始化对象池时构造好对象并不是一开始全部构造好而是在获取对象的过程中构造构造之后便保存
Linux平台下安全编译

1 操作系统的软件堆栈内存映射等区域配置 mmap vdso页共享库等实现方式修改操作系统文件 proc sys kernel randomize va space 内容改为2 原因 ASLR针对缓冲区溢出攻击此处将堆栈共享库映
jsp体质表_国家学生体质健康网数据上报平台：http://www.csh.edu.cn/MOETC/index.jsp

国家学生体质健康网数据上报平台即国家学生体质健康标准数据管理分析系统数据上报流程 1 登录中国学生体质健康网 www csh edu cn 进行上报学校网上登记并下载验证文件 ebm 2 使用国家数据库上报软件进行数据上报 3 登录中国
Java面向对象（基础）

面向对象内容的三条主线 Java类及类的成员重点属性方法构造器熟悉代码块内部类面向对象的特征封装继承多态抽象其他关键字的使用 this super package import static final inter
springboot启动报错 Failed to configure a DataSource: ‘url‘ attribute is not specified and no embedded 。。

一错误如下二错误的原因项目启动是出现该错误的原因 SpringBoot SpringBootApplication该注释会有数据库的自动配置但在项目配置文件中没有找到相关的配置导致的三解决方法如果是配置错误修改配置就可以如
线上一次JVM FullGC搞得整晚都没睡，彻底崩溃~

V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 这篇文章给大家聊一次线上生产系统事故的解决经历其背后代表的是线上生产系统的JVM FullGC可能引发的严重故障一业务场景介绍先简单说说线上生产系统的一个背景
Mongodb使用

一注意事项 1 mongodb的32位版本仅支持存储2gb的数据包括索引等所有数据而64位则无限制 2 Mongodb使用内存映射数据存储需要消耗大量的RAM 至少需要满足足够存储所有索引和热数据的物理内存否则会大大影响性能 3
springboot报错无法读取配置文件：Could not resolve placeholder 'xxx' in value "${XXXX}

在springboot项目中通过 Value aliyun oss file endpoint 读取application properties配置文件的内容报错 org springframework beans factory Bea
Python + Jmeter 实现自动化性能压测

Step01 Python脚本开发文件路径 D wl testproject Fone grpc project1 test client py Python 脚本作用 1 通过 grpc 调用底层 c 的接口做数据库的数据插入与查询操
Windows7 64位机上Emgu CV2.4.2安装与配置

1 从http sourceforge net projects emgucv source directory下载最新的Emgu CV2 4 2 2 将libemgucv windows x86 gpu 2 4 2 1777拷贝到D so
人工智能介绍

0 前言前一段时间想做一个文本相似性的系统用于比对两个句子的相似性因此接触了一下机器学习其中主要是看李宏毅老师的机器学习视频课程但是机器学习太过于复杂对于我来说我估计还没有入门只是看到机器学习这个大殿这篇文章是对我之前
多种优化算法优化LSTM——【包括：粒子群、蝙蝠、正余旋、多元宇宙、正余弦、JAYA、哈里斯鹰、萤火虫、布谷鸟、非洲秃鹫、麻雀优化、灰狼优化、蜣螂优化】（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码实现 1 概述多种优化算法优化LSTM Python代码
python如何爬虫股票数据_自学python之爬虫3股票数据爬虫

目标获取股票上交所和深交所所有股票的名称和交易信息保存在文件中使用到的技术 requests bs4 re 网站的选择选取原则股票信息静态存在HTML页面非js代码生成没哟robot协议限制 1 获取股票列表 http quot

python如何爬虫股票数据_自学python之爬虫3股票数据爬虫

python如何爬虫股票数据_自学python之爬虫3股票数据爬虫 的相关文章

随机推荐

热门标签

python如何爬虫股票数据_自学python之爬虫3股票数据爬虫的相关文章