【互联网有记忆】爬取微博热搜榜并存入数据库（python爬虫+存储过程后端实现）

2023-11-11

一、爬虫代码

import random, time
import requests, re
import datetime
import mysql.connector

# 定义爬取间隔(minutes)
interval_time = 15

class HotSearchThread:
    def __init__(self):
        self.curTime = datetime.datetime.now()
        print('[start]开始爬取热搜榜..........')

    # 爬取html页面数据
    def getHtml(self):
        url = "https://s.weibo.com/top/summary?cate=realtimehot"
        headers = [
            {
                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0"
            },
            {
                "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"
            },
            {
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"
            },
            {
                "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36"
            },
            {
                "User-Agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; en-US) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27"
            }
        ]
        header = headers[random.randint(0,len(headers)-1)]
        response = requests.get(url=url, headers=header)
        return response.content.decode()

    # 处理html页面数据，得到绘图所需数据
    def getData(self, html):
        pattern = '<tr.*?<td\s+class="td-01.*?>(\d{1,2})</td>.*?<td\s+class="td-02.*?<a.*?>(.*?)</a>'
        data_rank = re.compile(pattern, re.S).findall(html)

        pattern_top = '<tr.*?<td\s+class="td-(\d)1.*?icon-top.*?</td>.*?<td\s+class="td-02.*?<a.*?>(.*?)</a>'
        data_top = re.compile(pattern_top, re.S).findall(html)

        data = data_top + data_rank

        tail = (datetime.datetime.strftime(self.curTime,'%Y%m%d_%H%M%S'), interval_time)
        for i in range(0,len(data)):
            data[i]  +=  tail
        # print(data)
        print('[success]爬取成功!')
        return data

    # 存入数据库
    def saveDAO(self, data):
        # data为 list 类型
        # data[i]为 元组 类型，若len(data)为51，则data[0]为置顶
        # （ranknum, searchItem, time, duration）
        print('[start]开始写入数据库..........')
        conn = mysql.connector.connect(host="127.0.0.1", port=3306, user="WeiboHotSearch",
                                       password="ws1234.", database="WeiboHotSearch")
        cursor = conn.cursor()
        sql1="SELECT count(TABLE_NAME) FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_SCHEMA='WeiboHotSearch' AND TABLE_NAME=%s;"
        tablename= "table" + datetime.datetime.strftime(self.curTime,'%Y%m')
        val1=(tablename,)
        cursor.execute(sql1, val1)
        res = cursor.fetchone()
        if res[0]==0:
            sql2="call CreateTablePro(%s);"
            val2=(tablename,)
            cursor.execute(sql2, val2)
        for item in data:
            sql3 = "call SelectDataPro(%s, %s, %s, %s, %s, @cnt);"
            sql4 = "select @cnt;"
            val3 = (tablename, int(item[0]), item[1], item[2], item[3])
            cursor.execute(sql3, val3)
            cursor.execute(sql4)
            cnt = cursor.fetchone()
            if cnt[0]==0:
                sql4="call InsertDataPro(%s, %s, %s, %s, %s)"
                val4=(tablename, int(item[0]), item[1], item[2], item[3])
                cursor.execute(sql4, val4)
                print("[Add   ]新增条目：", item)
            else:
                sql5="call UpdateDataPro(%s, %s, %s, %s, %s)"
                val5 = (tablename, int(item[0]), item[1], item[2], item[3])
                cursor.execute(sql5, val5)
                print("[Update]更新条目：", item)

        conn.commit()
        cursor.close()
        conn.close()


    def run(self):
        print("[start] Time: ", datetime.datetime.strftime(self.curTime,'%Y-%m-%d %H:%M:%S'))
        data = self.getData(self.getHtml())
        self.saveDAO(data)
        print("--------------------------------------------------------------")
        print("[over]写入结束!")
        print("--------------------------------------------------------------")
        print("")
        print("")

if __name__ == '__main__':
    print("[Initialized] 开机自启动加载完成！等待运行！")
    time.sleep(60) # 开机等待60秒再运行，防止数据库服务未启动等异常
    while 1:
        HotSearchThread().run()
        time.sleep(interval_time * 60)

二、数据库实现

防止数据库单个表太大，按月份自动生成表，使用存储过程进行管理

存储过程：

--- CreateTablePro
CREATE DEFINER=`WeiboHotSearch`@`%` PROCEDURE `CreateTablePro`(IN `tableName` varchar(50))
BEGIN
 	set @tname = tableName;
	set @sql_create_table = concat(
	'CREATE TABLE IF NOT EXISTS ', @tname,
	'(num int(2),searchItem varchar(255) primary key,hotTime varchar(255),duration int(5))'
	);
	PREPARE sql_create_table from @sql_create_table;
	EXECUTE sql_create_table;
END

--- SelectDataPro
CREATE DEFINER=`WeiboHotSearch`@`%` PROCEDURE `SelectDataPro`(IN `tableName` varchar(50),IN `num` int(2),IN `searchItem` varchar(255),IN `hotTime` varchar(255),IN `duration` int(5), OUT `cnt` int(5))
BEGIN
	 	set @tname = tableName;
		set @num = num;
		set @sItem = searchItem;
		set @hTime = hotTime;
		set @dur = duration;
		
		set @sql_query_data = concat(
			'select count(@sItem) into @cnt from ', @tname, ' where searchItem =  @sItem' 
		);
		PREPARE sql_query_data from @sql_query_data;
		EXECUTE sql_query_data;
		set cnt=@cnt;
		
END

--- InsertDataPro
CREATE DEFINER=`WeiboHotSearch`@`%` PROCEDURE `InsertDataPro`(IN `tableName` varchar(50),IN `num` int(2),IN `searchItem` varchar(255),IN `hotTime` varchar(255),IN `duration` int(5))
BEGIN
	 	set @tname = tableName;
		set @num = num;
		set @sItem = searchItem;
		set @hTime = hotTime;
		set @dur = 0;
		
		set @sql_insert_data = concat(
		'insert into ', @tname,' values( @num, @sItem, @hTime, @dur);'
		);
		PREPARE sql_insert_data from @sql_insert_data;
		EXECUTE sql_insert_data;
END

--- UpdateDataPro
CREATE DEFINER=`WeiboHotSearch`@`%` PROCEDURE `UpdateDataPro`(IN `tableName` varchar(50),IN `num` int(2),IN `searchItem` varchar(255),IN `hotTime` varchar(255),IN `duration` int(5))
BEGIN
	 	set @tname = tableName;
		set @num = num;
		set @sItem = searchItem;
		set @hTime = hotTime;
		set @dur = duration;
		
		set @sql_insert_data1 = concat(
		'update ', @tname,' set duration=duration+@dur where searchItem = @sItem'
		);
		PREPARE sql_insert_data1 from @sql_insert_data1;
		EXECUTE sql_insert_data1;
		
		
		set @sql_insert_data = concat(
		'update ', @tname,' set num=@num, hotTime=@hTime where searchItem = @sItem and num>@num'
		);
		PREPARE sql_insert_data from @sql_insert_data;
		EXECUTE sql_insert_data;
END

其他：

--- 建表模板
drop table tablename;
CREATE table tablename (
	num int(2),
	searchItem varchar(255) primary key,
	hotTime varchar(255),
	duration int(5)
)

--- 判断数据库中是否存在某张表
SELECT count(TABLE_NAME) FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_SCHEMA='WeiboHotSearch' AND TABLE_NAME='test';


--- 存储过程的调用
call CreateTablePro('test')

call InsertDataPro('table202003', 0, '复工复产保卫战', '20200324_165840', 20)

call SelectDataPro('table202003', 0, '复工复产保卫战', '20200324_165840', 20, @cnt);
select @cnt;

call UpdateDataPro('table202003', 30, '方方', '20200324_165840', 20)

--- select 查询验证
select * from table202003 where duration = 20


--- mysql创建并调用含有out参数的存储过程
CREATE PROCEDURE sp_add(a int, b int,out c int)
begin

 set c=a+ b;

end;
--- 调用过程：
call sp_add (1,2,@a);
select @a;

三、aliyun部署

# 脚本路径：
/root/myPyProgram/Weibo.py
# 脚本日志：
/root/myPyProgram/logs/Weibo.log

# 设置开机启动
chmon +x /etc/rd.local
vim /etc/rd.local

#追加内容：
/usr/bin/python3 -u /root/myPyProgram/Weibo.py  &>> /root/myPyProgram/logs/Weibo.log


# 查看进程状态
ps -aux|grep "Weibo.py"   # 会显示开始运行时间，结束时间等
ps -ef|grep "Weibo.py"   # 只显示进程相关信息

# 查询进程id
ps -ef | grep Weibo.py | grep -v grep | awk '{print $2}'
# 查询进程id并杀死该进程
ps -ef | grep Weibo.py | grep -v grep | awk '{print $2}' | xargs kill -9

# 杀死进程
kill -9 [进程id]

shell 脚本杀死进程 dsp-admin

echo "开始查询DSP2.0运行的进程编号，查出将其kill"
dsp_admin_id=`ps -ef | grep dsp-admin | grep -v "grep" | awk '{print $2}'`
echo $dsp_admin_id

for id in $dsp_admin_id
do
    kill -9 $id  
    echo "killed $id"  
done

四、运行截图

五、相关问题及解决方案

1、日志文件创建了，程序执行了，但是日志为0K，tail -f Weibo.log查看为空:

python程序输出无内容问题

2、/usr/local/bin/python3不存在，需要添加软连接

Linux下开机启动python脚本详解

3、mysql存储过程相关

mysql存储过程用表名做参数并获取execute执行语句的结果

MySql存储过程动态创建表并插入数据

Mysql中表名作为参数的问题

4、linux查看进程状态

linux命令ps aux|grep xxx详解

5、Linux中没有rc.local文件的完美解决方法

解决办法步骤一

解决办法步骤二

6、python获取当前系统时间并格式化

python 如何获取当前系统的时间

7、linux脚本设置开机启动（后台）

链接

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

python

server

mysql

存储过程

【互联网有记忆】爬取微博热搜榜并存入数据库（python爬虫+存储过程后端实现）的相关文章

用定点迭代求解该方程

我怎样才能解这个方程 x3 x 1 0 使用定点迭代有没有定点迭代我可以在网上找到代码尤其是Python 吗 Using scipy optimize fixed point http docs scipy org doc scipy
WordPress 访问

我正在与朋友一起开发一个网站使用Wordpress我们正在尝试从我的计算机和他的计算机访问同一个 WordPress 帐户以便我们可以一起在网站上工作我们尝试将彼此添加为管理员但只能从创建管理员的计算机上访问新帐户有谁知道如何做到
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
如何在 MySql Workbench 中禁用 INVISIBLE 索引选项？

我刚刚安装了MySqlWorkbench我发现了实施INVISIBLE index所描述的here https dev mysql com doc refman 8 0 en invisible indexes html 我想禁用此功能因
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
错误：NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信

NVIDIA SMI 抛出此错误 NVIDIA SMI 失败因为无法与 NVIDIA 通信司机确保安装了最新的 NVIDIA 驱动程序并且跑步我清除了 NVIDIA 并按照提到的步骤重新安装了它here https askubun
Linux命令列出所有可用命令和别名

是否有一个 Linux 命令可以列出该终端会话的所有可用命令和别名就好像您输入 a 并按下 Tab 键一样但针对的是字母表中的每个字母或者运行别名但也返回命令为什么我想运行以下命令并查看命令是否可用 ListAllComman
更新或插入 MySQL Python

如果记录已存在我需要更新一行如果不存在我需要创建一个新记录我理解 ON DUPLICATE KEY 将使用 MYSQLdb 完成此操作但是我无法使其正常工作我的代码如下 cursor database cursor cursor
在 grpc python 中处理异步流请求

我试图了解如何使用双向流处理 grpc api 使用 Python API 假设我有以下简单的服务器定义 syntax proto3 package simple service TestService rpc Translate stre
Google App Engine self.redirect() POST 方法

在 GAE Python 中使用 webApp 框架调用 self redirect some url 通过 GET 方法将用户重定向到该 URL 是否也可以通过带有一些参数的 POST 方法进行重定向如果可以的话怎样做 Than
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
MySQL-分割字符串

我的问题与这篇文章类似 MySQL 中的反向 GROUP CONCAT https stackoverflow com questions 17308669 reverse group concat in mysql 然而而不是反转gr
如何通过代理将套接字连接到http服务器？

最近我使用 C 语言编写了一个程序用于连接到本地运行的 HTTP 服务器从而向该服务器发出请求这对我来说效果很好之后我尝试使用相同的代码连接到网络上的另一台服务器例如 www google com 但我无法连接并从网络中的代理
查询中的存储过程

有一个程序获取文件列表顾名思义返回一个文件列表以及更多选项那么是否可以在查询选择中使用此过程像这样的东西 select Field1 from Image where Field2 IN call GetFileList 你应该把它

随机推荐

当系统中登录用户的角色和权限改变时的处理方法

一当登陆在线的用户的角色的权限改变时处理 1 登陆时将用户的所有权限放入session之中 2 在filter中加入判断信息动态去数据库查询当前用户的权限和session中的权限的集合大小进行比较不一致移除session中的旧权限
[AHK]新浪实时股票数据接口

2022年1月发现新浪接口反馈 Kinsoku jikou desu 已有新的方法如需获取实时股票价格当前价格涨停价跌停价等请联系weixin sunwind1576157 AHK 腾讯实时股票数据接口 AHK 腾讯实时股票
GO语言常用标准库 fmt

GO语言常用标准库 fmt 1 fmt fmt包实现了类似C语言printf和scanf的格式化I O 主要分为向外输出内容和获取输入内容两大部分 1 1 1 向外输出标准库fmt提供了以下几种输出相关函数 Print Print系列函数
1024Byte(字节)=1KB

二进制数系统中每个0或1就是一个位 bit 位是数据存储的最小单位计算机中的CPU位数指的是CPU一次能处理的最大位数例如32位计算机的CPU一次最多能处理32位数据字节 Byte 是通过网络传输信息或在硬盘或内存中存储信息的单
【转】本地jar 上传到maven仓库

Maven环境准备下载maven安装包解压后配置好path环境变量具体配置请参考百度注意一般maven仓库有两个目录可以上传 maven snapshots 和 maven releases 一般快照也就是jar的后缀名为snap
Python：安装paddlepaddle后运行代码报错ImportError: core_avx.so: undefined symbol: _dl_sym, version GLIBC_PRIVA

是paddlepaddle版本导致的出现问题时我安装的版本是 python m pip install paddlepaddle 2 3 1 i https pypi tuna tsinghua edu cn simple 改成下面这个版
Spring(做项目常用的网址)

目录 1 后端maven中央仓库 2 jquery官网下载 3 mybatis文档中文版 4 mybatis英文文档 5 mybatis生成逆向工程代码及网址 6 Spring网址附注常用到的代码 7 使用 Controller注解为什么
【数据库原理复习题】

文章目录一单选题二填空题三判断题四简答题五综合题 5 1 属性集合的闭包计算 5 2 确定候选码并进行范式级别的判断 5 2 1 确定候选码讲解 5 2 2 范式级别的判断讲解 5 3 根据要求写SQL语句 5 3 1数
canvas绘制小树阴影-transform

绘制小路可用quadraticCurveTo 二次贝塞尔曲线来绘制复杂曲线也可以用bezierCurveTo 三次贝塞尔曲线效果图代码如下 demo html
深度学习环境配置8——（30系显卡）windows下的torch==1.7.1环境配置

深度学习环境配置8 30系显卡 windows下的torch 1 7 1环境配置注意事项一 2021 10 8更新学习前言各个版本pytorch的配置教程环境内容环境配置一 Anaconda安装 1 Anaconda的下载 2
计算机毕业设计Node.js+Vue会议管理系统(程序+源码+LW+部署)

该项目含有源码文档程序数据库配套开发软件软件安装教程欢迎交流项目运行环境配置 Node js Vscode Mysql5 7 HBuilderX Navicat11 Vue Express 项目技术 Express框架 No
java socket tcp 长连接_java socket长连接

package com paic umap tcp import java io IOException import java io InputStream import java io ObjectInputStream import
LeetCode 182. Duplicate Emails

SQL Schema Write a SQL query to find all duplicate emails in a table named Person Id Email 1 a b com 2 c d com 3 a b com
Ubuntu 下配置protobuf

首先得到 protobuf 相应的包文件在终端上输入如下 wget http protobuf googlecode com files protobuf 2 5 0 tar gz 由于现在 protobuf 2 5 0 tar gz已
Python Serial串口的简单数据收发

导入模块注意这里模块名是pyserial pip install pyserial 1 打开串口 import serial com serial Serial COM3 9600 print com 2 发送数据 import seri
unityhub登录不上，登录界面刷新不出来

如果是登录界面白屏的话可以尝试 1 关闭hub 右下角也要退出找不到的可以直接任务管理器退出 2 删除 UserProfile AppData Roaming 里面的 UnityHub Cache和 Unity Caches 文件夹 3
javascript的null、undefined和布尔数据类型

javascript中有null undefined 在使用typeof 时候 console log typeof null object console log typeof undefined undefined null与unde
C++ gbk与utf8互转

本文代码已在vs2017上验证 gbk转utf8容易出现中文乱码有的时候在x86 32位编译环境下中文显示正常但切换到x64 64位编译环境下会乱码本文所示的代码在32位和64位编译环境下均不会出现乱码使用例子见 C 调用pytho
在windows下使用Vscode用CMake..命令编译源代码时候遇到的问题之解决办法

由于我在windows下用Vscode总是不记得如何deal这个错误因此今天就用这篇博客记录下来在windows的Vscode这个IDE下打开终端输入命令行 C Users 11602 Desktop test build gt c
【互联网有记忆】爬取微博热搜榜并存入数据库（python爬虫+存储过程后端实现）

一爬虫代码 import random time import requests re import datetime import mysql connector 定义爬取间隔 minutes interval time 15 clas