python 爬虫刷浏览量（单线程）---仅供学习目的，切莫有其他想法

2023-11-15

重要的事情说三遍：

仅供学习使用，若有其他想法，请出门右转

准备：

简单的网站浏览量无非就是访问次数，那么一直按F5就可以，做得比较好的网站会根据“ip”计算浏览量。

所以步骤如下：

1、去提供代理ip的网站爬取大量ip

2、利用爬取的ip去构建请求，请求需要刷新的网址

遇到的问题：

1、proxy里面http 和https要小写，

2、代理的ip不能正常使用，需要try 把异常抛出来，

3、去爬取代理的时候竟然被代理网站屏蔽了（我也很无奈，只能随便找一个可用ip去代理访问）

开始：

直接上代码：（单线程）

#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
#-----------------------------------以上为控制编码方式
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
#-----------------------------------构建爬大力ip头部请求
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
}
#----------------------------------构建刷浏览量的头部
headers1 = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Encoding":"gzip, deflate, br",
    "Accept-Language":"zh-CN,zh;q=0.9",
    "Host":"blog.csdn.net",
    "Referer":"https://www.baidu.com/link?url=N5tv6Q8HFZKoiM0jwgasxeZFcACmTQj6ZdhGH_9tw-4moasBNbt1ziUg7Hc3yrNdDUzkywJWaptTv2nB7Mhn6Zmmbbcb73KDiV9UkkyiLIi&wd=&eqid=b01ced82000163f1000000025bc6f2c2",
}
##爬取代理网址
url = "http://www.nimadaili.com/https/"
#刷浏览量网址
url1 = "https://blog.csdn.net/xidianyueyong/article/details/83014490"
page = 1    #走动拉去ip下一页
index = 1   #刷新次数计数
while 1:
    #使用代理ip大量拉取代理ip   由于ip代理网站是js交互式的，所以要本地起一个 phantomJs 来解析
    ###下面这个不要问为什么，现代代理ip的网站也有屏蔽    迫不得已用代理爬虫代理ip
    #-----------------------------------------------------------------------------------------
    service_args = ['--proxy=123.57.76.102:80','--proxy-type=http']     #设置ip
       # "http":"http://120.77.247.147:80"
    driver = webdriver.PhantomJS(service_args = service_args)
    driver.get(url+str(page))
    data = driver.page_source
    driver.quit()
    page+=1     #表示翻页
    print page  #打印下一页页数
    source = BeautifulSoup(data, "lxml")  # 解析一下执行过js的网页代码
    cookies = dict(smidV2='201809010949063bb3637a1929ba7ee66871cecd6cf81f007684ccfa7eaaa50')   #随笔写一个cookies
    # -----------------------------------ip结果处理
    res_group = source.select(".mt-0 tr")   #分析网站源码，找到ip列表并提取
    res_group = res_group[1:]               #截去第一个防止title被算进内
    #-------------------------------------------------------------------------------------------------------
    #-------------------------------------------------------------------------------------------------------
    #刷浏览量部分
    for i in res_group:                     #循环利用代理ip
        if len(i) > 0 and i != []:
            td_group = i.find_all("td")
            #---------------------------构造代理
            proxy = {
                "https":"https"+"://"+td_group[0].text   #+":"+td_group[2].text
            }
    # ----------------------------------代理发送请求
            try:
                r = requests.get(url=url1, headers=headers1, proxies=proxy,cookies = cookies,timeout = 3)
            except BaseException:
                continue
            else:
                if r.status_code == 200:
                    print ("刷新 %d次！" % index)
                    index += 1
                else:
                    continue
print "刷新成功！"

望各位看官大神指点12

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python 爬虫刷浏览量（单线程）---仅供学习目的，切莫有其他想法的相关文章

ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
如何修复错误“错误：命令错误，退出状态 1：python。”尝试使用 pip 安装 django-heroku 时[重复]

这个问题在这里已经有答案了我正在尝试使用 pip 安装 django heroku 但它一直遇到错误我看到一些建议告诉我要确保 Heroku 中的 Python 版本是最新的我已经这么做了推送到 Heroku master 后我运
如何在Python中获得更精确的十进制值[重复]

这个问题在这里已经有答案了 from math import sqrt a 1e 8 b 10 c 1e 8 x1 b sqrt b 2 4 a c 2 a x2 b sqrt b 2 4 a c 2 a print x1 format x
Python（openpyxl）：将数据从一个excel文件转移到另一个（模板文件）并用另一个名称保存，同时保留模板

我有一个templateexcel 文件名为template xlsx其中有许多张我想从单独的地方复制数据 csv文件到第一页template xlsx 命名为data 并将新文件另存为result xlsx同时保留原来的模板文件我想粘
如何在python包中包含.pyx文件

我在我的包中使用了 cythonpyirt https github com 17zuoye pyirt 但是当我将其发布到 pypi 时 pyx 文件不包含在 tar gz 中我认为这一定与安装文件有关但是我找不到解决这个问题的方法
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
如何使用 Tkinter 创建等宽网格列？

如何强制 Tkinter 应用程序窗口中的列宽度相等 tkdocs网站声明如下每列的宽度或每行的高度取决于列或行中包含的小部件的宽度或高度这意味着当绘制用户界面并将其划分为行和列时您无需担心每列或行的宽度相等或高度大概 TkD
Python 异步 REST API 的响应依赖于 CPU 密集型计算。如何高效处理？ [复制]

这个问题在这里已经有答案了我已经使用编写了一个基本的 REST APIaiohttp https aiohttp readthedocs io en stable index html 下面包含其简化版本以说明我想要解决的问题该 AP
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
在 matplotlib 中分割图例

是否有可能将一个大图例分成多个通常是 2 个较小的图例 from pylab import t arange 0 0 2 0 0 01 s sin 2 pi t plot t s linewidth 1 0 label Graph1 g
Django：上传前调整图像大小

我想调整图像大小 Pillow 在上传之前我在下面编写了代码但不起作用并得到错误 myapp list 处的属性错误坚定的请求方式 POST 请求网址 http 127 0 0 1 8000 myapp list http 127
VS Code Pylance 不突出显示变量和模块

我正在使用带有 Python 和 Pylance 扩展的 VS Code 我遇到的问题是 Pylance 扩展没有对模块和数据框等内容进行语法突出显示我希望顶部的模块为绿色 df 变量为蓝色我正在使用默认的深色颜色主题这是我的 VS
将 Python 3 的“范围”“向后移植”到 Python 2 是一个坏主意吗？

我的一门课程要求用 Python 完成作业作为练习我一直使用如下脚本确保我的程序可以在 Python 2 和 Python 3 中运行 bin bash Run some PyUnit tests python2 test py pyt
将glade接口放入python中

我在 Glade 中制作了一个 gui 我想将其放入 python 程序中我正在调整我在网上找到的教程中的说明以将其加载到我的林间空地文件中 http www pygtk org articles pygtk glade gui Cre
纯Python库读写jpeg格式

伙计们我正在寻找 jpeg 写入阅读会很好但不是必需的库的纯 python 实现我只在以下位置创建了 TonyJPEG 库端口 http mail python org pipermail image sig 2004 Novem
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
如果我更改当前工作目录，为什么 __file__ 会变成无效路径？

执行中test py from tmp import os print os path abspath file os chdir var print os path abspath file output tmp test py var
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页

随机推荐

element-ui 实现多日期选择

一前端代码
Spring 多线程异步上传图片、处理水印、缩略图

使用环境 SpringBoot FastDfs thumbnailator fdfs环境自己搞吧 thumbnailator maven依赖
C++中引用的用法以及将引用作为函数的形参

在C 中引用就相当于是给变量起了一个别名有点类似于指针但是与指针又不同引用的初始化 int i i 10 变量i的引用引用必须在创建的时候就要初始化而指针可以在任意的时候初始化引用就相当于是给变量起了一个别名 int i r i
HTML基本结构

HTML一般是在vscod中进行书写后缀为html 其完整的基本结构如下 h1 一级标题 h1 每一个尖括号 lt gt 代表着标签或者说是元素不同的标签代表有着不同的作用标签一般成对出现后一个标签为前一个标签加一个例如但也有单个
基于巴法云的esp8266实现温湿度、LED、sg90舵机和HC-RS04实现的小程序远程控制

基于巴法云的esp8266实现温湿度 LED sg90舵机和HC RS04实现的小程序远程控制具体代码本项目想法已经在我脑海想了很久了都没有时间去实现它这次刚刚考完试就用了两天把它做了出来希望对大家有帮助有什么需要的可以在下面留
upload-labs：pass-10

is upload false msg null if isset POST submit if file exists UPLOAD PATH deny ext array php php5 php4 php3 php2 html htm
工厂三兄弟之工厂方法模式（四）

5 重载的工厂方法 Sunny公司开发人员通过进一步分析发现可以通过多种方式来初始化日志记录器例如可以为各种日志记录器提供默认实现还可以为数据库日志记录器提供数据库连接字符串为文件日志记录器提供文件路径也可以将参数封装在一个Obj
Puppeteer 安装与注意事项《一》

Puppeteer 安装与注意事项 1 安装node js 在使用puppeteer的时候它一些低版本的node是不支持的作者推荐使用8以上的版本否则node在后面使用puppeteer的时候会抛出 SyntaxError Unex
从外部验证安全密码存储

许多网站包括 Adobe Yahoo LinkedIn Gawker等大型网站不安全地存储用户密码可以是纯文本格式的也可以是加密的可逆的格式或者是使用残破或蛮力的哈希函数许多网站的密码存储机制仍然很差所以呢好吧如果数据
js生成柱状图
内存泄露的检测方法

本文来自http blog csdn net lijun84 引用必须注明出处在谈及内存泄漏时对于没有太多经验的新人来说总是很头疼的一件事因为如果项目早期没有将其纳入代码框架后期部署上线之后仅从进程 crash 的 dump 很难
openGauss学习笔记-36 openGauss 高级数据管理-TRUNCATE TABLE语句

文章目录 openGauss学习笔记 36 openGauss 高级数据管理 TRUNCATE TABLE语句 36 1 语法格式 36 2 参数说明 36 3 示例 openGauss学习笔记 36 openGauss 高级数据管理 TR
Docker部署Emqx并配置ssl支持微信小程序

1 端口介绍 1883 MQTT 协议端口 8084 MQTT SSL 端口 8083 MQTT WebSocket 端口 8080 HTTP API 端口 18083 Dashboard 管理控制台端口 2 拉取镜像 docker pul
算法与数据结构—LeetCode刷题笔记

算法刷题笔记一动态规划 53 最大子序和 300 最长上升子序列 70 爬楼梯 242 有效的字母异位词 463 岛屿的周长文章与视频资源多平台更新微信公众号知乎 B站头条 AI研习图书馆一动态规划 53 最大子序和典型的
js执行时序宏任务和微任务

宏任务一般是包括整体代码script setTimeout setInterval I O UI render 微任务主要是 Promise Object observe MutationObserver process nextTick
【MySQL高性能】MyCat 2.分片策略以及原理分析

简介数据库分片可以把他理解成分库将一张表拆分到多个数据库中通常是在表数据大的情况进行拆分根据InnerDB索引原理主键索引类型bigint计算得出一张表达到2千万就需要进行拆分了当然也需要提前做好拆分数据量大查询效率会慢阿里
android kernel devices睡眠唤醒调试

主要是在kernel添加关键log 获取有用信息可以调试suspend resume earlysuspend lateresume等方面的问题如哪一过程时间过长跟踪log才可以很好定位问题解决问题 1 early suspend
PermissionError: [WinError 5] 拒绝访问

使用Pycharm运行时报错 PermissionError WinError 5 拒绝访问但是使用终端 Terminal 运行就没有问题尝试方案三步解决python PermissionError WinError 5 拒绝访问的
vue 报错：Invalid prop: type check failed for prop “xxx“. Expected String with value “1“,Number...

期望的是String类型但是传的值是Number 类型如果你传的是number类型的你需要先转化为字符串就可以了改成
python 爬虫刷浏览量（单线程）---仅供学习目的，切莫有其他想法

重要的事情说三遍仅供学习使用若有其他想法请出门右转仅供学习使用若有其他想法请出门右转仅供学习使用若有其他想法请出门右转准备简单的网站浏览量无非就是访问次数那么一直按F5就可以做得比较好的网站会根据 ip 计算浏览量

python 爬虫刷浏览量（单线程）---仅供学习目的，切莫有其他想法

重要的事情说三遍：

仅供学习使用，若有其他想法，请出门右转

仅供学习使用，若有其他想法，请出门右转

仅供学习使用，若有其他想法，请出门右转

python 爬虫刷浏览量（单线程）---仅供学习目的，切莫有其他想法 的相关文章

随机推荐

热门标签

python 爬虫刷浏览量（单线程）---仅供学习目的，切莫有其他想法的相关文章