python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)

2023-11-03

很遗憾，部分数据有些问题，不过还是可以进行爬取出来的

先贴上源代码

#encoding=utf8
from selenium import webdriver
import re
from  bs4 import BeautifulSoup
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

import time


#使用selenium
# driver = webdriver.PhantomJS(executable_path="D:\\phantomjs.exe") #因为这里把phantomjs.exe 放在py35下了，所以可以不用设置

#1 使用selenium
driver = webdriver.PhantomJS()

# 2调用get方法,进入到网页
def getdata_byQQ(QQ):
    driver.get('https://user.qzone.qq.com/{}/311'.format(QQ))

    # 3 让页面滚动到下面
    driver.execute_script("window.scrollBy(0,3000)")
    time.sleep(3)

    driver.execute_script("window.scrollBy(0,5000)")
    time.sleep(3)

    # 4 得到页中内容
    page_data = driver.page_source
    # print('page_data  '+page_data)

    # 以上方法的内容是没有得到登陆许可的，所以要进行登陆
    try:
        driver.find_element_by_id('login_div') # 找到登陆入口
        a = True
    except:
        a = False
    if a == True:
        driver.switch_to_frame('login_frame')
        driver.find_element_by_id('switcher_plogin').click()
        driver.find_element_by_id('u').clear()  # 选择用户名框
        driver.find_element_by_id('u').send_keys('QQ号')
        driver.find_element_by_id('p').clear()
        driver.find_element_by_id('p').send_keys('QQ密码')
        driver.find_element_by_id('login_button').click()
        time.sleep(3)
        driver.implicitly_wait(3)

    try:
        # 是否设置了权限
        driver.find_element_by_id('QM_OwnerInfo_Icon')
        b = True
    except:
        b = False

    if b == True:
        driver.switch_to_frame('app_canvas_frame')
        content = driver.find_element_by_css_selector('.content')
        stime = driver.find_element_by_css_selector('.c_tx.c_tx3.goDetail')
        for con,sti in zip(content,stime):
            data = {
                'time':sti.text,
                'shuos':con.text
            }
            print(data)
        pages = driver.page_source
        soup = BeautifulSoup.get(pages,'lxml')
    # 这里尝试获取cookie
    cookie = driver.get_cookies()
    cookie_dict = []

    for c in cookie:
        ck = "{0}={1};".format(c['name'], c['value'])
        cookie_dict.append(ck)
    i = ''
    for c in cookie_dict:
        i += c
    print('Cookies:', i)
    print("==========完成================")
    driver.close()
    driver.quit()
getdata_byQQ(643435675)

再贴上学习blog：http://zmister.com/archives/98.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3爬虫

我的python3爬虫之路

python

selenium

爬虫

python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留) 的相关文章

使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的

随机推荐

高云FPGA系列教程（2）：FPGA点灯工程创建、程序下载和固化

文章目录 toc 1 工程目录创建 2 新建工程 3 设计输入 4 设计仿真 5 综合 6 管脚分配 7 时钟约束 8 比特流文件生成 9 程序下载 10 程序固化 11 总结 12 工程下载本文是高云FPGA系列教程的第2篇文章介绍完
产业大数据应用：洞察区域产业实况，把握区域经济脉搏

随着新一代信息技术的崛起我们进入了大数据时代在这个时代数据作为基本生产要素不仅改变着我们的日常生活更是在区域产业经济发展中扮演着重要角色它赋予了政府企业和投资者敏锐的洞察力一摸清区域经济现状基于区域产业经济数据的收集及导入
Halcon-表面检测-----裂纹检测

对应示例程序 detect mura defects blur hdev 目标实例实现LCD上有很多污点干扰下检测LCD的印痕检测思路为对LCD图像进行拆分提取RGB三个分量对B分量进行处理将其转换为频域内图像并对其进行高斯
数据分析行业，主要有哪些基本职位，具体的职责是什么？

1 数据跟踪员机械拷贝看到的数据很少处理数据虽然这个工作的人还不能称作数据分析师但是往往作这样工作的人还都自称是数据分析师这样的人只能通过系统看到有限的数据并且很少去处理数据甚至不理解数据的由来和含义只是机械的把自己看到
21届毕业生，想做软件测试，没工作经验而且已经毕业，怎么找软件测试工作？

如果说你是上面现状去找软件测试工作而且居然还找到了那么可能会是如下几种情况 1 该公司对软件质量要求很低随便来个会点点点的能够检查功能是否正常即可毕竟我是真遇到过一个CEO说软件测试很难吗我都能测试啊没必要找测试人员开发完
不对等的爱情该不该放弃

刚好两个人对爱情都有勇气全力以赴是多么难得的巧合每个人都有自己的过往我期望我们在最适当的时候相遇一个投入的人碰上一个疏离的人结局必定黯然下一次我希望我们相遇的时间会好一点爱情经常出现一种奇怪的模式你很用力的去爱一个人对方却
jmeter JDBC request提示“Cannot convert value '0000-00-00 00:00:00' from column 6 to TIMESTAMP.”

在学习jmeter数据库相关的过程中在请求数据库时报错 Cannot convert value 0000 00 00 00 00 00 from column 6 to TIMESTAMP 解决方法更改连接数据库方式在连接 jdbc
C++基础入门教程

1 C 初识 1 1 第一个C 程序编写一个C 程序总共分为4个步骤创建项目创建文件编写代码运行程序 1 1 1 创建项目 Visual Studio是我们用来编写C 程序的主要工具我们先将它打开 1 1 2 创建文件右键源文
获取本地硬盘信息

using System using System Runtime InteropServices using System Text namespace driverId Serializable public struct HardDi
JS-语法进阶

JS 语法进阶三元运算符类数组对象
蓝桥杯 51单片机 AT24C02

工作电压为1 8v 6v 第7引脚 WP 接地时允许正常读写 24C02设备地址包括固定部分和可编程部分编程部分由A2 A1 A0三个硬件引脚来控制设备地址最后一位用于设置数据传输方向读写在IIC总线协议中设备地址是起始信号后第
git分支管理策略

1 总览 git 的分支整体预览图如下从上图可以看到主要包含下面几个分支 master git默认主分支这里不作操作 stable 稳定分支替代master 主要用来版本发布 develop 日常开发分支该分支正常保存了开发的最新代
黑客自学路线

谈起黑客可能各位都会想到盗号其实不尽然黑客是一群喜爱研究技术的群体在黑客圈中一般分为三大圈娱乐圈技术圈职业圈娱乐圈主要是初中生和高中生较多玩网恋人气空间建站收徒玩赚钱技术高的也是有的只是很少见技术圈这个
Shader开发之三大着色器

Shader开发之三大着色器固定功能管线着色器Fixed Function Shaders 固定功能管线着色器的关键代码一般都在Pass的材质设置Material 和纹理设置SetTexture 部分 Shader Custom Vert
Anaconda3-5.1.0下载和安装

下载安装anaconda的小插曲 1 在官网上找到windows的32位的下载毕竟是八年前的老本了另一个本装的64位结果网站上出现问题没有成功下载 2 万能的网络终于找到可以下载的清华镜像地址 Index of anaconda
如何阅读源代码

我们在写程式时有不少时间都是在看别人的代码例如看小组的代码看小组整合的守则若一开始没规划怎么看就会噜看噜苦台语不管是参考也好从开源抓下来研究也好为了了解箇中含意在有限的时间下不免会对庞大的源代码解读感到压力网路上有
Win11 安装Docker Desktop报错：Update the WSL kernel by running “wsl --update“ or follow instructions

这个问题解决了一整个下午看了无数的解决方案最后找到了最有效的解决方案总结如下安装Docker Desktop之后打开出现这样的问题根据提示在powershell通过 wsl update 命令出现 error 那么可以试试下面
计算机视觉技术与应用综述

引用自无人系统之眼计算机视觉技术与应用浅析张丹单海军王哲吴陈炜一前言近年来人工智能和深度学习获得突破成为了大众关注的焦点如LeCun Y Bengio Y Hinton G等 1 提出的深度卷积网络在图像识别领
一篇文章搞定Python多进程（这才是正确的Python多进程的打开方式）

1 Python多进程模块 Python中的多进程是通过multiprocessing包来实现的和多线程的threading Thread差不多它可以利用multiprocessing Process对象来创建一个进程对象这个进程对象
python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)

很遗憾部分数据有些问题不过还是可以进行爬取出来的先贴上源代码 encoding utf8 from selenium import webdriver import re from bs4 import BeautifulSoup f

python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)

很遗憾，部分数据有些问题，不过还是可以进行爬取出来的

python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留) 的相关文章

随机推荐

热门标签