使用 Selenium 登录页面可以工作 - 使用 BS4 进行解析可以工作 - 但不能同时使用两者

2024-03-14

从 Wordpress 论坛获取一些数据需要登录和解析 - 两个部分。两者作为独立部分都可以很好地工作。我可以使用 selenium 登录 - 完美 - 并且我可以使用 BS4 解析（抓取）数据。但是当我将这两个部分结合起来时，我遇到了会话问题 - 我无法解决。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
 
#--| Setup
options = Options()
#options.add_argument("--headless")
#options.add_argument("--window-size=1980,1020")
#options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path=r'C:\chrome\chromedriver.exe', options=options)
#--| Parse or automation
browser.get("https://login.wordpress.org/?locale=en_US")
time.sleep(2)
user_name = browser.find_element_by_css_selector('#user_login')
user_name.send_keys("the username ")
password = browser.find_element_by_css_selector('#user_pass')
password.send_keys("the pass")
time.sleep(5)
submit = browser.find_elements_by_css_selector('#wp-submit')[0]
submit.click()
 
# Example send page source to BeautifulSoup or selenium for parse
soup = BeautifulSoup(browser.page_source, 'lxml')
use_bs4 = soup.find('title')
print(use_bs4.text)
#print('*' * 25)
#use_sel = browser.find_elements_by_css_selector('div > div._1vC4OE')
#print(use_sel[0].text)

注意-这很完美。您可以使用以下组合进行检查：

login: pluginfan
pass: testpasswd123

请参阅下面带有 bs4 的解析器和抓取器 - 效果非常出色。

#!/usr/bin/env python3
 
import requests
from bs4 import BeautifulSoup as BS
 
session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0'}) # this page needs header 'User-Agent`
 
url = 'https://wordpress.org/support/plugin/advanced-gutenberg/page/{}/'
 
for page in range(1, 3):
    print('\n--- PAGE:', page, '---\n')
 
    # read page with list of posts
    r = session.get(url.format(page))
 
    soup = BS(r.text, 'html.parser')
 
    all_uls = soup.find('li', class_="bbp-body").find_all('ul')
 
    for number, ul in enumerate(all_uls, 1):
 
        print('\n--- post:', number, '---\n')
 
        a = ul.find('a')
        if a:
            post_url = a['href']
            post_title = a.text
 
            print('text:', post_url)
            print('href:', post_title)
            print('---------')
 
            # read page with post content
            r = session.get(post_url)
 
            sub_soup = BS(r.text, 'html.parser')
 
            post_content = sub_soup.find(class_='bbp-topic-content').get_text(strip=True, separator='\n')
            print(post_content)

但两者的组合不起作用：猜测我无法使用请求创建新会话，大多数工作都使用 Selenium 创建的会话，我在使用登录部分运行解析器时遇到一些问题

独立解析器返回有效内容 - 这很好！

--- post: 1 ---
 
text: https://wordpress.org/support/topic/advanced-button-with-icon/
href: Advanced Button with Icon?
---------
is it not possible to create a button with a font awesome icon to left / right?
 
--- post: 2 ---
 
text: https://wordpress.org/support/topic/expand-collapse-block/
href: Expand / Collapse block?
---------
At the very bottom I have an expandable requirements.
Do you have a better block? I would like to use one of yours if poss.
The page I need help with:
 
--- post: 3 ---
 
text: https://wordpress.org/support/topic/login-form-not-formatting-correctly/
href: Login Form Not Formatting Correctly
---------
Getting some weird formatting with the email & password fields running on outside the form.
Tried on two different sites.
Thanks
 
..... [,,,,,] ....
 
--- post: 22 ---
 
text: https://wordpress.org/support/topic/settings-import-export-2/
href: Settings Import & Export
---------
Traceback (most recent call last):
  File "C:\Users\Kasper\Documents\_f_s_j\_mk_\_dev_\bs\____wp_forum_parser_without_login.py", line 43, in <module>
    print(post_content)
  File "C:\Program Files\Python37\lib\encodings\cp1252.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\U0001f642' in position 95: character maps to <undefined>
[Finished in 14.129s]

有任何想法吗？

EDIT:在这两个版本中，我都添加了保存为 CSV 文件的功能。

如果你有Selenium and requests那么有三种可能

use Selenium登录并获取页面。
use requests.Session登录并获取页面。
use Selenium登录时，从 Selenium 获取会话信息并在中使用它们requests

Using Selenium登录和获取页面要简单得多，但速度较慢requests

只需要使用

browser.get(url)代替r = session.get(post_url)
BeautifulSoup(browser.page_source, ...)代替BeautifulSoup(r.text, ...)

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
import csv

#--| Setup
options = Options()
#options.add_argument("--headless")
#options.add_argument("--window-size=1980,1020")
#options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path=r'C:\chrome\chromedriver.exe', options=options)
#browser = webdriver.Firefox()

# --- login ---

browser.get("https://login.wordpress.org/?locale=en_US")
time.sleep(2)

user_name = browser.find_element_by_css_selector('#user_login')
user_name.send_keys("my_login")
password = browser.find_element_by_css_selector('#user_pass')
password.send_keys("my_password")
#time.sleep(5)
submit = browser.find_elements_by_css_selector('#wp-submit')[0]
submit.click()
 
# Example send page source to BeautifulSoup or selenium for parse
soup = BeautifulSoup(browser.page_source, 'lxml')
use_bs4 = soup.find('title')
print(use_bs4.text)
#print('*' * 25)
#use_sel = browser.find_elements_by_css_selector('div > div._1vC4OE')
#print(use_sel[0].text)

# --- pages ---

data = []

url = 'https://wordpress.org/support/plugin/advanced-gutenberg/page/{}/'
 
for page in range(1, 3):
    print('\n--- PAGE:', page, '---\n')
 
    # read page with list of posts
    browser.get(url.format(page))
    soup = BeautifulSoup(browser.page_source, 'html.parser') # 'lxml'
 
    all_uls = soup.find('li', class_="bbp-body").find_all('ul')
 
    for number, ul in enumerate(all_uls, 1):
 
        print('\n--- post:', number, '---\n')
 
        a = ul.find('a')
        if a:
            post_url = a['href']
            post_title = a.text
 
            print('href:', post_url)
            print('text:', post_title)
            print('---------')
 
            # read page with post content
            browser.get(post_url)
            sub_soup = BeautifulSoup(browser.page_source, 'html.parser')
 
            post_content = sub_soup.find(class_='bbp-topic-content').get_text(strip=True, separator='\n')
            print(post_content)

            # keep on list as dictionary
            data.append({
                'href': post_url,
                'text': post_title,
                'content': post_content,
            })
            
# --- save ---

with open("wp-forum-conversations.csv", "w") as f:
    writer = csv.DictWriter(f, ["text", "href", "content"])
    writer.writeheader()
    writer.writerows(data)  # all rows at once

EDIT:

requests工作速度更快，但需要更多工作DevTools in Firefox/Chrome查看表单中的所有字段以及它发送到服务器的其他值。当日志记录正确时，它还需要查看重定向到哪里。顺便说一句：使用前不要忘记关闭 JavaScriptDevTools因为requests不运行 JavaScript，页面可能会以表单形式发送不同的值。（它确实发送了不同的字段）

需要完整的User-Agent才能正常工作。

首先，我加载登录页面并复制其中的所有值<input>发送给他们loginand password

登录后，我检查它是否被重定向到不同的页面 - 以确认它已正确记录。您还可以检查页面是否显示您的名字。

import requests
from bs4 import BeautifulSoup
import csv

s = requests.Session()
s.headers.update({
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0' # it needs full user-agent
})

# --- get page with login form ---

r = s.get("https://login.wordpress.org/?locale=en_US")
soup = BeautifulSoup(r.text, 'html.parser')

# get all fields in form

payload = {}

for field in soup.find_all('input'):
    name = field['name']
    value = field['value']
    payload[name] = value
    print(name, '=', value)

# --- login ---

payload['log'] = 'my_login'
payload['pwd'] = 'my_password'

r = s.post('https://login.wordpress.org/wp-login.php', data=payload)
print('redirected to:', r.url)

# --- check if logged in ---

# check if logged in - check if redirected to different page
if r.url.startswith('https://login.wordpress.org/wp-login.php'):
    print('Problem to login')
    exit()

# check if logged in - check displayed name
url = 'https://wordpress.org/support/plugin/advanced-gutenberg/page/1/'
r = s.get(url)

soup = BeautifulSoup(r.text, 'html.parser')
name = soup.find('span', {'class': 'display-name'})
if not name:
    print('Problem to login')
    exit()
else:    
    print('name:', name.text)
    
# --- pages ---

data = []

url = 'https://wordpress.org/support/plugin/advanced-gutenberg/page/{}/'
 
for page in range(1, 3):
    print('\n--- PAGE:', page, '---\n')
 
    # read page with list of posts
    r = s.get(url.format(page))
    soup = BeautifulSoup(r.text, 'html.parser') # 'lxml'
 
    all_uls = soup.find('li', class_="bbp-body").find_all('ul')
 
    for number, ul in enumerate(all_uls, 1):
 
        print('\n--- post:', number, '---\n')
 
        a = ul.find('a')
        if a:
            post_url = a['href']
            post_title = a.text
 
            print('href:', post_url)
            print('text:', post_title)
            print('---------')
 
            # read page with post content
            r = s.get(post_url)
            sub_soup = BeautifulSoup(r.text, 'html.parser')
 
            post_content = sub_soup.find(class_='bbp-topic-content').get_text(strip=True, separator='\n')
            print(post_content)

            # keep on list as dictionary
            data.append({
                'href': post_url,
                'text': post_title,
                'content': post_content,
            })
            
# --- save ---

with open("wp-forum-conversations.csv", "w") as f:
    writer = csv.DictWriter(f, ["text", "href", "content"])
    writer.writeheader()
    writer.writerows(data)  # all rows at once

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Selenium 登录页面可以工作 - 使用 BS4 进行解析可以工作 - 但不能同时使用两者的相关文章

如何使用Vault在Ansible中运行playbook api

我有一本带有Vault的剧本我可以运行它 ansible playbook info yml ask vault pass 现在我想在 Ansible 中运行我的 playbook api 答案在如何使用Vault在Ansible v2
OpenGL 说“from_param 收到了一个不连续的数组”

安装 Yosemite 后我必须升级 numpy PyOpenGL 等现在以前运行的程序给了我以下堆栈跟踪 file latebind pyx line 44 in OpenGL accelerate latebind Curry c
Python——“对象布局”

有人可以描述以下异常吗什么是对象布局以及它是如何定义的谢谢 Traceback most recent call last File test gui py line 5 in
Py2Exe“缺少以下模块”

使用 Py2Exe 时我收到警告例如 The following modules appear to be missing Crypto Crypto Cipher Crypto Hash Padding 由于找不到这些模块导致 EX
Django 1.7 makemigrations 将表重命名为 None

我必须将一些模型从一个应用程序移动到另一个应用程序并且我按照此答案中的说明进行操作https stackoverflow com a 26472482 188614 https stackoverflow com a 26472482 1
python pandas 标记如果列中每个值有多个唯一行

在下面的数据框中我有三列 Code Category Count X A 89734 X A 239487 Y B 298787 Z B 87980 W C 098454 我需要添加一列如果一个类别有多个唯一代码如上例中的 B 它会获
什么时候使用变量类？（布尔变量、双变量、整数变量、字符串变量）

Can t tkinter widget configure text our text 用于所有小部件有什么好处或者说主要使用目的 var cls tkinter StringVar tkinter widget configure
如何在python中将纬度经度转换为十进制？

假设我有以下内容 latitude 20 55 70 010N longitude 32 11 50 000W 转换为十进制形式最简单的方法是什么有图书馆吗从秒形式转换会更简单吗 149520 220N 431182 897W 为了处理
将 Selenium HTML 测试自动转换为 JUnit 的方法？

我在 Mac 10 6 6 上使用 Selenium IDE 1 0 10 for Firefox 我们的 QA 部门已经为 Selenium 创建了一些 HTML 测试我需要将其转换为 Junit 在 IDE 中我可以通过转到文件
有没有办法将类实例定义为 None ？

例如当我有这样一个Node类定义 class Node def init self val None next None self val val self next next def bool self return self val
仅使用 NumPy einsum 处理上三角元素

我使用 numpy einsum 来计算形状为 3 N 的列向量 pts 数组与其自身的点积从而得到形状为 N N 的矩阵 dotps 与所有点积这是我使用的代码 dotps np einsum ij ik gt jk pts pts
长异常链的优雅替代方案？ [复制]

这个问题在这里已经有答案了很多时候我发现自己写的东西看起来像这样 try procedure a except WrongProcedureError try procedure b except WrongProcedureError
python3导入找不到模块

我正在尝试测试书中的一个例子我得到了一个ImportError 该示例开始如下 from tkinter import from PP4E Gui Tools widgets import frame button entry 如果我放一
Python 元类有什么用？

元类可以用其他方式做不到的事情做什么 Alex Martelli 表示有些任务如果没有元类就无法完成Python 元类与类装饰器 https stackoverflow com questions 1779372 python metac
py2exe + sqlalchemy + sqlite 问题

在进入全速开发模式之前我正在尝试让一些基本的东西在 Python 中工作具体如下 Python 2 5 4 PyQt4 4 4 3 SqlAlchemy 0 5 2 py2exe 0 6 9 setuptools 0 6c9 pysql
PyQt5：如何将 QPushButton 连接到插槽？

好吧几乎所有教程可理解的用人类语言编写的文档都是针对 PyQt4 的但是 PyQt5 改变了整个将按钮连接到插槽的工作方式但我仍然不知道如何做到这一点我在 QtDesigner 中做了一个快速 gui 并且有一个 QPushB
如何在Python 2.7中访问ODB文件

我想在 Python 中访问 ODB 文件使用 LibreOffice Base 创建并提取一个表以供进一步使用 ODB包含多个表一种关系设计和多种表单是否可以在不使用任何 SQL 的情况下实现这一目标 Edit 由于我自己解析这种
将时间戳合并到自定义时间段中

我对熊猫相当陌生并且遇到了障碍我有一个包含时间戳的数据帧我想在我的数据框中添加一列其中包含自定义期间名称字符串例如 df pd DataFrame pd date range 01 01 00 00 periods 72 fre
如何在Python中使用JWK解码JWT令牌

我正在开发一个应用程序其中所有 API 都受 OAuth 保护我已从客户端收到访问令牌但无法解码和验证令牌我有以下格式的 JWK keys kty RSA x5t S256 Some value e Some Value x5t S
Matplotlib 条形图 - 有些条形不可见并且宽度似乎不同[重复]

这个问题在这里已经有答案了该问题与 matplotlib 条形图有关具体来说当我绘制条形图时有些条形不可见 Dots and bars uses the same data series so should be in the sa

随机推荐

如何使用 URL Swift 3 下载图像？ [复制]

这个问题在这里已经有答案了我是一名新手开发人员我正在尝试从 URL 下载并显示图像并将其显示在 UIImage 视图中我已经使用以前提出的问题和网络中的信息尝试了多种方法但它不断出现多个错误有一个很好的例子说明了如何做到这一点L
Java，向日期添加分钟，奇怪的异常

Windows 和 Ubuntu Linux 上的 Java 版本 1 5 0 06 每当我向日期 2008 10 05 00 00 00 添加分钟时似乎错误地添加了一个额外的小时即在午夜 2008 10 05 00 00 00 上添
使用系统命令从Windows下的C程序内部更改目录

我遇到一个问题我必须从 C 程序内部运行命令提示符命令这是我所做的 include
java.util.UUID 线程安全吗？

我问这个问题是因为以下观察在高度多线程环境中的线程转储中获取此堆栈跟踪 http 80 200 daemon prio 10 tid 0x00002aaab4981000 nid 0x7520 waiting for monitor en
从头开始创建 XS 模块的现代方法是什么？

我需要为 Perl 编写一个 XS 模块据我了解 h2xs 现在几乎已被弃用现在启动 XS 模块的首选方法是什么我查看了 Module Starter 但它只处理纯 Perl 模块不 h2xs 并未被弃用如果您创建许多纯 Perl
使用拉动刷新滚动列表视图时出现问题

我开发了一个具有一个列表视图的应用程序我使用拉动刷新来刷新列表数据同时下拉所以我在我的代码中完美地实现了但是当我向上滚动列表向下滚动时但当我向下滚动它时我遇到一个问题不滚动完成因为它考虑拉动刷新和刷新数据但我想在显示列表索引
Entity Framework Core：Update() 方法在依赖实体上插入而不是更新

看起来 EF Core 正在执行 INSERT 而不是 UPDATE 因此 MySQL 会抱怨重复键但是我在 DbSet 上使用 Update 方法并且实体确实设置了主键这会导致 MySql 中出现 DUPLICATE ENTRY
Angular 2 ngStyle 和背景图像[重复]

这个问题在这里已经有答案了我对 Angular 2 ngStyle 指令遇到了很大的麻烦我无法从 Base64 编码文件设置背景图像现在在 template html 中我有这个 div class projects item wra
Angular 2 动画/过渡仅适用于 chrome？

正如标题所示我一直在使用 Angular2 构建一个 Web 应用程序并决定测试跨浏览器结果发现漂亮的动画只能在 Chrome 中运行这是我的一个组件的样子如果这可能会有所不同 Component selector contact
如何在 Plone 中定义默认视图

我已经有一个用于 Plone 站点主页的默认视图的页面模板如何定义文件夹的默认视图此默认视图应使用页面模板尝试这个导航到所需的文件夹在网址末尾添加 manage propertiesForm in the resulting
Python scikit-learn KMeans 在计算轮廓分数时被杀死 (9)

我目前正在研究一个图像数据集 250 000 张图像因此与特征向量一样多每个图像都由 132 个特征组成并尝试使用 sklearn 提供的 KMeans 函数我在 Mac OS X 10 10 Python 2 7 和 sklear
在 MATLAB 中绘图时循环颜色

当我使用以下方法在同一个图上绘制多条曲线时hold on 每条曲线默认为相同的颜色蓝色我希望它们有不同的颜色我见过的一种解决方案是制作颜色矢量例如c k g r 并循环它但我不喜欢这个解决方案如果我的绘图数量大于颜色向量的长度
PHP 设置 MySQL 套接字位置

我以前遇到过这样的问题我的 C 应用程序在 tmp mysql sock 中寻找套接字但我的套接字位置已设置为 var run mysqld sock 我现在更改了 my cnf 中的设置始终将套接字放入 tmp 现在当我尝试使用
使用 GDI+ 创建的图像未显示在 VB6 LeadTools 中

我们有使用 VB6 构建的遗留应用程序这些应用程序正在使用引导工具一切都很顺利我们有另一个 NET 进程来优化图像并做一些水印并将其保存为 tiff 格式这是 NET 代码的一瞥 using var bitmap new Bit
使用 Android TabLayout 时单击选项卡不会切换当前选项卡

我应该自己设置 onClicks 吗如果是的话我应该在哪里设置
OpenGL在另一个线程中绘图

我为 Windows 创建了一个简单的 OpenGL 应用程序它创建一个窗口然后使用 OpenGL 命令在其上绘制一个三角形这按预期工作后来我想将我的绘图代码封装到一个DLL中以便可以在C WinForms应用程序中使用它来绘制W
包含聚合的更新语句在 SQL Server 中不起作用

我希望有人可以在这里帮助我的语法我有两张桌子ansicache encounters and ansicache x refclaim Table The encounters表有一个encounter匹配的列patacctnumber栏
寻找序列中的零岛

想象一下你有一个很长的序列找到序列全为零的间隔或更准确地说序列下降到接近零值的间隔的最有效方法是什么abs X
将 Java Applet 迁移到什么/哪里？

我目前正在审查一个中等规模的代码库大约 30K LOC 它使用一个巨大的 Applet 并与其他系统交互它是一个创建自定义标签的工具因此我们需要拖放和其他相关的 UI 组件鉴于代码库是 Java 语言您将迁移到哪种技术小程序否
使用 Selenium 登录页面可以工作 - 使用 BS4 进行解析可以工作 - 但不能同时使用两者

从 Wordpress 论坛获取一些数据需要登录和解析两个部分两者作为独立部分都可以很好地工作我可以使用 selenium 登录完美并且我可以使用 BS4 解析抓取数据但是当我将这两个部分结合起来时我遇到了会话问题我无法

使用 Selenium 登录页面可以工作 - 使用 BS4 进行解析可以工作 - 但不能同时使用两者

使用 Selenium 登录页面可以工作 - 使用 BS4 进行解析可以工作 - 但不能同时使用两者 的相关文章

随机推荐

热门标签

使用 Selenium 登录页面可以工作 - 使用 BS4 进行解析可以工作 - 但不能同时使用两者的相关文章