跳过selenium检测爬取淘宝直通车

2023-11-17

最近，有对阿里商家端进行一些数据爬取，这次爬取的是直通车人群溢价数据，发现对selenium的检测相当厉害，然而我的回答是，你强任你强，清风拂山岗。咱人工登录怕过谁，什么cokies,user-agent,selenium检测,token，统统与我无瓜,我们的宗旨就是,能用就行

核心就是,打开真实浏览器，用selenium接管，登录之后，再关闭提示框，立刻开始爬虫
os.system('cd "C:\\Program Files (x86)\\Google\\Chrome\\Application"&start chrome.exe --remote-debugging-port=9999 --user-data-dir="C:\selenum\AutomationProfile" https://subway.simba.taobao.com')

顺便用tkinter简单搞了个账号密码提示框，省的老去找

直接上代码

# -*- coding: utf-8 -*-
import os
import re
import time
from datetime import date, timedelta
from lxml import etree
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
from user_pass import time_count



def main():
	"""
	人群溢价爬取

	"""
	#打开本地chrome，同时打开直通车登录页面，需要提前配置环境变量path
	os.system('cd "C:\\Program Files (x86)\\Google\\Chrome\\Application"&start chrome.exe --remote-debugging-port=9999 --user-data-dir="C:\selenum\AutomationProfile" https://subway.simba.taobao.com')

	chrome_debug_port = 9999
	chrome_options = Options()
	# chrome_options.add_argument('--headless')
	chrome_options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")

	#selenium接管当前网页
	browser = webdriver.Chrome(options=chrome_options)
	wait = WebDriverWait(browser, 15)
	print(browser.title)

	# 当前句柄,以防有iframe,事实是我想多了
	current_handle = browser.current_window_handle
	print("准备好，爬虫开始:")

	# 账号密码提示：
	time_count()

	# 进入推广页面
	url = 'https://subway.simba.taobao.com/#!/manage/campaign/index'
	browser.get(url)
	time.sleep(3)

	# 获取cookies
	# cookies = browser.get_cookies()
	# jsonCookies = json.dumps(cookies)
	# # 把cookies保存在本地
	# with open('ffCookies.json', 'w') as f:
	# 	f.write(jsonCookies)
	# time.sleep(2)

	# 获取人群数据
	get_CrowdDetail(browser,wait)
	browser.close()

# 获取人群溢价数据
def get_CrowdDetail(browser,wait):
	# 计数器
	count = 0
	#设定开始与结束时间
	startDate = str((date.today() + timedelta(days=-7)).strftime("%Y-%m-%d"))
	endDate = str((date.today() + timedelta(days=-1)).strftime("%Y-%m-%d"))
	print('爬取日期:'+startDate+'至'+endDate)

	#保存好要爬取的人群溢价网址,如果能得到campaignId,adGroupId两个关键字段大可不必这样麻烦，可直接F12从xhr中获取
	CrowDetail = {
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281901&adGroupId=1745413653&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281901&adGroupId=1745413655&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281901&adGroupId=1745413656&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281901&adGroupId=1745413657&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281901&adGroupId=1850331434&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281901&adGroupId=1877620378&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66173371&adGroupId=1733518315&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66173370&adGroupId=1734092022&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66173370&adGroupId=1734092023&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66157385&adGroupId=1732352485&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66157385&adGroupId=1732352486&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66157385&adGroupId=1732352487&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66157385&adGroupId=1732352489&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66157385&adGroupId=1855117081&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66157385&adGroupId=1881028817&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66281882&adGroupId=1732330386&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66145329&adGroupId=1739717496&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1',
		'https://subway.simba.taobao.com/#!/manage/adgroup/detail?productId=101001005&tab=crowd&campaignId=66145329&adGroupId=1739717497&start='+startDate+'&end='+endDate+'&rptType=realTime&adpage=1'
	}


	for i in CrowDetail:
		count=count+1
		header = []
		# 访问网址，准备获取数据
		browser.get(i)
		wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="manage-common-view-list"]//div[@class="freeze-table bp-table"]//div[@class="table-content osx custom-scrollbar"]//table[@class="bp-table"]/tbody/tr/td[3]')))
		print('当前访问网址:'+i)
		time.sleep(1.5)
		#解析page_source
		source = etree.HTML(browser.page_source)
		title = source.xpath('//*[@id="magix_vf_main"]/article/div[@class="grid-p clearfix"]//ul/li[5]/div/div/span[1]')[0].text
		product= source.xpath('//*[@id="magix_vf_main"]/article//div[@class="adgroup-detail"]/p//a')[0].text
		people_list = source.xpath('//div[@class="manage-common-view-list"]//div[@class="freeze-table bp-table"]//div[@class="freeze-col"]//table[@class="bp-table"]/tbody/tr')
		info_list = source.xpath('//div[@class="manage-common-view-list"]//div[@class="freeze-table bp-table"]//div[@class="table-content osx custom-scrollbar"]//table[@class="bp-table"]/tbody/tr')
		time.sleep(1.5)
		#获取标题等信息
		for people in people_list:
			t = {}
			if people.xpath('./td[2]/strong'):
				t['标题'] = title
				t['产品'] = product
				t['序号'] = people.xpath('./@index')[0]
				t['状态'] = people.xpath('./td[2]/strong')[0].text
				t['推广人群'] = people.xpath('./td[3]/div[1]/span')[0].text

				#获取详细信息
				for detail in info_list:
					if detail.xpath('./@index')[0]==t['序号'] and detail.xpath('./td[1]/div'):
						t['对应序号'] = detail.xpath('./@index')[0]
						t['人群分类'] = detail.xpath('./td[1]/div')[0].text
						t['溢价'] = detail.xpath('./td[2]/div/span/span')[0].text
						t['展现'] = detail.xpath('./td[3]')[0].text
						t['点击'] = detail.xpath('./td[4]')[0].text
						t['CTR'] = detail.xpath('./td[5]')[0].text
						t['花费'] = detail.xpath('./td[6]')[0].text
						t['CPC'] = detail.xpath('./td[7]')[0].text
						t['加购数'] = detail.xpath('./td[8]')[0].text
						t['转化率'] = detail.xpath('./td[9]')[0].text
						t['成交金额'] = detail.xpath('./td[10]')[0].text
						t['ROI'] = detail.xpath('./td[11]')[0].text
						t['成交订单'] = detail.xpath('./td[12]')[0].text
						header.append(t)
						print('已获取:' + t['标题'] + '-' + t['产品'] + '-' + t['推广人群'])
						#re.findall("[0-9\,\.]*",)

		#写入本地CSV文件
		df = pd.DataFrame(header)
		if count==1:
			df.to_csv('./dd.csv', index=None, encoding='utf-8-sig', mode='a')
		else:
			df.to_csv('./dd.csv', index=None, encoding='utf-8-sig', mode='a', header=None)
		time.sleep(1)
		print('已保存该数据到本地dd.csv文件夹')




if __name__ == '__main__':
	main()
	print("结束---------------------------------")

小提示框user_pass.py


import tkinter

def close():
	root.destroy()


def time_count():
	global  root
	#创建应用程序窗口,设置标题和大小
	root = tkinter.Tk()
	root.wm_attributes('-topmost',1)
	root.title('我只是一个提示框')
	root['width'] = 200
	root['height'] = 110
	#不允许改变窗口大小
	root.resizable(False, False)


	#创建Text组件，放置一些文字
	richText = tkinter.Text(root, width=50)
	richText.place(x=10, y=10, width=180, height=30)
	richText.insert('0.0', '你的账号')

	eeText = tkinter.Text(root, width=50)
	eeText.place(x=10, y=40, width=180, height=30)
	eeText.insert('0.0', '你的密码')



	#显示关闭按钮
	buff = tkinter.Button(root,text="关闭",command=close)
	buff.place(x=70, y=75, width=50, height=30)
	root.mainloop()

最终的结果是这样的（销售数据未展示）

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫

selenium

反爬

淘宝直通车

Tkinter

跳过selenium检测爬取淘宝直通车的相关文章

需要可见元素的 xpath 定位器

我正在尝试对我的网站进行测试在某些用户表单上遇到问题诀窍是表单中文本字段的数量根据用户选项的不同而变化代码中存在禁用的文本字段但样式为 displayed none gt 标签所以我试图找到比逐一定位每个元素并用 try exc
加速美丽汤

我正在运行本课程网站的抓取工具我想知道将页面放入 beautifulsoup 后是否有更快的方法来抓取页面花费的时间比我预期的要长得多 Tips from selenium import webdriver from selenium
Chrome - org.openqa.selenium.WebDriverException：未知错误：无法在 driver.manage().window().maximize() 处获取自动化扩展；

我遇到了 Chrome 浏览器抛出的一种非常不寻常的错误当我尝试使用下面的代码行最大化 chrome 时 driver manage window maximize 我遇到以下错误 org openqa selenium WebDrive
无法通过 python3 启动 Selenium Safari WebDriver

我想使用 Safari 作为 python 的浏览器代码相当简单 from selenium import webdriver driver webdriver Safari url https www gmail com driver
使用 PHP Selenium Webdriver 单击下拉菜单中的选项？

我正在使用 PHP Selenium Webdriver 包装器Facebook https github com facebook php webdriver 任何人都可以给我一个如何单击或从选择下拉菜单中选择选项的示例吗我已经尝试过这
Selenium c#：如何在特定版本中启动 Internet Explorer 驱动程序（例如 IE8）

在 java 中可以通过传递所需的功能来设置 Internet Explorer 驱动程序的 IE 版本这在 C 中不起作用我希望它看起来像这样 DesiredCapabilities ieCapabilities null ieCa
tkinter - 检查文本小部件是否为空

操作系统 Windows 8 1 Python 3 5 在 Tkinter 中我发现了很多代码来验证输入框是否为空但是当我尝试对文本小部件应用相同的方法时它不起作用看起来文本小部件有一个 n 字符这可能就是问题所在知道如何进行此
运行多个并行 Selenium WebDriver 会话

我想知道我们是否能够运行两个 Selenium WebDriver 会话或者如何使用同一个 WebDriver 处理两个浏览器窗口并并行运行它们尝试像下面这样定义您的 TestNg 套件然后它将同时开始运行两者
Selenium 是否可以单独用于自动化 Intranet Web 门户的测试，其中门户上的链接定向到 SAP 应用程序

是否可以单独使用 Selenium 来自动测试 Intranet Web 门户其中门户上的链接定向到 SAP 应用程序 Portal 仅适用于 IE 和 Windows 操作系统上的 SAP 应用程序用最简单的话来说 Selenium
在系统托盘中隐藏 tkinter 窗口 [重复]

这个问题在这里已经有答案了我正在制作一个程序来提醒我朋友的生日这样我就不会忘记祝福他们为此我制作了两个 tkinter 窗口 1 First one is for entering name and birth date 2 Sec
如何在 Selenium for Python 上使用 XPATH 语法选择元素？

考虑以下 HTML div div a class click abc a div div 我想单击 abc 但包装 div 可能会改变所以 driver get element by xpath div id a div a class
Python Selenium - 如何单击表中一组元素中的倒数第三个元素？

今天是个好日子有人可以向我解释一下我如何无法获取表中的元素数量吗我正在浏览多个具有不同长度的表格并且我总是需要第三个最后一项我有包含这些的表的 xpath 使用 Selenium 的 Python API 如何获取表中的行数 htt
使用 Selenium ChromeDriver 设置 Chrome 的语言

我下载了ChromeDriver 默认浏览器语言是英语我需要将其更改为西班牙语但一直无法 public WebDriver getDriver String locale System setProperty webdriver chr
SessionNotCreatedException：消息：会话未创建：此版本的 ChromeDriver 仅支持 Chrome 版本 96 当前浏览器版本为 98.0

错误跟踪日志 DevTools listening on ws 127 0 0 1 54791 devtools browser 6f264bcc d44a 40d9 b6cf 8b1655c97ccd Traceback most rec
在 gui 中更新 matplotlib 图的有效方法？

我的应用程序以大约 30fps 的速度通过网络接收数据并且需要根据这些新数据动态更新水平条形图为此我在 tkinter 窗口内使用 matplotlib 图对我的代码进行分析表明我的代码中的主要瓶颈是该图的更新下面给出了代码的简
Selenium - C# - Webdriver - 无法找到元素

在 C 中使用 selenium 我试图打开浏览器导航到 Google 并找到文本搜索字段我尝试下面的 IWebDriver driver new InternetExplorerDriver C driver Navigate GoT
watir selenium：浏览器构造函数无法识别的参数

在我的 Rails 应用程序中我有一个 nokogiri watir 爬虫运行良好在我升级了 gems 也升级了例如 selenium 后当我使用以下命令打开爬虫浏览器时 BROWSER OPTIONS w headless no
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
驱动程序信息：driver.version：未知，使用 ChromeDriver v78.0.3904.70 和 Chrome 浏览器 v78.0.3904.97

我使用的是java 1 8和chrome浏览器版本78 0 3904 97 我正在尝试使用 chrome 驱动程序版本执行我的 selenium 脚本代码78 0 3904 70 但在执行时我面临以下问题并且 chrome 立即崩溃 Pic
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver

随机推荐

CFileDialog 多文件选择注意事项

当选择文件数量比较多的时候发现CFileDialog返回文件名并不完整翻阅MSDN发现文件名长度是有限制的解决思路 CFileDialog dlgOpen TRUE T txt NULL OFN HIDEREADONLY OFN RE
【转】游戏汉化之Tile全格式解读 by 阿一

最近在破解一些图片的格式并想导出PNG 不过老是记不住bpp的格式转载之方便查看做些锚记标准1BPP NDS 1BPP 标准2BPP VB 2BPP NGP 2BPP NES 2BPP 1BPP 1BPP GB 2BPP 1BPP
SpringCloud2架构图

先来个简洁版 1 外部或者内部的非Spring Cloud项目都统一通过API网关 Zuul 来访问内部服务 zuul是对外暴露的唯一接口相当于路由的是controller的请求 2 网关接收到请求后从注册中心 Eureka 获取可用服务
Unity泛光效果消失问题

关于Unity泛光效果消失问题解决过程问题描述第一次尝试解决第二次尝试解决第三次尝试解决问题描述之前一直在做的一个项目在一次想要添加UI泛光效果失败后发现项目中已有的泛光效果也消失了第一次尝试解决因为问题是在添加插件Po
linux服务器编译报错：DSO missing from command line原因及解决办法

报错信息提示包含以下两行 undefined reference to symbol libfastrtps so 1 error adding symbols DSO missing from command line 原因提示说符号没
SpringMVC异常处理

为了统一处理代码运行过程中出现的异常给用户一个更友好的异常界面需要引入springMVC的异常处理功能为了演示这个功能本文实现一个比较常用的需求将所有的异常归为两类一类是程序员自己创建的异常类另一类是系统或框架定义的异常类程
junit如何测试没有返回值的方法

方法里总有些操作只要测试结果对就可以了没有必要说非要有返回值马士兵
深入理解 SQL 中的 Grouping Sets 语句

前言 SQL 中 Group By 语句大家都很熟悉根据指定的规则对数据进行分组常常和聚合函数一起使用比如考虑有表 dealer 表中数据如下 id Int city String car model String quantity
Linux系统下ping命令报错 name or service not know

问题描述 CentOS 但是当执行ping命令的时候提示name or service not known 解决方法 1 添加DNS服务器 1 vi etc resolv conf 进入编辑模式增加如下两行内容分别是首选DNS服务器和
logback--进阶--05--自定义Appenders

logback 进阶 05 自定义Appenders 代码位置 https gitee com DanShenGuiZu learnDemo tree master logback learn 1 介绍 1 1 继承关系图可以看到Appe
C++ 多态和虚函数

一先搞清override overload overwrite的区别 1 overload 重载不是多态在C 程序中可以将语义功能相似的几个函数用同一个名字表示但参数不同包括类型顺序不同即函数重载 1 相同的范围在同一个
药明康德成都研发中心投入运营；中国白酒行业净利润将迎来七年来首次下滑

今日看点药明康德成都研发中心正式投入运营该研发中心将成为药明康德上海研发总部以外又一个覆盖化学及生物学的新药发现整体研发平台将为客户提供从小分子药物设计合成分析体内体外生物学肿瘤免疫学等全方位一体化的新药研发服务该研发中
【编译原理】LR(1)分析方法（c++实现）

前文回顾编译原理 LR 0 分析方法 c 实现编译原理 SLR 1 分析方法 c 实现算法来自龙书第二版代码和SLR的区别其实只是DFA中多了一个搜索符构建分析表的时候规约项的列是相应的搜索符而已代码基本上就在SLR的代码上
拼多多anti_content算法

最近拼多多的anti content算法更新了闲着无聊就看了看总思路如下首先我们抓包看到我们今天的目标 anti content 现在我们通过堆栈入口随便下个断点然后我们在CallStack中向下寻找经过漫长的寻找我们可以在
route命令的详细使用介绍

1 命令格式 route f p Command Destination mask Netmask Gateway metric Metric if Interface 2 命令功能 Route命令是用于操作基于内核ip路由表它的主要作用
es单机数据迁移到另一个es单机

将一个Elasticsearch单机的数据迁移到另一个Elasticsearch单机主要可以分为两步第一步备份原有数据将原有Elasticsearch单机中的数据备份到一个文件中可以使用 Elasticsearch 提供的 snap
第三十讲：神州路由器路由重分发配置

RIP和OSPF协议是目前应用最广泛的路由协议两种协议交接的场合也很多见两种协议的重分布是比较常见的配置主校区原来所采用的网络协议为OSPF 而分校区采用的路由协议是RIP 采用RIP和OSPF重分发技术可以解决此问题实验拓扑图如下
PostgreSQL、Greenplum 日常监控和维护任务

背景 Greenplum的日常监控点评判标准日常维护任务展示图层由于一台主机可能跑多个实例建议分层展示另外即使是ON ECS虚拟机一个虚拟机一个实例一对一的形态的产品形态实际上也建议分层展示以示通用性主机级图层 1
vue项目全局内引入外部CDN地址的js文件

通过vue cli 构建的vue项目的根目录下有一个index html文件例如
跳过selenium检测爬取淘宝直通车

最近有对阿里商家端进行一些数据爬取这次爬取的是直通车人群溢价数据发现对selenium的检测相当厉害然而我的回答是你强任你强清风拂山岗咱人工登录怕过谁什么cokies user agent selenium检测 token

跳过selenium检测爬取淘宝直通车

直接上代码

小提示框user_pass.py

最终的结果是这样的（销售数据未展示）

跳过selenium检测爬取淘宝直通车 的相关文章

随机推荐

热门标签

跳过selenium检测爬取淘宝直通车的相关文章