selenium JD爬虫

2023-05-16

python3.7+win10

# -*- coding: utf-8 -*-
# @Time : 2022/6/27 16:55
# @Author : 刘浪
# @File : JD_spider.py


import requests
from lxml import etree
import xlwt
from spider_seting import * #请求头模块
import time
from selenium import webdriver
import random


#禁用警告
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

class Excel:

    # 当前行数
    _current_row = 1

    # 初始化，创建文件及写入title
    def __init__(self, sheet_name='sheet1'):
        # 表头，放到数组中
        title_label = ['商品编号', '商品名称', '图片路径', '价格', '商家', '商品详情地址']
        self.write_work = xlwt.Workbook(encoding='ascii')
        self.write_sheet = self.write_work.add_sheet(sheet_name)
        for item in range(len(title_label)):
            self.write_sheet.write(0, item, label=title_label[item])

    # 写入内容
    def write_content(self, content):
        for item in range(len(content)):
            self.write_sheet.write(self._current_row, item, label=content[item])
        # 插入完一条记录后，换行
        self._current_row += 1
    # 保存文件
    def save_file(self, file_url='./dj_data.xls'):
        try:
            self.write_work.save(file_url)
            print("文件保存成功！文件路径为：" + file_url)
        except IOError:
            print("文件保存失败！")



def get_html(url):
        # 模拟浏览器访问
        chrome_driver_path = "C:/Users/Administrator/Desktop/TEM/chromedriver.exe"
        option = webdriver.ChromeOptions()
        option.binary_location = "G:/360browser/360Chrome/Chrome/Application/360chrome.exe"  # 这里是你指定浏览器的路径
        option.add_argument('--no-sandbox')
        #option.add_argument('--headless')#是否可视
        option.add_argument('--disable-gpu')
        option.add_experimental_option('excludeSwitches', ['enable-automation'])#不显示“正受到自动测试软件控制”
        browser = webdriver.Chrome(executable_path=chrome_driver_path, chrome_options=option)
        browser.get(url)
        time.sleep(random.randint(1, 2))
        #browser.maximize_window()#最大化显示
        browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
        time.sleep(random.randint(1, 3))
        source = browser.page_source  # 获取该网页源码
        html = etree.HTML(source)  # 解析网页
        browser.quit()
        return html






def save_data(search_url):
    html = get_html(search_url)
    # 商品列表
    goods_list  = html.xpath(r'.//li[@class="gl-item"]')
    # 商品编号list
    serial_num_list = html.xpath(r"//li[@class='gl-item']/@data-sku")
    for li,serial_num in zip(goods_list,serial_num_list):  # 遍历父节点

        # 商品名称
        name ="".join(li.xpath(r"div/div[@class='p-name p-name-type-2']/a/em/text()"))
        # 图片路径
        img_url ="https:"+"".join(li.xpath(r'.//div/div/a/img/@src')) if  "".join(li.xpath(r'.//div/div/a/img/@data-lazy-img'))=="done" else  "https:"+"".join(li.xpath(r'.//div/div/a/img/@data-lazy-img'))
        # 价格
        price =  li.xpath(r".//div/div/strong/i/text()")
        # 商家
        shop = li.xpath(r".//div/span/a/text()")
        # 商品详情地址
        detail_addr = "https:"+"".join(li.xpath(r".//div/div[1]/a/@href"))
        goods = [serial_num, name, img_url, price, shop, detail_addr]
        excel.write_content(goods)

    # 保存文件，使用的是相对目录（也可以使用绝对路径），会保存在当前文件的同目录下。文件名为dj_data.xls，必须是.xls后缀
    excel.write_work.save("./dj_data.xls")



if __name__ == '__main__':
    # 创建文件
    excel = Excel()
    # 搜索关键字
    keyword =input("输入搜索的关键词=")
    for page in range(1,200,2):
        #搜索地址
        search_url= 'https://search.jd.com/Search?keyword=' + keyword + "&page="+str(page)+'&enc=utf-8'
        print(search_url)
        time.sleep(2)  #写入操作费时太快易报错
        save_data(search_url)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

selenium

selenium JD爬虫的相关文章

Selenium Standalone Server 和 Java selenium Jar 文件有什么区别

这可能听起来像个愚蠢的问题但我想知道 Selenium 独立服务器和 Java selenium Jar 文件之间的区别我可以使用这两个 jar 文件导入 Webdriver 类如果 selenium 独立服务器提供了所有必需的 ja
单击警报内的“确定”按钮（Selenium IDE）

我需要单击警报窗口内的确定按钮并带有Selenium http seleniumhq org 命令我试过了assertAlert or verifyAlert但他们不做我想做的事可以单击确定按钮吗如果是这样有人可以给我提供
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
如何在 C# 中使用 Selenium WebDriver 获取当前窗口的 URL？

在我的应用程序中登录时它会导航到另一个页面现在我需要在 selenium C 中使用 WebDriver 获取新的 URL 我找不到任何函数来执行此操作我努力了driver Url driver getLocation and dr
如何使用Python3、Selenium Chrome WebDriver在第一次请求之前预加载cookie？

是否可以使用添加cookieadd cookie 对于一个域比如说stackoverflow com在使用 Selenium Chrome WebDriver 进行实际请求之前get 到域上的页面stackoverflow com 尝试时
Selenium RemoteWebDriver：与 selenium-standalone-server 的连接失败（驱动程序版本未知）

在用 Java 编写的应用程序测试中尝试使用 RemoteWebDriver 设置与 selenium server standalone 的连接后我收到了异常该问题与使用 maven 启动 selenium server standa
使用 VBA 和 Selenium 驱动网站，pt2

In 这个问题 https stackoverflow com questions 43808508 driving a website using vba and selenium在推动我的 VBA Selenium 项目前进方面我收到
为什么两个看起来相同的 Excel 文件的 MD5 哈希值不同

我有两个 Excel 文件保存在不同的位置一种是直接从浏览器下载另一种是使用selenium驱动下载我手动检查了这两个文件两者完全相同但是为两个文件生成的 MD5 哈希值有所不同如何解决这个问题 MD5是一种散列函数人们使用散
如何自动点击“您要打开还是保存？”

我想知道是否有以下 c 或 selenium 解决方案我正在使用 selenium 从网络服务器下载文件不幸的是在 IE9 中无法禁用此弹出屏幕 c 中有没有单击保存按钮的解决方案 Client WebClient client
Selenium 将文本粘贴到文本区域

使用 Selenium 我想编辑textarea 呼唤textarea SendKeys My text 可以但它是逐个字母地输入的这对于较长的字符串来说显然相当慢我发现的一种解决方法 http code google com p s
Selenium IDE 中的条件检查

我想检查是否使用硒填充了可能的必填字段我非常愿意使用 IDE 来完成此操作而不是导出到代码更具体地说如果国家地区下拉列表的值为英国我想确保填写邮政编码字段如果下拉列表设置为其他任何内容则邮政编码字段可以留空如果共识是我必
抓取问题：“检查元素”与“查看页面源代码”不同

我正在尝试对一个网页进行网络抓取该网页内部包含多个选项卡当我单击所需的选项卡并显示其内容后首先出现两个问题 1 网页地址不会更改并且所有选项卡都相同 2 当我使用浏览器 firefox和chrome 的查看页面源查看页面源时所
Python Selenium - 按类和文本查找元素

我正在尝试对搜索结果进行分页我得到一个 NoSuchElementException Unable to locate element lt insert xpath here gt 这是 HTML div class pagnHy sp
在 Selenium 中自动执行下拉菜单而不选择

我正在尝试使用 Selenium 从下拉列表中选择一个元素我已经能够选择下拉列表但我不知道如何从下拉列表中选择特定元素因为该网站不使用 select 因此我无法使用内置的 select 类作为参考这是下拉列表中元素之一的 HTML
如何使用 selenium 和 junit 测试多个浏览器（版本）

我刚刚发现了硒一个很棒的工具我计划运行使用 selenium ide 生成的 junit4 代码但我需要它与许多浏览器网络驱动程序一起运行这个用例有 junit java 模式吗我的第一个想法是使用 RunWith Param
从 ElementFinder 数组创建 ElementArrayFinder

这是一个后续问题当条件评估为 true 时获取元素扩展 ElementArrayFinder https stackoverflow com questions 32572299 take elements while a conditi
通过 Selenium 和 Python 使用带有预期条件的 WebDriverWait 时出现 selenium.common.exceptions.TimeoutException 错误

Traceback most recent call last File Inventorytest py line 88 in
与 Selenium 的模糊截图比较

我正在使用 Selenium 来自动化网页功能测试当我们推出新代码时进行逐像素比较非常重要因此我们使用 Selenium 来截取屏幕截图并比较 Base64 编码的字符串以查看是否有任何更改我们发现在实践中很难获得完全的像素一致性
在 Xpath 中使用 OR 条件来标识相同的元素

我有这样的逻辑首先单击下一步按钮获取当前页面的标题再次获取标题如果两个标题相同则意味着导航尚未移动到下一页则再次单击下一步但是我的问题是标题元素的 Xpath 不同相同的标题元素有两个 Xpath 一个是某些页面另一
检查元素是否确实对用户可见

我想检查用户是否可以在不滚动的情况下看到当前网络浏览器视图中的元素我发现可以检查该元素是否位于页面上的某个位置另一个提示建议检查元素位置但随后我需要获取浏览器可见窗口的尺寸及其x y偏移到0 0 如果有人能给我指出一个不需要 Java

随机推荐

tensorflow中使用Adam出现name ‘Adam‘ is not defined【转】

转自Colab中使用Adam出现name Adam is not defined 错误场景在本地运行正常 xff0c 之前在tensorflow上运行也正常 xff1b 之后重新运行colab上的代码 xff0c 出现如下错误 xff1a
Linux 安装 miniconda

1 安装miniconda 1 百度输入miniconda 找到miniconda 如下图第一个链接 2 找到linux版本的miniconda 此处我要安装Python3 7版本的Linux下的miniconda 3 复制下载链接如下
Linux将一个文件夹或文件夹下的所有内容复制或移动到另一个文件夹

1 将一个文件夹下的所有内容复制到另一个文件夹下 cp r home packageA home cp packageB 或 cp r home packageA home cp packageB 这两种方法效果是一样的方法示例 xff1
算法网址

九章算法 xff1a https www jiuzhang com Lintcode xff1a https www lintcode com Leetcode xff1a https leetcode com CodeTop xff1a
Datawhale跟李沐大神合作举办 (动手学深度学习) !

三月的组队学习跟李沐大神合作举办动手学深度学习 xff0c 欢迎感兴趣的小伙伴报名学习 xff0c 另外 xff0c 欢迎志同道合的小伙伴了解加入Datawhale 跟李沐导师 xff1a 动手学深度学习 xff01 动手学深度学习 P
期刊会议名缩写查询-1

投往IEEE transactions的论文 xff0c 其中的参考文献格式都是采用会议期刊的缩写本博客特此记录如何查询期刊和会议名的缩写问题期刊名缩写 SCI论文的参考文献很多期刊名都是缩写 xff0c 如下图所示在写论文时 xff
Linux从用户层到内核层系列 - GNU系列之你所不知道的printf

题记 xff1a 本系列文章的目的是抛开书本从源代码和使用的角度分析Linux内核和相关源代码 xff0c byhankswang和你一起玩转linux开发轻松搞定TCP IP协议栈 xff0c 原创文章欢迎交流 byhankswang
第十一届蓝桥杯python组第二场省赛-排序

1 问题描述 xff1a 小蓝最近学习了一些排序算法 xff0c 其中冒泡排序让他印象深刻在冒泡排序中 xff0c 每次只能交换相邻的两个元素小蓝发现 xff0c 如果对一个字符串中的字符排序 xff0c 只允许交换相邻的两个字符 xf
4306 序列处理（贪心）

1 问题描述 xff1a 给定一个长度为 n 的整数序列 a1 xff0c a2 xff0c xff0c an 我们可以对该序列进行修改操作 xff0c 每次操作选中其中一个元素 xff0c 并使其增加 1 现在 xff0c 请你计算要使得
python数据分析基础-datafrom基础属性

linux 43 pycharm 43 anaconda span class token keyword import span pandas span class token keyword as span pd data1 span
python数据分析基础-series基本统计运算,数据运算和比较运算

linux 43 pycharm 43 anaconda 96 span class token comment 两个series数据运算 43 span num span class token operator 61 span pd s
python数据分析-柱状图绘制及常用参数设置

linux 43 pycharm 43 anaconda span class token comment 柱形图绘制与参数设置 span span class token comment plt bar x height width bo
爬取西窗烛app

本文旨在学习 xff0c 不可做商业用途 span class token keyword import span csv span class token keyword import span json span class token
爬取百度地图店家信息

本文旨在交流学习 xff0c 勿作他用 xff0c 否则后果自负 span class token keyword import span json span class token keyword import span csv span
爬取蝉妈妈数据平台商品数据

本文旨在交流学习 xff0c 勿作他用 xff0c 否则后果自负环境 linux 43 pycharm 43 anaconda span class token keyword import span json span class to
selenium+webdriver+chrome实现百度以图搜图

1 环境搭建 1 webdriver 43 chrome的版本需匹配 2 打开chrome 输入 chrome version 来查看chrome版本访问此网站谷歌浏览器驱动然后选择合适版本webdriver 2 收集原始图片和构建图
无聊之重学c/c++

span class token macro property span class token directive hash span span class token directive keyword include span spa
Python配置Pip国内源

临时指定下载源以阿里云的镜像为例 pip install trusted host https mirrors aliyun com i https mirrors aliyun com pypi simple lt some packa
爬虫效率提升方法

协程 xff1a 在函数特殊函数定义的时候使用async修饰函数调用后内部语句不会立即执行而是会返回一个协程对象任务对象 xff1a 任务对象 61 高级的协程对象进一步封装 61 特殊的函数 xff0c 任务对象必须要注册
selenium JD爬虫

python3 7 43 win10 span class token comment coding utf 8 span span class token comment 64 Time 2022 6 27 16 55 span span

selenium JD爬虫

selenium JD爬虫 的相关文章

随机推荐

热门标签

selenium JD爬虫的相关文章