selenium_获取京东商品价格

2023-11-17

import time
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from pymongo import MongoClient
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
import urllib

options = Options()

# 开启无界面模式
options.add_argument('--headless')
web = Chrome(options=options)


def get_save_goods():
    # 输入要搜索的商品名称
    good_name = input('请输入你要爬取的商品名称:')
    # 编码加入到url中
    good_name_unicode = urllib.parse.quote(good_name)
    url = f'https://search.jd.com/Search?keyword={good_name_unicode}'
    web.get(url)
    # 设置等待时间
    WAIT = WebDriverWait(web, 10)

    while True:
        # 新的商品页等待3秒
        time.sleep(3)
        # 隐式等待 根据下面要查询的元素 10s未找到就报错
        # web.implicitly_wait(10)

        # 获取爬取的页数
        page = WAIT.until(EC.element_to_be_clickable((By.XPATH, '//span/a[@class="curr"]'))).text
        print(f'开始爬取第{page}页')

        # 获取商品信息的列表
        li_lists = web.find_elements(By.XPATH, '//div[@id="J_goodsList"]/ul/li')
        print(len(li_lists))

        # 用xpath获取各个商品的信息
        for li_list in li_lists:

            name = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-name p-name-type-2"]/a/em'))).text.replace('\n', '')

            join_name = ''.join(name)

            link = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-name p-name-type-2"]/a'))).get_attribute('href')

            price = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-price"]//i'))).text


            try: # 有的商品没有显示厂家
                shop = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-shop"]//a'))).text
            except:
                shop = '厂家配送'

            comment = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.CSS_SELECTOR, '.p-commit a'))).text
            data = {
                '商品名称': name,
                '商品链接': link,
                '价格': price,
                '商店名称': shop,
                '评论': comment
            }
            # 储存到mongodb
            print(data)
            client = MongoClient(host='localhost', port=27017)
            # 库
            db = client['jd']
            # 表
            collections = db[good_name]
            # 插入数据
            collections.insert_one(data)

        # 爬完5页停止
        if int(page) == 5:
            break
        #     点击下一页
        js = WAIT.until(EC.element_to_be_clickable(web.find_element(By.XPATH, '//a[@class="pn-next"]')))
        js.click()

        # 等待加载完毕
        time.sleep(2)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

selenium

python

Chrome

selenium_获取京东商品价格的相关文章

如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j

随机推荐

CH3-HarmonyOS开发基础

文章目录背景目标一 APP 1 1 APP包组成 1 2 APP和HAP结构二 Ability 2 1 Ability 2 2 pack info 三 libs库文件 3 1 HAR 四 resources资源文件 4 1 reso
shiro框架---关于用户登录退出接口的介绍

接上一篇文章shiro框架 shiro配置用户名和密码的注意项目已分享到GitHub上如果需要的可以看下 springboot shiro项目Git下载地址在我前几篇文章里有shiro配置的文件下载包下载后里边有四个配置文件Shir
618省心凑背后的新算法——个性化凑单商品打包购推荐

作为购物导购链路的一个重要环节凑单旨在快速帮助用户找到达成某个满减门槛比如满300减50 的商品完成性价比最高的跨店组合结算前言背景凑单是一个历史悠久的场景伴随着长期优化并不断升级为用户决策提供了便捷通道作为购物导购链路的
Nginx部署前端，并转发2个后台，实现负载均衡

一 vue打包 cmd进入项目目录执行 npm run build 会在改目录生成dist文件假设dist目录是 D dist 二部署下载nginx 修改nginx conf 在http 中加入 upstream myapp1 se
在SQL中直接使用存储过程查询返回的结果集

在实际使用存储过程是有时我们希望先判断存储过程的返回结果集是否有记录然后走不同的业务逻辑这是就需要在SQL语句中直接读取到存储过程的返回结果集方式如下先按照存储过程结果集定义一个变量 declare tbl table 门诊号 v
js预编译（与C预处理区别）

目录 1 函数体内例 2 全局注 window 属性和 imply global属性 3 全局和函数体内结合优先顺序例1 例2 例3 重要提示第一次学的时候以为和C预处理差不多看了下才发现区别还蛮大的例1 test 打印出 a
说一下Photo服务器

误打误撞学习了一下Photo服务器自己去百度上找有些问题大家也没说清楚所以在这里补充说明一下现在Photo官网已经更新到4 0 29 说不定有更新了但是很多教程都是Photo3 0的版本虽然大体还是差不多但是对于初学者来说还
mysql useunicode_jdbc连接mysql 为什么在连接时已经这样设置了 ?useUnicode=true&characterEncodin...

jdbc连接mysql 为什么在连接时已经这样设置了 useUnicode true characterEncoding UTF 8 autoReconnect true maxReconnects 10 autoReconnectForP
Python 并发系列 2 —— 各种并发方案的选择

目录二异步 Python 不同形式的并发 2 1 术语定义同步 Sync vs 异步 Async 并发 Concurrency vs 并行 Parallelism 2 2 线程 Threads 进程 Processes Threads
Nginx代理规则总结

Nginx代理规则总结说明一 location 二 proxy pass 1 proxy pass包括ip和资源路径结尾没有 2 proxy pass包括ip和资源路径结尾有 3 proxy pass只包括ip 结尾有 4 prox
docker 中PyTorch训练时，Dataloader卡死、挂起，跑一个epoch停了，问题解决方案

no space left on device shm 被占满了直接设为8G
二十三种设计模式第二十篇--备忘录模式

备忘录模式备忘录模式属于行为型模式它允许在不破坏封装的情况下捕获和恢复对象的内部状态保存一个对象的某个状态以便在适当的时候恢复对象该模式通过创建一个备忘录对象来保存原始对象的状态并将其存储在一个负责管理备忘录的负责人对象中备忘
【转】awk、nawk、mawk、gawk的简答介绍

转载 http blog sina com cn s blog 3d2d79aa0100h47h html awk 是一种编程语言用于在linux unix下对文本和数据进行处理数据可以来自标准输入一个或多个文件或其它命令的输出即
Springboot 2 的@RequestParam接收数组异常解决！！！

最近Vue 开发前端然后向后台springboot 2 传递数组发现springboot 2 接收数组方式无法使用 RequestParam ids List
Python中的三器一闭(详细版)

python中的三器一闭迭代器什么是迭代什么是可迭代对象判断数据是否可迭代什么是迭代器迭代器的本质使用迭代器取数据自定义迭代器生成器创建生产器的方法关键字yield next和send 装饰器装饰器的功能定义装饰器
通过双层负载均衡实现HTTPS代理的高并发处理和容错能力

在互联网应用中 HTTPS代理服务器是承担用户请求的重要角色当网站面临高并发请求时单一的服务器可能无法满足需求会导致性能下降和容错能力不足为了解决这个问题我们可以通过双层负载均衡技术来实现高并发处理和容错能力的提升下面让我们一
VMware16安装虚拟机遇到的问题

摘要前面提到自己安装环境为CPU Intel Core i5 12600K VMware 版本 VMware Workstation 16 Pro 16 0 0 build 16894299 创建虚拟机的时候windwos 系列的win7
GVM(openVAS)中scan configs为空的问题解决

一主要问题由于kali2021的版本不自带openVAS 在kali2021中安装gvm 原openVAS 安装完成后检查配置 gvm check setup 没有问题却在打开web控制页面后创建任务失败报错 Failed to f
ssd颗粒查看工具_贴吧机佬强烈推荐的游戏SSD？西数蓝盘3D M.2 500G实测

现在的SSD有多白菜打开电商网站看一下各种国产甚至是知名电脑厂商的SSD只要几毛钱1GB 存储界的大品牌也有爆款型号来到了1元1GB左右虽然以上说的都是2 5寸SSD 不是高性能产品不过这些都很适合老主机升级或者系统盘容量不够用
selenium_获取京东商品价格

import time from selenium webdriver chrome options import Options from selenium webdriver import Chrome from selenium we

selenium_获取京东商品价格

selenium_获取京东商品价格 的相关文章

随机推荐

热门标签

selenium_获取京东商品价格的相关文章