python爬取京东商品信息及评论

2023-05-16

准备

  1. chrome浏览器 和 chromeDriver插件 (其他浏览器步骤类似)
  2. python 环境
  3. python selenium模块

代码

'''
爬取京东商品信息: 
功能: 通过chromeDrive进行模拟访问需要爬取的京东商品详情页(https://item.jd.com/100003196609.html)并且程序支持多个页面爬取,输入时以逗号分隔,
思路: 创建webdriver对象并且调用get方法请求url,进入页面根据dom结构爬取一些简要信息,之后
通过模拟点击商品评价按钮,再分别解析没个用户的评价信息,到每页的底部时,模拟点击下一页按钮
获取新的一页数据。
    提取商品信息:
        商品名称: {goods_name}
        商品价格: {goods_price}
        好评度: {percent_con}
        评价标签: {tags}
        评价类型
        姓名:{username}
        星级:{star}
        文字:{word}
        评价图片: {picList}
        购买类型: {order_type}
        购买日期:{order_date}
        点赞人数: {likes}
        评论人数: {
'''
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
import time
# 根据类名用来判断元素是否存在
def isElementPresent(driver, element):
        """
        用来判断元素标签是否存在,
        """
        try:
            driver.find_element_by_class_name(element)
        # 原文是except NoSuchElementException, e:
        except NoSuchElementException as e:
            # 发生了NoSuchElementException异常,说明页面中未找到该元素,返回False
            return False
        else:
            # 没有发生异常,表示在页面中找到了该元素,返回True
            return True
## 获取评价
def get_evaluation(goods_detail):
    js_code = '''
                                            window.scrollTo(0,2000);
                                        '''
    driver.execute_script(js_code)  # 执行js代码
    ## 评价详细信息
    try:
        comments = goods_detail.find_elements_by_class_name('comment-item')
        for comment in comments:
            picList = []
            username = comment.find_element_by_class_name('user-info').text.replace("\n", "")
            star = comment.find_element_by_class_name('comment-star').get_attribute('class')[-1] + '星级'
            word = comment.find_element_by_class_name('comment-con').text.replace("\n", "")
            # 调用isElementExist方法,判断元素是否存在
            flag = isElementPresent(comment, 'pic-list')
            if  flag:
                pics = comment.find_element_by_class_name('pic-list').find_elements_by_tag_name('a')
                for pic in pics:
                    picList.append(pic.find_element_by_tag_name('img').get_attribute('src'))
            order_type = comment.find_element_by_class_name('order-info').find_elements_by_tag_name('span')[0].text
            order_date = comment.find_element_by_class_name('order-info').find_elements_by_tag_name('span')[-1].text

            likes = comment.find_element_by_class_name('J-nice').text
            sprite_comment = comment.find_element_by_class_name('comment-op').find_elements_by_tag_name('a')[2].text
            goods_content = f'''    
                姓名:{username}
                星级:{star}
                文字:{word}
                评价图片: {picList}
                购买类型: {order_type}https://item.jd.com/100003196609.html,https://item.jd.com/100006966435.html,https://item.jd.com/100001168786.html
                购买日期:{order_date}
                点赞人数: {likes}
                评论人数: {sprite_comment}
            '''
            print(goods_content)
    except NoSuchElementException as e:
        print(e)
def get_good(driver):
    # 通过JS控制滚轮滑动获取所有商品信息
    js_code = '''
                                        window.scrollTo(0,5000);
                                    '''
    driver.execute_script(js_code)  # 执行js代码
    # 等待数据加载
    time.sleep(2)
    # 商品详情wrap
    goods_detail = driver;
    # 商品名称
    goods_name = goods_detail.find_element_by_class_name('sku-name').text.replace("\n", " ")
    # 商品价格
    goods_price = goods_detail.find_element_by_class_name('price').text.replace("\n", " ")

    # 评价信息
    evaluation_btn = goods_detail.find_element_by_id('detail').find_element_by_class_name('tab-main').find_elements_by_tag_name('li')[4]
    evaluation_btn.click()
    print(evaluation_btn.text)
    time.sleep(2)
    # 好评度
    percent_con = goods_detail.find_element_by_class_name('percent-con').text.replace("\n", " ")
    # 评价tag
    evaluation_tags = goods_detail.find_elements_by_class_name('tag-1')
    tags = []
    for tag in evaluation_tags:
        tags.append(tag.text)
    # 评价类型
    evaluation_type_list = goods_detail.find_element_by_class_name('filter-list').find_elements_by_tag_name('li')
    types = []
    for type in evaluation_type_list:
        if (type.get_attribute('data-tab') == 'trigger'):
            types.append(type.find_element_by_tag_name('a').text)
    goods_content = f'''
                           商品名称: {goods_name}
                           商品价格: {goods_price}
                             好评度: {percent_con}
                           评价标签: {tags}
                           评价类型: {types}
                           \n
                          '''
    print(goods_content)

    ## 爬取评价信息
    get_evaluation(goods_detail)
    n =1
    # 爬取后面的页面
    while True:
        flag = isElementPresent(goods_detail, 'ui-pager-next')
        if flag:
            element = driver.find_element_by_class_name('ui-pager-next')
            driver.execute_script("arguments[0].click();", element)
            # 等待数据加载
            time.sleep(2)
            n = n+1
            ## 爬取评价信息
            get_evaluation(goods_detail)
            print('%d商品页数:' % n)
        else:
            print('到底了.')
            return
    print('商品总页数:%d' % n)
if __name__ == '__main__':

    # chrome_options = Options()
    # chrome_options.add_argument('--headless')
    # chrome_options.add_argument('--disable-gpu')
    # driver = webdriver.Chrome(options=chrome_options)

    # 获取用户商品的url
    urlList = input('请输入爬取商品url(以逗号分割):').strip()
    urlList = urlList.split(',')

    # 可视化界面  需要下载 chromeDiiriver 及 chrome浏览器
    driver = webdriver.Chrome()
    driver.implicitly_wait(5)

    for url in urlList:
        driver.get(url)
        get_good(driver)
    driver.close();





第一个版本…

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬取京东商品信息及评论 的相关文章

  • Keras打印tensor的值以及学习率

    keras 打印 tensor 的值 小又欠的博客 CSDN博客 keras查看tensor的值 keras 打印 tensor 的值在调试时 xff0c 此问题困扰我许久网上大多都是 sess run xff0c 且也是 tensorfl
  • 一种基于目标检测实现黑花屏分类任务的方案

    转载 xff1a 一种基于目标检测实现黑花屏分类任务的方案 视频花屏检测 叶赫那拉 赫敏的博客 CSDN博客 然而 xff0c 在项目过程中 xff0c 视频帧数据的收集比较困难 xff0c 数据量较少 xff0c 部分花屏和正常屏之间差异
  • 开源工业缺陷数据集汇总,持续更新中(已更新28个)

    转载 xff1a 开源工业缺陷数据集汇总 xff0c 持续更新中 xff08 已更新28个 xff09 知乎 欢迎大家关注我的公众号 xff1a 一刻AI 本文目前汇总了常见的28个开源工业缺陷数据集 xff0c 持续更新中 xff08 欢
  • 带你了解ICCV、ECCV、CVPR三大国际会议

    文章目录 前言 一 ICCV ECCV CVPR是什么 1 ICCV 2 ECCV 3 CVPR 二 三大会链接及论文下载链接 前言 作为刚入门CV的新人 有必要记住计算机视觉方面的三大顶级会议 ICCV CVPR ECCV 统称为ICE
  • 深度学习之卷积神经网络CNN详解

    TensorFlow 卷积层 池化层详解 叠加态的猫 博客园 两种网络层实现的数学细节 https www cnblogs com hellcat p 7850048 html 一 CNN概述 CNN一个牛逼的地方就在于通过感受野和权值共享
  • 深度学习之卷积神经网络CNN 常用的几个模型

    LeNet5 论文 xff1a http yann lecun com exdb publis pdf lecun 01a pdf LeNet 5 xff1a 是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络 xff0
  • AI Stable Diffusion Prompt参数【二】之 生成效果查验

    AI Stable Diffusion Prompt参数 二 之 生成效果查验 效果国漫风生成参数配置prompt xff1a Negative prompt Model Steps Sampler CFG scale Clip skip
  • batch norm、relu、dropout 等的相对顺序和BN、dropout的几个问题和思考

    总结 xff1a BN和dropout一般不同时使用 xff0c 如果一定要同时使用 xff0c 可以将dropout放置于BN后面 1 batch norm relu dropout 等的相对顺序 Ordering of batch no
  • 推荐系统之ESMM算法精读和实战

    目录 一 背景 二 ESMM模型 2 1 ESMM 模型结构 2 2 ESMM模型特点 2 3 ESMM模型适用场景 三 实验效果 lt
  • 远程桌面连接 提示用户名密码错误的解决办法

    提示 用户名或者密码错误 xff0c 有两种可能 xff1a 1是 用户名 密码可能输入错误 2是 可能你这个用户名暂不支持远程访问 首先解决用户名 密码的问题 xff1a 计算机的命名规则为 计算机 43 账户 的形式 如果您的账户不是A
  • 金融时间序列模型整理

    GARCH模型 https www math pku edu cn teachers lidf course fts ftsnotes html ftsnotes fts garch html 金融时间序列入门 完结篇 ARCH GARCH
  • 工具学习——ubuntu轻量桌面对比

    因为最近要做一些ubuntu上的开发 xff0c 然后使用ssh问题是经常会出现中断 xff0c 虽然可以使用等tmux方法来挂起进程 xff0c 但是感觉不如界面方便 xff0c 然后现在问题来了 xff0c 我的ubuntu服务器是一个
  • JPA自定义VO接受返回结果集(unwrap)

    JPA跟mybitis比较 xff0c 简单的业务搜索是方便的 xff0c 但是设计到复杂的SQL搜索时 xff0c 我们需要自定义SQL 1 64 Query直接写SQL 缺点是无法动态的组装条件 2 JPA的Specification对
  • 快速排序详解-java实现

    一 快速排序 整体过程 xff1a 1 先从数组中找一个数作为基准数 xff0c 2 进行分区 xff0c 分区时大于这个数得全部放到右边 xff0c 小于这个数得全部放到左边 xff0c 等于这个数得全部放到中间 xff08 核心过程 x
  • 应届生应该如何准备校招

    大家好 xff0c 我是羽峰 xff0c 今天要和大家分享的是应届生应该如何准备校招 xff0c 希望该文章对一些今年要找工作的朋友有一些帮助 还是老话 xff0c 我是羽峰 xff0c 希望我所分享的文章能为您及更多的朋友带来帮助 欢迎转
  • mysql提示Can‘t connect to MySQL server on localhost (10061)解决方法

    本文mysql的安装环境为win10 64位 xff0c mysql版本为MySQL5 7 我遇到的问题是 电脑原先安装过mysql xff0c 卸载不干净 xff0c 重装默认以前的用户名和密码 xff0c 然鹅 我不知道用户名和密码 以
  • 哈希表与一致性哈希表

    哈希表定义 散列表 xff08 Hash table xff0c 也叫哈希表 xff09 xff0c 是根据关键码值 Key value 而直接进行访问的数据结构 它通过把关键码映射到表中一个位置来访问记录 xff0c 以加快查找的速度 这
  • 【AI欣赏】将火影忍者推向新高度:StableDiffusion的神奇效果

    AI欣赏 将火影忍者推向新高度 xff1a StableDiffusion的神奇效果 x1f525 你是否曾经梦想过将自己的绘画水平提升到一个新的高度 xff0c 让你的艺术作品能够轻松地与官方制作相媲美呢 xff1f StableDiff
  • 2023-03-06 debian11 最小安装记录

    1 镜像准备 xff0c 根据个人需求下载debian 版本 Debian 获取 Debian 2 上传到VSAN 内容库 我这边是在vm里面安装的 xff0c 就直接上传到内容库备用 xff08 根据个人需求存放 xff09 3 分配虚拟
  • Vue 项目启动报错:http://eslint.org/docs/rules/no-unused-vars

    Vue项目启动时报 xff1a http eslint org docs rules no unused vars 39 vm 39 is assigned a value but never used src navigation nav

随机推荐

  • Android解决相机预览拉伸问题

    拉伸的原因 1 主要是由于surfaceview的尺寸和 相机预览尺寸不一致造成的 64 Override span class token keyword public span span class token keyword void
  • Linux技巧

    0001 修改主机名 bjchenxu vi etc sysconfig network xff0c 修改HOSTNAME一行为 34 HOSTNAME 61 主机名 34 没有这行 xff1f 那就添加这一行吧 xff0c 然后运行命令
  • 8.消抖技术

    简介 开关的金属触点在断开闭合的过程中产生了多个信号 xff0c 消抖就是保证只有一个信号起到作用 这样的小抖动不像快脉冲一样造成市电上的其他设备出现故障 但是会导致模拟电路快速翻转的数字信号电路出现故障 便宜的电脑键盘通常使用导电橡胶制成
  • 1.7-1.8动态库加载失败的原因和解决办法

    目录 1 动态库和静态库的原理 2 动态库加载失败的原因 3 解决方法 3 1 DT RPATH段 3 2将libcalc so的路径加入到环境变量LD LIBRARY PATH中 3 3将libcalc so的路径加入到 etc ld s
  • Spring中Bean创建完成后执行指定代码的几种实现方式

    Spring中Bean创建完成后执行指定代码的几种实现方式 1 实现ApplicationListener接口2 实现InitializingBean接口3 使用 64 PostConstruct注解 在实际开发中经常会遇到在spring容
  • archlinux fcitx5 在浏览器中不能使用中文输入法

    archlinux系统升级后 xff0c fcitx5 在浏览器中不能使用中文输入法 xff0c 解决办法 xff1a 编辑 etc environment 并添加以下几行 xff0c 然后重新登录 1 xff1a GTK IM MODUL
  • ANR问题了解新思路

    众所周知 xff0c ANR问题一般不太容易解决 它是一种比较综合性的问题 往往涉及系统事件分发逻辑 xff0c ANR产生机制 xff0c BINDER机制 xff0c 线程同步 xff0c CPU和内存使用等各方面 意思就是说 xff0
  • 2021-01-14

    Design expert教程 单因素实验设计 Part 1 基础简介在这个教程中 xff0c 我们会使用Design Expert创建一个常用的单因素多水平设计 这种类型的设计对分类处理的简单比较非常有用 xff0c 例如 xff1a 谁
  • Statement和PreparedStatement的区别/PreparedStatement和Statement比较的优点

    Statement 和 PreparedStatement之间的关系和区别 关系 xff1a PreparedStatement继承自Statement 都是接口 区别 xff1a PreparedStatement可以使用占位符 xff0
  • MATLAB自适应中值滤波

    span class token operator span 自适应中值滤波 clc span class token punctuation span clear span class token punctuation span clo
  • 操作系统经典问题之生产者消费者问题

    一 生产者消费者问题 生产者和消费者问题是计算机同步互斥的经典问题 xff0c 其意思就是生产者把生产出来的产品放在仓库里 xff0c 消费者把产品从仓库里取出来 仓库属于临界区 xff0c 生产者和消费者一次只能一个进入临界区中 两个进程
  • ctags使用教程

    Ctags ctags在http ctags sourceforge net 下载源码 xff0c 编译后安装 常规的标记命令为 ctags R 34 R 34 表示递归创建 xff0c 也就包括源代码根目录下的所有子目录下的源程序 绝大多
  • 线程池(阻塞队列,生产者消费者模式)

    线程的等待和通知 Object类中有些方法不可随便调用 wait notify notifyAll 这三个方法 xff1a 1 wait 使线程主动释放锁 xff0c 进入等待状态 xff0c 直到他被其他的线程通过 notify 和 no
  • ubuntu18.04开机后无法进入系统问题的解决方法

    解决方法ubuntu18 04开机时无法进入系统的问题 问题描述 xff1a 出现这种错误的原因是安装了nvidia smi安装包 xff0c Ubuntu18 04内核bug导致gdm3和nvidia驱动冲突 xff0c 使得gdm3无法
  • 解决安装软件包时出现E:无法定位的问题

    第一种情况 xff1a 在确定网络连接和质量没问题的情况下 xff0c 任何软件都无法安装 xff0c 出现E 无法定位XXX 解决 xff1a 换源 具体步骤 xff1a 1 备份 etc apt sources list 文件 执行命令
  • 初次入职,git使用教程:如何在idea使用git拉取代码,提交代码,以及在gitlab上发起合并请求

    git的使用相信是很多刚踏入程序员这一行朋友的痛点 xff0c 刚入职的一段时间非常担心git用错 xff0c 把别人的代码覆盖掉 xff0c 下面我详细介绍一下如何在idea上使用git xff0c 拉取 xff0c 提交代码 xff0c
  • nginx配置反向代理

    因为项目会根据生成一个URL 那个URL需要挂在移动端APP上 xff0c 但该项目需要部署在公司内网 xff0c 公司内网不能全外网开放 xff0c 所以需要经过nginx配置反向代理来跳转 文章目录 前言一 pandas是什么 xff1
  • 张筱雨履历

    自出道以来便以清纯可爱风格 席卷全球 幽雅的姿态 迷人的身姿 无不透露出深刻内涵的底蕴 被誉为中国第一 姓名 xff1a 张筱雨 出生日期 xff1a 1985年06月06日 职业 xff1a 模特 性别 xff1a 女性 籍贯 xff1a
  • Hystrix总结

    Hystrix是什么 xff1f Hystrix 能使你的系统在出现依赖服务失效的时候 xff0c 通过隔离系统所依赖的服务 xff0c 防止服务级联失败 xff0c 同时提供失败回退机制 xff0c 更优雅地应对失效 xff0c 并使你的
  • python爬取京东商品信息及评论

    准备 chrome浏览器 和 chromeDriver插件 xff08 其他浏览器步骤类似 xff09 python 环境python selenium模块 代码 span class token triple quoted string