手把手带你用Java爬取网站数据

2023-11-15

1. Jsoup介绍

  • 官网文档:https://jsoup.org
  • Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

2. Jsoup快速入门

  • 获取网页标题
String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=1";
Document document = Jsoup.connect(url).get();
String title = document.select("title").text();
System.out.println(title);
  • 运行效果:手机 - 商品搜索 - 京东

3. 网站数据分析

3.1 分析网站的访问地址

  • 以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。
  • URL:https://search.jd.com/Search?keyword=手机&wq=手机&page=1

3.2 分析网站的页面结构

  • 通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。

  • 可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。

4. 实战实现过程

  • 获取第1页的商品基本数据
public static void main(String[] args) throws Exception {
    //第1页地址
    String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=1";
    //发送http请求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //获取商品sku
                String sku = li.attr("data-sku");
                //获取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //获取商品图片地址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");

                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}
  • 效果预览

  • 改造为分页获取
public static void main(String[] args) throws Exception {
    //第N页地址
    String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=" + i;
    //发送http请求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //获取商品sku
                String sku = li.attr("data-sku");
                //获取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //获取商品图片地址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");

                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

手把手带你用Java爬取网站数据 的相关文章

随机推荐

  • 牛客网校招风暴周算法题-回文数列

    题目要求 任意输入一个整数字符串 可以使任意相邻的两个数相加来构造回文数列 要求输入任意的整数数列 然后输出使它们相加次数最少得到的回文 数列 43 36 54 36 例如 输入 1 3 9 7 2 2 1 1输出 2 实例解析 为了得到回
  • 新iPad中国发售风光不在的十大原因

    曾经的苹果新品发售现场 人头攒动 争先恐后 可谓风光无限 然而 最近的New iPad在中国上市 却显得略微冷清 风光不在 虽没到 门前冷落鞍马稀 的地步 但至少很难用 异常火爆 之类的词汇来形容了 究竟是什么原因造成新iPad在中国发售风
  • linux每天定时刻重启 & Vim搜索高亮取消

    一 linux每天定时刻重启 vim etc crontab 即为每天上午8 30重启 二 Vim搜索及高亮取消
  • uni-app开发微信小程序的简要流程

    uni app开发微信小程序 开发uni app的技术条件就是微信小程序及Vue 不熟悉vue的同学要先学习了解一下 不熟悉小程序可以直接看uni文档 https uniapp dcloud io frame 其他博客 vue elemen
  • Markdown编辑器Typora标题自动编号

    Typora标题自动编号 Typora官方说明 正文中的各级标题自动编号 来到Typora的主题文件夹 打开Typora界面 点击左上角文件 偏好设置 外观 打开主题文件夹 添加一个名为base user css的文件 用记事本就可 复制以
  • 计算2的n次方的三种方法(C语言实现)

    C代码如下 1 include
  • Git第六讲 本地配置Git与中文乱码解决

    配置本地用户和邮箱 git config global 命名 值 可以添加新值 如 git config global user name 你的用户名 git config global user email 你的邮箱 git config
  • umi3查看 “@umijs/preset-react“版本

    umi3在项目初始化时 对于 umijs preset react 官方默认安装版本为1 x 如下图 那怎么查看目前可以安装的版本都有哪些 输入命令 npm view umijs preset react versions 可用版本这么多
  • ChatGPT在哪些领域可以应用?

    ChatGPT是一种多功能的语言模型 可以在各个领域应用 它的强大之处在于其能力跨越多个领域 从文本生成到自然语言理解和对话处理 下面是一些ChatGPT的应用领域 1 对话系统 ChatGPT可以作为人机对话系统的核心 它可以接受用户的自
  • 稳压二极管的工作原理是什么?

    请问此图中稳压二极管的工作原理是什么 1 原理图 2 功能 只要从b到a流过一个大于或等于2mA的电流 反向电流 那么b和a两端之间的电压基本会稳定在稳压值附近 如果是从a流到b 稳压管就是一个普通的二极管 3 稳压管的类型 1N53XXA
  • hbase 启动时 Name or service not known -完美解决

    异常描述 Name or service not known 解决方式 root Hades kk bin vim etc hosts 在127 0 0 1 最后加上服务器hostname 即可 注意空格
  • GitLab HTTPS配置方法

    1 准备证书和密钥 需要获得SSL证书和密钥 您可以使用您已经购买的证书 或者使用免费的SSL自签证书 2 备份GitLab的配置文件 更改之前 备份GitLab配置文件 默认可以在 etc gitlab gitlab rb 中找到该文件
  • 《软件调试艺术》读后感一

    1 预备知识 在进入正题之前要对GDB有一个大概的了解 GDB能干什么 GDB如今的有用性还有多少 等问题 我们带着这种问题去书中探索 这样会使我们学到很多其它的东西 首先 我看一张图 这张图不是我画的 可是这张图基本涵盖了 软件调试艺术
  • 如果去掉vim里讨厌的beep声

    用过vim的人都知道 当光标移动到行首 行尾 或者文件头文件尾时 如果再继续移动光标 系统就会发出讨厌的beep声 声音还挺大 那么如何去掉beep声呢 今天在网上查了一下 其实很简单 只需要在 vimrc配置文件里增加一句话即可 set
  • .sh文件怎么写_Linux学习笔记:在linux下用打包发布可执行文件的两种方法

    我们在linux下编写代码时 会用到一些额外的库 动态或者静态 如小编在qt下写opencv的程序 是在电脑上 项目需求 需要将其移植到嵌入式板子上 小编这里提供一种简单的方法 将我们在电脑上开发好的程序 可以打包复制到其他只要是Linux
  • N-MOS和P-MOS驱动应用实例

    MOS在电路设计中是比较常见的 按照驱动方式来分的话 有两种 即 N MOS管和P MOS管 MOS管跟三极管的驱动方式有点类似 但又不完全相同 那么今天笔者将会给大家简单介绍一下N MOS管和P MOS管的工作原理 并结合自己实际的应用来
  • mysql根据指定字符拆分某个字段,并将数据分割成多条记录

    mysql根据指定字符拆分某个字段 并将数据分割成多条记录 表名 t course comment 表数据 拆分字段 studentids mysql语句 select distinct a id a teacherid a coursei
  • RxJava 事件流之聚合

    Aggregation 前面介绍了如何过滤掉不需要的数据 如何根据各种条件停止发射数据 如何检查数据是否符合某个条件 这些操作对数据流来说都是非常有意义的 本节介绍如何根据数据流中的数据来生成新的有意义的数据 本节的操作函数会使用源 Obs
  • cad打印表格出现一根竖线 表格_CAD 相关术语表

    下面是本公众号文章分类目录 点击标题文字可打开分类文章列表 安装卸载 异常 退出 文件及输入输出 基本操作技巧 设置及相关问题 界面和显示 快捷键 视图设置和调整 图层管理 颜色 线型 字体 文字样式和文字输入 标注 引线和标注样式 坐标系
  • 手把手带你用Java爬取网站数据

    1 Jsoup介绍 官网文档 https jsoup org Jsoup 是一款Java 的HTML解析器 可直接解析某个URL地址 HTML文本内容 它提供了一套非常省力的API 可通过DOM CSS以及类似于jQuery的操作方法来取出