python requests 爬虫--爬取HTML源码不显示正文已解决

2023-11-19

爬虫第一步:获取整个网页的HTML信息

源代码如下: 

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'https://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    req.encoding = "gbk"
    print(req.text)

出现问题:爬取下来的页面HTML与从页面审查的HTML不完全一致,缺少了页面上的正问内容部分HTML

 百度查询给出一个解释是:pycharm工具认为返回的数据太多给省略了,使用python自带的IDEA工具运行代码就没有问题。

因此,在命令行又运行了一下代码,果真出现了正文,如下图:

若必须在pycharm中运行,可进行如下修改: 写一个正则,只显示正文内容。

import requests
import re

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    p = r'id="content"(.*)'   #正则只获取正文
    req.encoding = "gbk"
    texts = re.findall(p, req.text)
    print(texts)

再次,运行,结果如下:

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python requests 爬虫--爬取HTML源码不显示正文已解决 的相关文章

随机推荐

  • ES集群节点掉线故障排查

    理解 IOWAIT man mpstat Linux iowait Percentage of time that the CPU or CPUs were idle during which the system had an outst
  • “没有关联的电子邮件程序来执行请求的操作” 的解决办法

    在控制面板中打开 默认程序 选择 将文件类型或协议与程序关联 在关联列表中查找到名称 mapimail 的选项 点击右上边 更改程序 或者双击也可以 在弹出的窗口中选择 浏览 找到Foxmail的安装目录选中Foxmail exe 设置OK
  • C语言之函数题

    目录 1 乘法口诀表 2 交换两个整数 3 函数判断闰年 4 函数判断素数 5 计算斐波那契数 6 递归实现n的k次方 7 计算一个数的每位之和 递归 8 字符串逆序 递归实现 9 strlen的模拟 递归实现 10 求阶乘 11 打印一个
  • 数据库架构设计思路、表结构设计方面思路

    介绍数据库设计 表结构设计 访问设计 物理存储设计 数据库设计思路 1 单机 单机就是把做的系统部署到一台服务器上 所有的请求业务都由这台服务器处理 显然 当业务增长到一定程度时 服务器的硬件会无法满足业务需求 2 集群 在多个服务器上部署
  • Qpython读取手机短信

    环境 手机RedMi Note 9 Pro 系统MIUI12 自带应用商店下载 QPython OP 在设置中要打开Qpython OP 的相关权限 否则会空指针 QPython OP 使用手册 读取短信代码如下 一个简单示例 from a
  • 几种Linux 查询外网出口IP的方法

    几种Linux 查询外网出口IP的方法 Curl 纯文本格式输出 curl icanhazip com curl ifconfig me curl curlmyip com curl ip appspot com curl ipinfo i
  • 【QrCode前端生成二维码】使用前端实现二维码

    遇到客户需求是扫码来替代人工输入一些数据 然后想着只从前端实现最好不过 然后就发现了qrCode这个js库 div div 可选参数来设置 var qrcode new QRCode test text http www qiuguodj
  • vue项目中批量删除如何实现的

    简单回答 与单个删除的接口为同一个 然后通过数组对象的id来删除
  • 光模块组装过程中常见问题分析及解决方法

    光模块组装过程中会出现一些问题 经常使用光模块的人可能会知道 下面就分享了组装光模块的问题及原因分析 并附有解决方案 大家参考下 希望对大家有帮助 在光模块组装过程中会出现一些问题 经常使用光模块的人可能会知道 组装光模块的问题 分析如下
  • 【嵌入式基础】串口中断通信VS串口DMA通信

    目录 目录 前言 一 串口通信 1 通信方式 2 通信速率 3 串口通信的三种工作方式 二 串口中断通信 1 串口中断特点 2 CubeMX配置初始化串口中断相关外设 3 串口中断程序分析 4 实验效果 三 串口DMA通信 1 关于DMA
  • 数字后端知识点扫盲——后端设计流程及使用工具

    1 DFT Design For Test 可测性设计 芯片每一步往往都自带测试电路 DFT的目的就是在设计的时候就考虑将来的测试 DFT的常见方法是 在设计中插入scan chain 将非扫描单元 如寄存器 变为扫描单元 DFT工具是sy
  • VS包含目录、库目录、附加依赖项、环境变量详解

    首先 提出一个问题 我们编译一个程序 都需要哪些文件 1 头文件 2 静态库lib 3 动态库dll 针对这三个文件 我们便可以设置工程的相关属性 1 头文件 我们要用到一个头文件 需要知道这个头文件的名字 然后用 include将它包含进
  • Java高级-包装类、BigDecimal和BigInteger

    基本数据类型和包装类 基本数据类型和包装类如下所示 基本类型 包装类 int java lang Integer 父类为java lang Number long java lang Long 父类为java lang Number dou
  • Maven中:可以被子模块继承的元素

    即使是长期从事 Maven 工作的开发人员也不能完全掌握聚合 多模块 和 Parent 继承的关系 在使用多模块时 子模块总要指定聚合的 pom 为
  • Linux中如何修改文件或目录的权限?

    在Linux系统中 文件权限是非常重要的一个概念 它能够决定谁可以访问文件 以及可以执行哪些操作 正确地设置文件权限可以确保系统的安全性和稳定性 那么如何设置文件权限呢 以下是详细的内容 在 Linux 系统中 可以使用 chmod 命令来
  • unity中的一些快捷键(齐)

    重命名的快捷键是F2 ALT 鼠标左键点击Hierarchy对象可以展开和收起对象的所有子物体 SHIFT 空格 可以对当前窗口进行放大缩小
  • 部署docker

    1 移除之前安装过的Docker sudo yum y remove docker docker client docker client latest docker common docker latest docker latest l
  • maven怎么引入jdom_如何在Maven项目中引入自己的jar包

    1 一般情况下jar包都可以使用pom xml来配置管理 但也有一些时候 我们项目中使用了一个内部jar文件 但是这个文件我们又没有开放到maven库中 我们会将文件放到我们项目中 以下以java工程为例随便放了个地方 2 jar包的引入和
  • RK3308 Ubuntu16.04移植

    一 概述 本章将介绍Ubuntu在RK平台上的移植以及AP配网 常用的fs为buildroot编译出来的linux文件系统 而本次则是ubuntu文件系统 系统启动后需要手动对WIFI驱动进行加载并配网 二 配置Kernel 为了支持ubu
  • python requests 爬虫--爬取HTML源码不显示正文已解决

    爬虫第一步 获取整个网页的HTML信息 源代码如下 coding UTF 8 import requests if name main target https www biqukan com 1 1094 5403177 html req