python requests 爬虫--爬取HTML源码不显示正文已解决

2023-11-19

爬虫第一步：获取整个网页的HTML信息。

源代码如下：

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'https://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    req.encoding = "gbk"
    print(req.text)

出现问题：爬取下来的页面HTML与从页面审查的HTML不完全一致，缺少了页面上的正问内容部分HTML

百度查询给出一个解释是：pycharm工具认为返回的数据太多给省略了，使用python自带的IDEA工具运行代码就没有问题。

因此，在命令行又运行了一下代码，果真出现了正文，如下图：

若必须在pycharm中运行，可进行如下修改： 写一个正则，只显示正文内容。

import requests
import re

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    p = r'id="content"(.*)'   #正则只获取正文
    req.encoding = "gbk"
    texts = re.findall(p, req.text)
    print(texts)

再次，运行，结果如下:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python requests 爬虫--爬取HTML源码不显示正文已解决的相关文章

解决Invalid handler for event “click“:问题

解决Invalid handler for event click 问题上一篇文章介绍了如何搭建一个基于vue和ElementUi 的项目当我在项目中添加一个button按钮并未这个按钮添加一个 click事件

随机推荐

ES集群节点掉线故障排查

理解 IOWAIT man mpstat Linux iowait Percentage of time that the CPU or CPUs were idle during which the system had an outst
“没有关联的电子邮件程序来执行请求的操作” 的解决办法

在控制面板中打开默认程序选择将文件类型或协议与程序关联在关联列表中查找到名称 mapimail 的选项点击右上边更改程序或者双击也可以在弹出的窗口中选择浏览找到Foxmail的安装目录选中Foxmail exe 设置OK
C语言之函数题

目录 1 乘法口诀表 2 交换两个整数 3 函数判断闰年 4 函数判断素数 5 计算斐波那契数 6 递归实现n的k次方 7 计算一个数的每位之和递归 8 字符串逆序递归实现 9 strlen的模拟递归实现 10 求阶乘 11 打印一个
数据库架构设计思路、表结构设计方面思路

介绍数据库设计表结构设计访问设计物理存储设计数据库设计思路 1 单机单机就是把做的系统部署到一台服务器上所有的请求业务都由这台服务器处理显然当业务增长到一定程度时服务器的硬件会无法满足业务需求 2 集群在多个服务器上部署
Qpython读取手机短信

环境手机RedMi Note 9 Pro 系统MIUI12 自带应用商店下载 QPython OP 在设置中要打开Qpython OP 的相关权限否则会空指针 QPython OP 使用手册读取短信代码如下一个简单示例 from a
几种Linux 查询外网出口IP的方法

几种Linux 查询外网出口IP的方法 Curl 纯文本格式输出 curl icanhazip com curl ifconfig me curl curlmyip com curl ip appspot com curl ipinfo i
【QrCode前端生成二维码】使用前端实现二维码

遇到客户需求是扫码来替代人工输入一些数据然后想着只从前端实现最好不过然后就发现了qrCode这个js库 div div 可选参数来设置 var qrcode new QRCode test text http www qiuguodj
vue项目中批量删除如何实现的

简单回答与单个删除的接口为同一个然后通过数组对象的id来删除
光模块组装过程中常见问题分析及解决方法

光模块组装过程中会出现一些问题经常使用光模块的人可能会知道下面就分享了组装光模块的问题及原因分析并附有解决方案大家参考下希望对大家有帮助在光模块组装过程中会出现一些问题经常使用光模块的人可能会知道组装光模块的问题分析如下
【嵌入式基础】串口中断通信VS串口DMA通信

目录目录前言一串口通信 1 通信方式 2 通信速率 3 串口通信的三种工作方式二串口中断通信 1 串口中断特点 2 CubeMX配置初始化串口中断相关外设 3 串口中断程序分析 4 实验效果三串口DMA通信 1 关于DMA
数字后端知识点扫盲——后端设计流程及使用工具

1 DFT Design For Test 可测性设计芯片每一步往往都自带测试电路 DFT的目的就是在设计的时候就考虑将来的测试 DFT的常见方法是在设计中插入scan chain 将非扫描单元如寄存器变为扫描单元 DFT工具是sy
VS包含目录、库目录、附加依赖项、环境变量详解

首先提出一个问题我们编译一个程序都需要哪些文件 1 头文件 2 静态库lib 3 动态库dll 针对这三个文件我们便可以设置工程的相关属性 1 头文件我们要用到一个头文件需要知道这个头文件的名字然后用 include将它包含进
Java高级-包装类、BigDecimal和BigInteger

基本数据类型和包装类基本数据类型和包装类如下所示基本类型包装类 int java lang Integer 父类为java lang Number long java lang Long 父类为java lang Number dou
Maven中:可以被子模块继承的元素

即使是长期从事 Maven 工作的开发人员也不能完全掌握聚合多模块和 Parent 继承的关系在使用多模块时子模块总要指定聚合的 pom 为
Linux中如何修改文件或目录的权限？

在Linux系统中文件权限是非常重要的一个概念它能够决定谁可以访问文件以及可以执行哪些操作正确地设置文件权限可以确保系统的安全性和稳定性那么如何设置文件权限呢以下是详细的内容在 Linux 系统中可以使用 chmod 命令来
unity中的一些快捷键（齐）

重命名的快捷键是F2 ALT 鼠标左键点击Hierarchy对象可以展开和收起对象的所有子物体 SHIFT 空格可以对当前窗口进行放大缩小
部署docker

1 移除之前安装过的Docker sudo yum y remove docker docker client docker client latest docker common docker latest docker latest l
maven怎么引入jdom_如何在Maven项目中引入自己的jar包

1 一般情况下jar包都可以使用pom xml来配置管理但也有一些时候我们项目中使用了一个内部jar文件但是这个文件我们又没有开放到maven库中我们会将文件放到我们项目中以下以java工程为例随便放了个地方 2 jar包的引入和
RK3308 Ubuntu16.04移植

一概述本章将介绍Ubuntu在RK平台上的移植以及AP配网常用的fs为buildroot编译出来的linux文件系统而本次则是ubuntu文件系统系统启动后需要手动对WIFI驱动进行加载并配网二配置Kernel 为了支持ubu
python requests 爬虫--爬取HTML源码不显示正文已解决

爬虫第一步获取整个网页的HTML信息源代码如下 coding UTF 8 import requests if name main target https www biqukan com 1 1094 5403177 html req

python requests 爬虫--爬取HTML源码不显示正文已解决

python requests 爬虫--爬取HTML源码不显示正文已解决 的相关文章

随机推荐

热门标签

python requests 爬虫--爬取HTML源码不显示正文已解决的相关文章