爬取药品监督情况数据

2023-11-19

首先打开国家药品监督局的相应网址
国家药品监督局的相应网址
国家药品监督的相应页面找到某一家企业点击相应的许可证编号那一个栏目，查看相应的许可证情况
上面对应的内容为我们需要爬取的对应的数据
不确定对上述的网页进行访问的时候，我们能够得到对应的企业名称，许可证编号，发证机关等相应的数据，
这时候我们可以尝试着发一次请求，看看能否得到页面中对应的相应的数据

import  requests
import  json
url = 'http://scxk.nmpa.gov.cn:81/xk/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
}
page_text = requests.get(url=url,headers=headers).text
with  open('./huazhuangpin.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

打开之后发现通过requests爬取到的页面之中并没有对应的企业名称等内容，
爬取到的相应的页面说明这些数据并不是通过url获取到的，而是通过别的方式获取到的，很有可能通过阿贾克斯请求到的。
接下来使用相应的抓包工具查看相应的数据
抓包工具抓取的相应的数据首先我们查看第一个xk/的对应的内容
xk/对应的内容可以看出xk/返回的正好是对应相应的源代码的数据，也就是我们之前访问对应的url返回的相应的数据。
复制相应的公司，在源代码之中进行相应的搜索
源代码之中搜索相应的公司可以发现对应公司的内容在源代码之中并没有能够相应的搜索到，意味着通过这个url请求到的数据包没有搜索到相应的企业信息，爬取的数据为动态加载出来的。
如果在整个界面使用ctrl+f，可以直接搜索整个界面不同组件相应的内容，这样就可以直接搜索到能够获取相应数据的对应组件，进而获取到相应的得到信息的方式
搜索整个界面不同组件的相应内容分析第二个相应的页面发现
分析第二个页面输入的数据对应的请求为相应的post请求，需要传入的数据为相应的id的数据，所以只需要从第一个页面提取到的数据之中提取出相应的id数值即可
完整的代码如下

import  requests
import  json
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
}
param = {
    'method':'getXkzsList'
}
data = {
    'on':'true',
    'page':'1',
    'pageSize':'15',
    'productName':'',
    'conditionType':'1',
    'applyname':'',
    'applysn':'',
}
response = requests.post(url=url,params=param,data=data,headers=headers)
page_text = response.json()
#现在page_text为得到的一个对应的json文件
#获取第一个界面相应的json数据，并得到json之中相应的list属性，因为
#list属性之中存放着相应的id的对应的内容
lists = page_text['list']
print('lists = ')
print(lists)
#with  open('./huazhuangpin.json','w',encoding='utf-8') as fp:
#    fp.write(str(page_text))
for  i  in  range(len(lists)):
    currentid = lists[i]['ID']
    print(currentid)
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do'
    param = {
        'method':'getXkzsById'
    }
    data = {
        'id':currentid
    }
    response = requests.post(url=url,params=param,data=data,headers=headers)
    print(response.json())
#获取每一个list之中对应id内容之后，对于第二个界面使用post获取相应的json数据

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫专栏

爬取药品监督情况数据的相关文章

[渗透]CVE-2020-1938/CNVD-2020-10487：Apache Tomcat AJP连接器远程执行代码漏洞

受影响版本 Apache Tomcat 6 Apache Tomcat 7x lt 7 0 100 Apache Tomcat 8x lt 8 5 51 Apache Tomcat 9x lt 9 0 31 未受影响版本 Tomcat 7
设计模式（十）装饰器模式

装饰器模式是一种非常有用的结构型模式它允许我们在不改变类的结果的情况下为类添加新的功能我们来举例说明一下首先添加一组形状它们都实现了形状接口 public interface Shape String getShape class
QT使用emit时发生内存泄露

1 场景在QT里面使用多线程进行编程时子线程执行的函数里面使用了emit发生了内存泄露 2 主要原因在使用子线程时线程使用了join 来等待子线程完成这样使用emit也不会发送信号因为join 是阻塞的必须等待当前线程完成 3
iOS逆向工程之App脱壳

本篇博客以微信为例给微信脱壳砸壳在iOS逆向工程中是经常做的一件事情因为从AppStore直接下载安装的App是加壳的其实就是经过加密的这个砸壳的过程就是一个解密的过程未砸壳的App是无法在Class dump Hoppe
Android多进程（一）—— 开启多进程

Android多进程一般情况下一个应用程序就是一个进程进程名就是应用程序的包名进程是系统分配资源的基本单位每个进程都有自己独立的资源和内存空间 1 Android开启多进程的原因单进程分配的内存不够需要更多的内存早期的And
STM32H750+LAN8720无操作系统移植lwip

前言本文提供移植好的工程仅使用串口和以太网外设见本文绑定资源环境 STM32CubeMX V6 8 1 STM32H7 HAL Pack V1 11 1 硬件连接 STM32H750 GPIO定义如下 LAN8720 GPIO定义如
使用匿名函数动态设置前置或者后置操作（装饰器模式的）

我的个人博客逐步前行STEP 在维护另一个同事的代码时由于代码量比较大而且封装程度低耦合高维护起来不太顺手就怕哪没注意把现有的逻辑改坏了受到laravel admin的保存回调功能的启发想到了使用匿名函数来动态设置前置或者后置操
一文带你看懂细粒度分类网络Learning Attentive Pairwise Interaction(AAAI)

论文 https arxiv org abs 2002 10191 引用或转载请注明出处
[Vue warn]: Error in render: “TypeError: cellValue.replaceAll is not a function

去除中括号如车门车门 let reg new RegExp g return str replaceAll reg 上面方法在edge浏览器谷歌浏览器没问题但是在搜狗和QQ浏览器就报错解决办法 return str repla
unity中Input类

这个是鼠标与键盘按键的一些操作 void Update 获取鼠标在屏幕中的位置 Vector3 mousePos Input mousePosition print mousePos 获取屏幕的宽 Screen width 获取屏幕的高 S
【技术经验分享】计算机毕业设计Python+Spark视频推荐系统短视频推荐系统视频流量预测系统短视频爬虫视频数据分析视频可视化视频大数据大数据毕业设计大数据毕设

开发技术前端 vue js websocket element ui echarts 后端 springboot mybatis plus 数据库 mysql neo4j图数据库知识图谱数据分析 hadoop spark实时计算算法
TscanCode代码扫描工具

TscanCode介绍 TscanCode 是腾讯研发的静态代码扫描工具最早的版本是基于 cppcheck 二次开发之后又重新自研不仅支持 C 还支持 C Lua 语言在发掘 C 空指针越界未初始化 C 空引用 Lua变量未初始
活动报名｜如何使用70万预算从头训练千亿语言大模型

王业全北京智源人工智能研究院认知模型团队负责人清华大学博士中国中文信息学会情感计算专委会委员 2022年被评为AI 2000全球最具影响力人工智能学者自然语言处理领域主要从事语言大模型自然语言处理方面的研究工作代表成果有 FL
shell脚本读取csv数据迁移文件

前言仅记录学习笔记如有错误欢迎指正最近这段时间一直在忙数据迁移的问题现在碰见的问题是需要将目标服务器上的文件导入到本地库思路我们需要的数据不多但是服务器上特别多所以通过查询目标文件的目录位置和文件名称导出为csv文件之
Vue + ElementUI 实现批量删除功能

第一步在el table 组件绑定 selection change事件第二步在调用父组件的子组件中添加当表格项发生变化时会触发事件函数 selectionChange val 在method 函数中添加如下代码 selectionC
从零基础开始开发自己的第一个微信小程序

文章目录内容介绍小程序开发步骤注册微信小程序账号下载开发工具搭建开发环境创建工程编写代码手机上查看效果工程里的文件作用介绍总结内容介绍通过本篇blog 你可以熟悉从零开始搭建小程序开发环境并运行起自己的第一个小程序
QT中slot，signal，emit讲解

Qt中的类库有接近一半是从基类QObject上继承下来信号与反应槽 signals slot 机制就是用来在QObject类或其子类间通讯的方法作为一种通用的处理机制信号与反应槽非常灵活可以携带任意数量的参数参数的类型也由用户自定
条码编码-Code39

近来在研究条码的实现遇到一些坑现在把自己遇到的一些情况分享一下世界上约有225种以上的条形码一般较流行的有 39码 EAN码 UPC 码 128码以及专门用於书刊管理的ISBN ISSN等我们先从Code39码开始 Code39

随机推荐

电子设计竞赛之备战

一学习框架 1 单片机编程 C语言用来采集各种传感器的数据控制各种电机多写程序多看书单片机学习的四个层次 1 完成单片机开发板的学习理解单片机的工作能看懂单片机程序 2 能够照着芯片手册 datasheet 试着编写各类芯片的
Tomcat启动Alias name [null] does not identify a key entry报错分析，涉及从公钥(CER)+私钥(KEY)转换为jks证书的方法

先说原因是什么之前百度谷歌 CSDN上也搜过搜到最多的答案是server xml中缺少指定keyAlias xxx 但是试了以后会发现还是报这个错只是报错由Alias name null does not identify a ke
【app测试】adb常用指令及华为卸载预置软件

adb基础指令 1 adb devices 显示当前运行的全部Android设备 2 adb s 设备编号对某一设备执行命令 3 adb install APK路径安装应用程序 r表示replace覆盖安装连接了多台设备时需要指定设
ubuntu 12.04下双网卡绑定实现负载和冗余

有一个需求是ubuntu下双网卡绑定上连交换机已配置好现在需要配置服务器以下是配置过程 apt get install ifenslave 2 6 modprobe bonding 自动加载编辑以下文件 vi etc mod 添加如
「2020年大学生电子设计竞赛分享」电源题，省一等奖！

点击上方大鱼机器人选择置顶星标公众号福利干货第一时间送达 01 到底参不参赛嗡嗡嗡随着手机的一声振动锁屏弹出了消息提醒没看全文依稀瞄到2020 TI杯几个字眼我便知道自己将面临一个艰难的抉择庚子年春突如其来的新型
芜湖，前端这波起飞！

前天加完班回家路上翻了下粉丝群发现群里最近在疯传一份叫前端offer收割机养成指南的资料本来感觉这个title看起来有点离谱结果没想到仔细一看这份资料竟然真的有点东西内容收纳的很全而且融合了很多今年的新玩意据我所知有人靠
BSD、Apache、MIT、GPL、LGPL几种常见的开源协议

转载地址 https www cnblogs com Vito2008 p 4806677 html 1 BSD开源协议 original BSD license FreeBSD license Original BSD license B
u盘安装ubuntu问题：卡在引导界面不动

问题一直卡在如图界面不动分析既然一直提示syslinux 那我们就看看他是什么东西吧原因 syslinux分区引导记录问题解决方案1 安装bootice软件将制作好的启动盘插入电脑用bootice更改syslinux引导记录
8.10:如何在Python中判断文件类型？

在计算机科学领域中文件类型判断是一个非常基础和重要的问题不同类型的文件需要采取不同的处理方式因此在处理文件时我们需要准确地判断文件类型 Python作为一门流行的编程语言提供了许多方法来判断文件类型在本文中我们将介绍几种常见的
@vitejsplugin-vue requires vue (＞=3.2.13) or @vuecompiler-sfc to be present in the dependency tree

运行项目的时候首先会提示要安装 vue compiler sfc 但是安装后运行项目成功但是页面是空白并且报错 VUE HMR RUNTIME is not defined 摸索了半天查看到package json依赖文件没有vue
RTX线程通信之——线程标志

文章目录 Thread Flags 概念 RTX线程标志API 案例 LED灯同步闪亮小结参考资料 Thread Flags In a real application we need to be able to communicate
mbedtls 入门第四课--移植mbedtls到VS和ESP8266--8266SDK SHA256移植

承接上篇我们初步了解了mbedtls的文件路径以及文件作用以后就是想着如何将mbedtls移植到各种平台博主这里只有两种移植方法第一是将代码移植到VS中第二个是将代码移植到博主跑动的比较多的小众SOC ESP8266 移植到ESP8
【华为OD机试】五子棋迷(C++ Python Java)2023 B卷

时间限制 C C 1秒其他语言 2秒空间限制 C C 262144K 其他语言524288K 64bit IO Format lld 题目描述张兵和王武是五子棋迷工作之余经常切磋棋艺这不这会儿又下起来了走了一会儿轮张兵了对
技术积累 — Keil 查看内存占用/优化代码

原文链接转自Sugar的专栏转载文章若有不妥通知后我会立即删除一查看内存占用 1 使用Keil编辑代码时编译成功后双击红色框框位置就会弹出 map文件 2 那么map文件中能够读出哪些信息呢 Program Size Co
caffe中lstm的实现以及lstmlayer的理解

本文地址 http blog csdn net mounty fsc article details 53114698 本文内容本文描述了Caffe中实现LSTM网络的思路以及LSTM网络层的接口使用方法本文描述了论文 Long ter
自学软件测试需要多久?怎么自学软件测试?自学软件测试可以找到工作吗? 绝对干货！

一前言最近经常有很多朋友问我想要入行软件测试但是都不知道该怎么学这里详细的给大家说下对于0基础的朋友应该怎么去学习软件测试学习软件测试有2条路可以选 1 找个靠谱的培训机构去培训啦你就什么都不用想了跟着培训结构认真的学习就
Hive Sql执行出错 Dag submit failed due to java.io.IOException: All datanodes DatanodeInfoWithStorage

原因根本原因是集群中的一个或多个信息块在所有节点中都已损坏因此映射无法获取数据命令 hdfs fsck list corruptfileblocks 可用于识别集群中损坏的块当数据节点中打开的文件数量较少时也会出现此问题解决方案
微信小程序传递数组给服务器,微信小程序页面间的数组如何传递

A页面数组对象都需要stringify var listData JSON stringify that data listData var taskArray JSON stringify that data taskArray wx
visual studio2019(C#/.NET)安装教程

前言好久没有跟新版本了博主还用的2017 看到最新的2019功能还是很强大的版本可能越高越好所以博主写了一个详细的博客希望可以帮助到大家一 visual studio 2019 下载 1 下载地址 visual studio官方
爬取药品监督情况数据

首先打开国家药品监督局的相应网址国家药品监督局的相应网址找到某一家企业点击相应的许可证编号那一个栏目查看相应的许可证情况上面对应的内容为我们需要爬取的对应的数据不确定对上述的网页进行访问的时候我们能够得到对应的企业名称许可证编

爬取药品监督情况数据

爬取药品监督情况数据 的相关文章

随机推荐

热门标签

爬取药品监督情况数据的相关文章