Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Gooseeker软件使用教程
2023-05-16
因为课程需要使用到Gooseeker软件,写个使用教程防止以后忘记
安装好gooseeker软件,下图为安装好的界面:
点击右上方的“MS谋数台”,弹出如下界面:
在左上方的网址栏输入想要爬取的网站,我这里输入天气网站(http://tianqi.2345.com/wea_history/57516.htm),并在工作台里面创建任务,进行命名和查重,直到可以使用:
在工作台上方标题栏中选择创建规则,选择“新建”并命名,点击确定:
点击“抓取内容”中自己的命名的一栏,选中点击右键,选择“添加”,选择“包容”:
输入你想抓取的内容名称并保存,我这里重复此步骤,创建抓取内容“日期”、“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”,并将“日期”勾选为关键内容:
在“浏览器”窗口中点击你想要获取的内容,比如现在要获取“日期”,就在“日期”那个区域进行鼠标点击,这时候MS谋数台会自动定位“日期”,即在HTML中结点的DIV结点位置。展开结点,找到text结点,右击鼠标,选择内容映射,然后选择你想要映射至的抓取内容:
重复进行第七步,知道把想要抓取的内容给全部映射:
创建爬虫路线,点击工作台标题栏中的“爬虫路线”,点击“新建”:
创建翻页定位编号,在浏览器中点击上一月,网页会自动定位该文本的结点,右击结点选择“翻页映射”,“作为翻页区”,“线索一”:
创建记号定位编号,在游览器中点击上一月,在网页标签里会自动该文本定位的结点,打开该结点,可以看到text属性,右击text(此处只能右击text,不能右击结点),选择 “翻页映射”,“ 作为翻页记号”:
创建样例复制映射,点击工作台标题栏里面的新建规则,勾选右方的启用,启动样例复制管理功能:
分别找到该页面想要爬取的第一条数据的日期栏和第二条数据对应的日期栏的节点,右击第一条数据的日期栏对应的结点,选择“样例复制映射”,“第一个”,右击第二条数据的日期栏对应的结点,选择“样例复制映射”,“第二个”:
点击工作台左方的测试,对当前的规则进行测试:
当测试爬取内容为想要的爬取内容时就可以保存当前规则了,点击“MS谋数台”右上方的“存规则”即可保存规则,然后可以使用我们创建的规则进行数据爬取了,想要看自己是否保存规则,就在工作台标题栏里面的“搜规则”查看:
打开“DS打数机”,“DS打数机”在Gooseeker浏览器中的右上方,打开“DS打数机”,点击“文件”,“存储路径”,“ 自定义数据的存储路径”:
点击“单搜”,设置抓取网页数量,即可开始抓取:
然后打开存储地址,然后可以看到爬取的数据以XML文件保存:
用EXCEL打开其中一个文件,可以看到爬取的数据集,数据爬取完成:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)
GooSeeker
软件使用教程
Gooseeker软件使用教程 的相关文章
TinyKv Project3 PartA Multi-raft KV
TinyKv Project3 PartA Multi raft KV 前言Project3 PartA Multi raft KV 文档翻译Add RemoveLeaderTransfer 前言 Project3是整个项目最难的部分 xf
TinyKv Project3 PartB Multi-raft KV
TinyKv Project3 PartB Multi raft KV 前言Project3 PartB Multi raft KV 文档翻译发送请求LeaderTransfer 禅让ConfChange 集群成员变更Split regio
TinyKv Project3 PartC Multi-raft KV
TinyKv Project3 PartC Multi raft KV 前言Project3 PartC Multi raft KV 文档翻译processRegionHeartbeatSchedule 前言 3C要求我们实现调度 3c按照
nodejs api学习:fs.createReadStreame()
作用 这个api的作用是打开一个可读的文件流并且返回一个fs ReadStream对象 参数 createReadStream path option 该用来打开一个可读的文件流 xff0c 它返回一个fs ReadStream对象 64
TinyKv Project4 Transactions
TinyKv Project4 Transactions 前言Project4 Transactions 文档翻译Project 4 TransactionsTinyKV中的事务Part APart BPart C Percolator x
sealos issue #2157 debug 思路流程记录
sealos issues 2157 debug思路流程 前言分析issue剖析源码解决方案总结 前言 这个项目蛮有意思的 xff0c sealos 是以 kubernetes 为内核的云操作系统发行版 boss上看到 gt 沟通 gt 解
系统设计场景题—MySQL使用InnoDB,通过二级索引查第K大的数,时间复杂度是多少?
系统设计场景题 MySQL使用InnoDB xff0c 通过二级索引查第K大的数 xff0c 时间复杂度是多少 xff1f 前言明确场景对齐表的结构分析时间复杂度执行一条 select 语句 xff0c 期间发生了什么 xff1f 分析性能
《嵌入式系统》 |(四) STM32软件架构 知识梳理
系列索引 嵌入式系统 嵌入式系统 重点知识梳理 目录 CMSIS软件架构库文件说明 CMSIS软件架构 CMSIS概述 CMSIS软件架构由四层 xff1a 用户应用层 操作系统及中间件接口层 CMSIS层和硬件层 由三部分构成 核内外设访
Cmake链接第三方库的三种方法
Cmake链接第三方库的三种方法 本文介绍链接第三方库的3种方法 以OpenBLAS举例 使用的工程名称为Test lib xff08 可执行文件名字 xff09 xff0c 主程序为library c 代码中的各路径请自行替代 xff1a
SADP功能使用
SADP主要使用的是链路层多播及UDP多播的原理进行实现的 1 链路层多播 span class token function socket span span class token punctuation span PF PACKET
MatlabR2022b + Visual Studio环境配置
在Matlab中输入 mex setup c 43 43 命令确认MEX使用VS2022编译环境 VC 43 43 目录 包含目录 添加 D Matlab2022b extern include VC 43 43 目录 库目录 添加 D M
ROS小车自主导航
在进行ROS小车自主导航时 xff0c 需要用到三维可视化软件rviz xff0c 然而出现了问题 问题 xff1a 在运行rosrun rviz rviz xff0c 导入自己导航的程序后 xff0c 需要通过2D Pose Estima
SIYI AK28 遥控器接收机的SBUS口与STM32通讯
SBUS介绍 SBUS是Futaba公司定义的一种串口通信协议 xff0c Futaba的产品应用越来越广泛 xff0c 不论是航模 xff0c 无人机 xff0c 还是机器人 xff0c 遥控车 xff0c 总能有它的身影 SBUS是一个
随机推荐
基于STM32F407四旋翼无人机---AK8975磁力计(四)
基于STM32F407四旋翼无人机 AK8975磁力计 xff08 四 xff09 磁力计基本介绍1 2 磁力计原理图 2 磁力计数据获取3 磁力计椭球拟合校准3 1 简单介绍椭球拟合 磁力计基本介绍 该模块采用高灵敏度霍尔传感器技术 xf
硬链接与软链接
硬链接 hard link 与软链接 xff08 又称符号链接 xff0c 即 soft link 或 symbolic link xff09 链接为 Linux 系统解决了文件的共享使用 xff0c 还带来了隐藏文件路径 增加权限安全及节
基于STM32F407四旋翼无人机 --- 姿态解算讲解(四元数)(叉积法融合陀螺仪数据和加速度数据)(五)
基于STM32F407四旋翼无人机 姿态解算讲解 xff08 五 xff09 姿态解算姿态解算定义欧拉角四元数四元数性质 方向余弦矩阵四元数方向余弦矩阵 叉积法融合陀螺仪数据和加速度数据叉积运算 一阶龙格库塔法四元数更新获得欧拉角 姿态解算
基于STM32F407四旋翼无人机---PID算法控制(六)
基于STM32F407四旋翼无人机 PID算法控制 xff08 六 xff09 PID介绍PID仿真分析 PID介绍 PID介绍 此算法是由P xff08 比例 xff09 I xff08 积分 xff09 和D xff08 微分 xff0
四足机器人(一)----MATLAB simulink对四足机器人物理建模
四足机器人 xff08 一 xff09 MATLAB simulink对四足机器人物理建模 一 本设计中用的是网上下载的别人已经画好的四足机器狗的3D模型 那么我们就需要将这些3D模型导入到MATLAB的建模中 xff0c 打开MATLAB
四足机器人(二)---运动学逆解和步态规划
四足机器人 xff08 二 xff09 运动学逆解和步态规划 运动学逆解步态规划MATLAB仿真 运动学逆解 其实运动学分为运动学正解和运动学逆解 xff0c 二者有什么区别呢 xff1f 因为在四足机器人中用的是12个舵机 xff0c 所
四足机器人(三)--- 姿态控制
四足机器人 xff08 三 xff09 姿态控制 概述姿态表示使用MATLAB实现姿态控制算法效果 概述 四足机器人运动过程中 xff0c 身体部分的姿态会不断地发生变化 假如机器人的足端一直保持与地面接触且相对位置不发生变化 xff0c
VSCode+python+opencv搭建过程
VSCode 43 python 43 opencv搭建过程 python安装VSCode安装安装opencv python安装 首先打开python的官网 www python org xff0c 进入python官网下载页面 xff0c
智能家居之主机---计划筹备
智能家居之主机 计划筹备 前言绪言前期构思 硬件平台结构平台 前言 绪言 感觉有一年多没发过文章了 xff0c 这一年多太忙了 xff0c 来到新的公司后要学的太多了 xff0c 代码风格 xff0c 架构 xff0c 操作系统 xff0c
智能家居之主机--环境搭建
智能家居之主机 环境搭建 硬件环境软件环境结构 硬件环境 上节说到硬件平台的搭建 xff0c 之前是在altium designer上面画好的 xff0c 现在要支持国产 xff0c 没办法只能在立创EDA上面重新画了 xff0c 有的人说
智能家居之主机--驱动层搭建
智能家居之主机 驱动层搭建 bsp 底层驱动bsp gpiobsp adcbsp uartbsp timer 伪调度 bsp 底层驱动 bsp gpio 利用一个config h的配置文件 xff0c 把所有要使用的gpio的属性配置好 x
STM32串口自定义数据接收协议
文章目录 写在前面0 需求1 问题产生1 1 模块 43 上位机实验1 2 电路板串口数据接收实验1 3 问题来了 xff01 2 开始分析2 1 串口数据格式2 2 测一波波形 3 代码分析4 新的问题 xff1a 串口数据累加总结 写在
科普:电池的保护电路
科普 xff1a 电池的保护电路 http www cnbeta com articles 204504 htm
汇编语言基础知识-寄存器
汇编语言基础知识 寄存器 寄存器是距离CPU中最近的存储单元 xff0c 对于现代CPU其获取数据的顺序往往是 CPU 61 61 gt 寄存器 61 61 gt 一级缓存 61 61 gt 二级缓存 61 61 gt 三级缓存 61 61
ERROR:未定义标识符“cout“、“endl“
ERROR情况 xff1a 未定义标识符 span class token string 34 cout 34 span 未定义标识符 span class token string 34 endl 34 span 问题原因 xff1a c
VSCode格式化快捷键
Shift 43 Ctrl 43 F
Linux内核源代码分析一(Linux0.12)
Linux内核源代码分析一 xff08 Linux0 12 xff09 Linux 内核主要由 5 个模块构成 xff0c 它们分别是 xff1a 进程调度模块 内存管理模块 文件系统模块 进程间通信模块和网络接口模块 1 引导启动程序 x
Qt类继承关系以及所属模块关系一览表
Qt类关系一览表 高清版下载 xff1a Qt类继承关系以及所属模块关系一览表 更多内容请关注个人博客 xff1a https blog csdn net qq 43148810
cartographer主从机rviz订阅地图出错
参考 xff1a https answers ros org question 261071 rviz client md5sum error ERROR 1563347805 272316618 Client rviz wants top
Gooseeker软件使用教程
因为课程需要使用到Gooseeker软件 xff0c 写个使用教程防止以后忘记 安装好gooseeker软件 xff0c 下图为安装好的界面 xff1a 点击右上方的 MS谋数台 xff0c 弹出如下界面 xff1a 在左上方的网址栏输入想
热门标签
gksudo
textnode
phing
formsets
paginator
perlmodule
inputbox
ioscharts
directions
chefsolo
chefrecipe
gnusort
djangocsrf
weighted
textkit
senchacmd