java根据关键字搜索_java 抓取百度根据关键词搜索域名

2023-11-18

packagebaidusearch;importcom.sun.glass.ui.SystemClipboard;import java.util.*;importjava.util.HashMap;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;import java.net.*;importjava.util.ArrayList;importjava.util.List;importjava.util.regex.Matcher;importjava.util.regex.Pattern;/*** 首先客户端口先获取大量的百度的关键词 然后比对关键词信息

*

*@authortimeless <834916321@qq.com>*/

public classgetLink {/*** 获取 title 标签 遍历的时候直接使用就好了

*

* 如果 带着 www 不能访问 就执行 不带者www的

*

*@authortimeless<834916321@qq.com>

*@paramdomainhttp://www.域名

*@returnString title 没获取到则返回空*/

public static ListgetLinkArr(String url) {try{

String charset= "UTF8";

String htmlsource=getHtmlSource(url, charset);//现在有个问题是 百度的 带参数的练级不可以

List baiduLinkList =getBaiduLink(htmlsource);//这个地方可以获取重定向之后的

returnbaiduLinkList;

}catch(IllegalArgumentException ex) {

System.out.println("不合法的参数:" +ex.toString());return new ArrayList();

}

}/*** 根据网址返回网页的源码 getHtmlSource

*

*@paramhtmlUrl 网站url

*@paramcharset 网站的编码已经获取的网站编码 防止出现乱码

*@return网站的源代码 这样效率有点底 下个版本要改为 之获取前边的几行就好F*/

public staticString getHtmlSource(String htmlUrl, String charset) {

URL url;

StringBuffer sb= newStringBuffer();try{

url= newURL(htmlUrl);

URLConnection myurlcon=url.openConnection();

myurlcon.setConnectTimeout(5000);

myurlcon.setReadTimeout(5000);

BufferedReader in= null;if (!charset.equals("")) {

in= new BufferedReader(new InputStreamReader(myurlcon.getInputStream(), charset));//读取网页全部内容

} else{

in= new BufferedReader(new InputStreamReader(myurlcon.getInputStream()));//读取网页全部内容

}//现在有个问题 编码 怎么动态获取编码

String temp;while ((temp = in.readLine()) != null) {

sb.append(temp);//System.out.println(temp);

}

in.close();

}catch(ConnectException ex) {

System.out.println("链接异常:" +ex.toString());

}catch(UnknownHostException e) {

System.out.println("未知主机错误:" +e.toString());

}catch(SocketTimeoutException ex) {

System.out.println("读取超时:" +ex.toString());

}catch(MalformedURLException ex) {

System.out.println("你输入的URL格式有问题!请仔细输入:" +ex.toString());

}catch(IOException e) {

System.out.println("io 问题:" +e.toString());

}catch(IllegalArgumentException ex) {

System.out.println("不合法的参数:" +ex.toString());

}returnsb.toString();

}

/*** 获取百度的链接*/

public static ListgetBaiduLink(String htmlSource) {

List list = new ArrayList();try{//懒惰模式匹配 现在还是有问题的//String mat = "[\\.|>](([0-9a-z-]+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|

String mat = "[\\.|>](([0-9a-zA-Z]([0-9a-z-])+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|

Pattern pattern=Pattern.compile(mat);

Matcher ma=pattern.matcher(htmlSource);

String link= "";while(ma.find()) {

link= ma.group(1).toString();//这个应该改成数组或者link的形式 然后判断是不是已经包含了

if (!link.equals("baidu.com") && !link.equals("bdstatic.com") && !link.equals("baiducontent.com") && !link.equals("taobao.com") && !link.equals("nuomi.com") && !link.equals("alibaba.com")&& !link.equals("qq.com")) {if (!list.contains(link)) {

list.add(link);

System.out.println(ma.group(0));

}

}

}

}catch(Exception ex) {

System.out.println("执正则表达式获取域名出错" +ex.toString());

}returnlist;

}/*** 获取重定向之后的链接*/

private static String getRedirectUrl(String path) throwsException {

HttpURLConnection conn= (HttpURLConnection) newURL(path).openConnection();

conn.setInstanceFollowRedirects(false);

conn.setConnectTimeout(5000);return conn.getHeaderField("Location");

}public static voidmain(String[] args) {//百度 文件搜索 一般的话最多就 76页 pn 到 750

List list = new ArrayList();for (int i = 1; i <= 76; i++) {//第一页不显示pn 选项第二页开始pn=1;

String key = "企业邮箱登录入口";

int pn = i * 10 - 10;

String baiduUrl= "http://www.baidu.com/s?wd=%s&pn=%d&ie=utf-8";

baiduUrl=String.format(baiduUrl, key, pn);

System.out.println(baiduUrl);

List perpageList =getLinkArr(baiduUrl);for (Iterator iterator =perpageList.iterator(); iterator.hasNext();) {

String next=iterator.next();if (!list.contains(next)) {//排重

list.add(next);

System.out.println(next);

}

}

System.out.println(list.size());

}

}

}

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

java根据关键字搜索_java 抓取百度根据关键词搜索域名 的相关文章

  • Selenium定位页面元素的方法

    一 Selenium定位页面元素的方法 selenium提供如下强大的定位元素的方法 id id name name dom javascriptExpression xpath xpathExpression link textPatte
  • java 基础重学(五)-底层-JVM

    1 JVM JVM内存结构 class 文件格式 运行时数据区 堆和栈的区别 java中对象一定在堆上分配吗 java 内存模型 计算机内存模型 缓存一致性 MESI协议 原子性 可见性 顺序性 happens before 内存屏蔽 sy
  • 刷题day65:分割等和子集

    题意描述 给你一个 只包含正整数 的 非空 数组 nums 请你判断是否可以将这个数组分割成两个子集 使得两个子集的元素和相等 思路 使用01背包 背包的体积为sum 2 背包要放入的商品 集合里的元素 重量为 元素的数值 价值也为元素的数
  • 解决qemu虚拟机图形界面卡死问题

    1 基础环境 Virtio gpu双heads 4 9 0内核 xserver1 9 3 modesettings0 5 0驱动 2 问题描述 终端中打开大量文字内容 不停上下滑动 或cat大量内容的文件 操作过程中用户界面卡死 如下 3
  • 吴恩达深度学习笔记——改善深层神经网络:超参数调整,正则化,最优化(Hyperparameter Tuning)

    深度学习笔记导航 前言 传送门 改善深层神经网络 超参数调整 正则化 最优化 Improving Deep Neural Networks Hyperparameter Tuning Regularization and Optimizat
  • 安装或更新 Android Studio

    在开始用 Jetpack Compose 来编写软件之前 我们需要 1 一台可以联网的电脑 2 安装或更新到 最新版的 Android Studio 3 选择创建 Empty Compose Activity 4 保持版本更新 尝试使用最新
  • Retrofit动态代理+注解+反射简析

    1 定义注解 Get注解 用来定义网络请求类型 Target ElementType METHOD Retention RetentionPolicy RUNTIME public interface Get String value Qu
  • sort()函数的用法说明

    sort 排序是一种简单的快速排序 用于对数组的排序 时间复杂度为n log2 n sort 函数必须是在 cpp 的文件中才能运行 头文件为 include
  • jmeter——BeanShell 预处理程序

    jmeter BeanShell 预处理程序 一 BeanShell 预处理程序描述和作用 二 BeanShell 预处理程序的使用 三 BeanShell 预处理程序的注意事项 四 BeanShell 预处理程序的拓展 一 BeanShe
  • 什么是ADT

    Abstract Data Type 抽象数据类型 是指数据结构作为一个软件组件的实现 ADT的接口用一种类型和该类型上的一组操作来定义 每个操作由它的输入和输出定义 ADT并不会指定数据类型如何实现 这些实现细节对于ADT的用户来说是隐藏
  • php 验证密码大、小写英文字母、数字、特殊字符4选3;且长度大于等于8位

    param password string 明文密码 return array 检测密码合法性 大 小写英文字母 数字 特殊字符 4选3 且长度大于等于8位 function check password legal KaTeX parse
  • pandas把索引变成列

    pandas把索引变成列 只需要使用reset index 这样index就会变成一列变量出现在元数据表中 比如原来的数据表是上面这样 使用reset index 就变成这样 具体reset index 还有一些更细的应用 后续随着学习再继
  • 判断电脑是否插入移动磁盘U盘等并显示结果

    VC 检测判断电脑是否插入移动磁盘U盘等并显示结果 判断手机 U盘 存储卡等设备是否插入到电脑接口中 若检测到某设备 则将设备盘符显示于窗口中 项目源代码 部分代码 程序运行截图
  • 数据库运维之数据库备份的多种方法

    数据库备份 数据库为school 素材如下 1 创建student和score表 CREATE TABLE student id INT 10 NOT NULL UNIQUE PRIMARY KEY name VARCHAR 20 NOT
  • 静态路由及默认路由——基本配置

    拓扑图 原理简述 1 静态路由 是指用户或网络管理员手工配置的路由信息 当网络拓扑结构或链路状态发生改变时 需要网络管理员手工配置静态路由信息 相比较动态路由协议 静态路由无需频繁的交换各自的路由表 配置简单 比较适合小型 简单的网络环境
  • el-switch在按钮内加文字内嵌文字

    产品需求 在按钮内内嵌对应操作文字 原生展示效果 升级展示效果 解决方案 按钮
  • %d, %ld, %lld 区别, %s,%c区别

    相信下面几个表达方式 就能说明问题吧 d int ld long lld long long 在32位编译器上 int long 32bit long long 64bit c是单个字符 也就是用 的 s是字符串 用 的
  • 深入理解SSL VPN

    名词解析 SSL Secure Socket Layer 安全套接字层 TLS Transport Layer Security 传输层安全协议 TLS 1 0是IETF Internet Engineering Task Force In
  • docker-6-docker架构和MySQL容器化的优劣

    1 docker架构 1 开发环境 gt 测试环境 gt 生产环境 2 环境和代码一起放在容器中 解决软件跨环境迁移问题 3 Docker是一个开源的应用容器引擎 4 Docker于2013年基于Go语言实现 5 Docker从17 03版

随机推荐

  • vbox 安装linux64,CentOS 5.8 x64安装VirtualBox-5.0虚拟机

    CentOS 5 8 x64安装VirtualBox 5 0虚拟机 根据自己的环境下载相应的安装包 1 下载并安装for el5 virtualbox虚拟机安装包 安装过程如下 缺依赖包 root lvmtest rpm ivh Virtu
  • html中报错:xxx is not a function

    我今天遇到了一个奇怪的问题 在javascript中写好了一个function 而且之前是可以调用的 例如 在onclick事件中调用 可是新增了一部分代码 也用了onclick调用 但是报错了 不能执行 一直说是xxx is not a
  • JAVA动态生成excel模板;列自定义下拉框赋值

    哈喽 2023大家开工大吉啊 财源滚滚 业务需求 需要生成excel模板 且对部分列设置下拉框 进行动态赋值 效果如下 拿上图举例 针对省这一列 不是填写 而是选择数据 也就是说我们生成excel文件的时候需要把数据填充到下拉框的列中 大体
  • 基本模块的总结

    基本模块的总结 请求模块 urllib库 内置库 urllib request request urlopen 网址或者请求对象 向网址发起请求 request Requqest url 网址 headers 请求头 data 请求参数 创
  • 利用java完成图像文字识别和翻译,实现拍照翻译的功能

    需求 利用java完成图像文字识别和翻译 实现拍照翻译的功能 可拆分为以下两个小的功能逐一完成 1 实现图像文字识别 2 将识别出来的文字进行翻译 1 实现图像文字识别 利用Tess4J进行图像文字识别 1 1 为方便集成tess4j的ja
  • Discuz移动接口原理简介

    2019独角兽企业重金招聘Python工程师标准 gt gt gt Discuz论坛内置提供针对移动端开发的json接口 下面根据源码进行一些分析 入口 api mobile index php 功能比较简单 指向source plugin
  • Open Source Game Clones

    Open Source Game Clones This site tries to gather open source reimplementations of great old games in one place If you t
  • 微信开发者工具重定向(请求接口307)问题

    问题描述 在项目中勾选不校验http请求 发起http请求 会出现http请求自动转成了https请求 如图所示请求失败 这是因为微信开发者工具重定向导致的 解决方法 将微信开发者工具账号的配置清空 删除C盘微信开发者工具User Data
  • 解决ElementUI table表格的边框隐藏

    解决ElementUI table表格的边框隐藏 发现问题 解决 写在最后 发现问题 我方产品将于五秒后到达战场 刚在对照原型做项目的时候突然发现了这样一个表格 产品说他的这个数据表表格不要周边的边框 但是中间要边框分隔 嗯 这是什么需求
  • python语言核心技术_python核心技术

    基本语法 Python的设计目标之一是让代码具备高度的可阅读性 它设计时尽量使用其它语言经常使用的标点符号和英文单字 让代码看起来整洁美观 它不像其他的静态语言如C Pascal那样需要重复书写声明语句 也不像它们的语法那样经常有特殊情况和
  • Socket 与 Webservice 的区别

    Socket 与 Webservice 的区别 socket是一种协议 采用tcp或udp协议通信 Tcp udp属于网络层 上边各层的应用都需要我们自己实现 例如端口的定义 数据包的定义 数据包的加密解密等 webservice是一种服务
  • JAVA超大量数据入库

    快速插入1000W万条数据 背景 步骤1 数据库连接 步骤2 插入数据方法 步骤3 调用他就完事了 背景 产品需求 生成一串不重复的号码0 19999999且不能有超过3位以上的豹子号连号 当消耗一半后需要多少秒才能插入一条数据 首先的问题
  • microsoft store 微软应用商店打不开?所有教程都尝试了一遍,居然是因为这个

    所有教程都尝试了一遍 居然是因为这个 此方法适用于 1 平时爱用梯子 2 下面这个浏览器已经不能上网了 3 网上其他教程均不管用的情况 弄了好久 没想到还能弄好 网上的教程我都试了一遍 真的哭笑不得 原理 微软的应用商店联网靠的就是inte
  • 以一个最简单的例子把OO的JavaScript说明白

    OO的JavaScript并不高深 麻烦就麻烦在google出来的国人介绍文章经常罗罗嗦嗦 而且之间的说法还各有不同 摆在一起就让人看了头大 这里重拾简单主义 以一个最简单的例子把OO Javascript说明白 1 一个颇为精简的例子 只
  • 页面点击锚点后不改变URL的方法

    前端简单地锚点实现方法无非就是在把 a 标签的 href 写成想要跳到的元素的id 比如点击 a href box a 页面就会自动滚动到 div div 元素的位置 这样会导致url会改变 浏览器默认的行为会将 id 放在 url 后面
  • vue-cli3中解决在ie中报语法错误问题导致白屏

    1 一般报语法错误时因为部分浏览器不支持ES6 so 我们就应该下载 npm install babel polyfil 判断此插件是否成功 查看项目中是否有babel config js这个文件 2 在vue config js里配置引入
  • 【PTA 题目详解】 例题5-7 计算2个复数之和与之积

    题目 分别输入2个复数的实部与虚部 用函数实现计算2个复数之和与之积 若2个复数分别为 c1 x1 y1 i c2 x2 y2 i 则 c1 c2 x1 x2 y1 y2 i c1 c2 x1 x2 y1 y2 x1 y2 x2 y1 i
  • Java 内部类

    静态内部类 demo1 public class StaticInnerClassTest public static void main String args StaticInner Inner inner new StaticInne
  • python求一个数的阶乘_python如何计算数的阶乘

    python计算数的阶乘的三种方法 1 使用 for i in range 循环语句求阶乘 2 使用 reduce 函数求阶乘 3 通过递归求阶乘 方法一 普通的for循环语句 a 1 n 5 for i in range 1 n 1 a
  • java根据关键字搜索_java 抓取百度根据关键词搜索域名

    packagebaidusearch importcom sun glass ui SystemClipboard import java util importjava util HashMap importjava io Buffere