java根据关键字搜索_java 抓取百度根据关键词搜索域名

2023-11-18

packagebaidusearch;importcom.sun.glass.ui.SystemClipboard;import java.util.*;importjava.util.HashMap;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;import java.net.*;importjava.util.ArrayList;importjava.util.List;importjava.util.regex.Matcher;importjava.util.regex.Pattern;/*** 首先客户端口先获取大量的百度的关键词然后比对关键词信息

*@authortimeless <834916321@qq.com>*/

public classgetLink {/*** 获取 title 标签遍历的时候直接使用就好了

* 如果带着 www 不能访问就执行不带者www的

*@authortimeless<834916321@qq.com>

*@paramdomainhttp://www.域名

*@returnString title 没获取到则返回空*/

public static ListgetLinkArr(String url) {try{

String charset= "UTF8";

String htmlsource=getHtmlSource(url, charset);//现在有个问题是百度的带参数的练级不可以

List baiduLinkList =getBaiduLink(htmlsource);//这个地方可以获取重定向之后的

returnbaiduLinkList;

}catch(IllegalArgumentException ex) {

System.out.println("不合法的参数：" +ex.toString());return new ArrayList();

}

}/*** 根据网址返回网页的源码 getHtmlSource

*@paramhtmlUrl 网站url

*@paramcharset 网站的编码已经获取的网站编码防止出现乱码

*@return网站的源代码这样效率有点底下个版本要改为之获取前边的几行就好F*/

public staticString getHtmlSource(String htmlUrl, String charset) {

URL url;

StringBuffer sb= newStringBuffer();try{

url= newURL(htmlUrl);

URLConnection myurlcon=url.openConnection();

myurlcon.setConnectTimeout(5000);

myurlcon.setReadTimeout(5000);

BufferedReader in= null;if (!charset.equals("")) {

in= new BufferedReader(new InputStreamReader(myurlcon.getInputStream(), charset));//读取网页全部内容

} else{

in= new BufferedReader(new InputStreamReader(myurlcon.getInputStream()));//读取网页全部内容

}//现在有个问题编码怎么动态获取编码

String temp;while ((temp = in.readLine()) != null) {

sb.append(temp);//System.out.println(temp);

}

in.close();

}catch(ConnectException ex) {

System.out.println("链接异常：" +ex.toString());

}catch(UnknownHostException e) {

System.out.println("未知主机错误:" +e.toString());

}catch(SocketTimeoutException ex) {

System.out.println("读取超时:" +ex.toString());

}catch(MalformedURLException ex) {

System.out.println("你输入的URL格式有问题！请仔细输入:" +ex.toString());

}catch(IOException e) {

System.out.println("io 问题:" +e.toString());

}catch(IllegalArgumentException ex) {

System.out.println("不合法的参数：" +ex.toString());

}returnsb.toString();

}

/*** 获取百度的链接*/

public static ListgetBaiduLink(String htmlSource) {

List list = new ArrayList();try{//懒惰模式匹配现在还是有问题的//String mat = "[\\.|>](([0-9a-z-]+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|

String mat = "[\\.|>](([0-9a-zA-Z]([0-9a-z-])+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|

Pattern pattern=Pattern.compile(mat);

Matcher ma=pattern.matcher(htmlSource);

String link= "";while(ma.find()) {

link= ma.group(1).toString();//这个应该改成数组或者link的形式然后判断是不是已经包含了

if (!link.equals("baidu.com") && !link.equals("bdstatic.com") && !link.equals("baiducontent.com") && !link.equals("taobao.com") && !link.equals("nuomi.com") && !link.equals("alibaba.com")&& !link.equals("qq.com")) {if (!list.contains(link)) {

list.add(link);

System.out.println(ma.group(0));

}

}catch(Exception ex) {

System.out.println("执正则表达式获取域名出错" +ex.toString());

}returnlist;

}/*** 获取重定向之后的链接*/

private static String getRedirectUrl(String path) throwsException {

HttpURLConnection conn= (HttpURLConnection) newURL(path).openConnection();

conn.setInstanceFollowRedirects(false);

conn.setConnectTimeout(5000);return conn.getHeaderField("Location");

}public static voidmain(String[] args) {//百度文件搜索一般的话最多就 76页 pn 到 750

List list = new ArrayList();for (int i = 1; i <= 76; i++) {//第一页不显示pn 选项第二页开始pn=1;

String key = "企业邮箱登录入口";

int pn = i * 10 - 10;

String baiduUrl= "http://www.baidu.com/s?wd=%s&pn=%d&ie=utf-8";

baiduUrl=String.format(baiduUrl, key, pn);

System.out.println(baiduUrl);

List perpageList =getLinkArr(baiduUrl);for (Iterator iterator =perpageList.iterator(); iterator.hasNext();) {

String next=iterator.next();if (!list.contains(next)) {//排重

list.add(next);

System.out.println(next);

}

System.out.println(list.size());

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java根据关键字搜索

java根据关键字搜索_java 抓取百度根据关键词搜索域名的相关文章

Selenium定位页面元素的方法

一 Selenium定位页面元素的方法 selenium提供如下强大的定位元素的方法 id id name name dom javascriptExpression xpath xpathExpression link textPatte
java 基础重学(五)-底层-JVM

1 JVM JVM内存结构 class 文件格式运行时数据区堆和栈的区别 java中对象一定在堆上分配吗 java 内存模型计算机内存模型缓存一致性 MESI协议原子性可见性顺序性 happens before 内存屏蔽 sy
刷题day65：分割等和子集

题意描述给你一个只包含正整数的非空数组 nums 请你判断是否可以将这个数组分割成两个子集使得两个子集的元素和相等思路使用01背包背包的体积为sum 2 背包要放入的商品集合里的元素重量为元素的数值价值也为元素的数
解决qemu虚拟机图形界面卡死问题

1 基础环境 Virtio gpu双heads 4 9 0内核 xserver1 9 3 modesettings0 5 0驱动 2 问题描述终端中打开大量文字内容不停上下滑动或cat大量内容的文件操作过程中用户界面卡死如下 3
吴恩达深度学习笔记——改善深层神经网络：超参数调整，正则化，最优化（Hyperparameter Tuning）

深度学习笔记导航前言传送门改善深层神经网络超参数调整正则化最优化 Improving Deep Neural Networks Hyperparameter Tuning Regularization and Optimizat
安装或更新 Android Studio

在开始用 Jetpack Compose 来编写软件之前我们需要 1 一台可以联网的电脑 2 安装或更新到最新版的 Android Studio 3 选择创建 Empty Compose Activity 4 保持版本更新尝试使用最新
Retrofit动态代理+注解+反射简析

1 定义注解 Get注解用来定义网络请求类型 Target ElementType METHOD Retention RetentionPolicy RUNTIME public interface Get String value Qu
sort()函数的用法说明

sort 排序是一种简单的快速排序用于对数组的排序时间复杂度为n log2 n sort 函数必须是在 cpp 的文件中才能运行头文件为 include
jmeter——BeanShell 预处理程序

jmeter BeanShell 预处理程序一 BeanShell 预处理程序描述和作用二 BeanShell 预处理程序的使用三 BeanShell 预处理程序的注意事项四 BeanShell 预处理程序的拓展一 BeanShe
什么是ADT

Abstract Data Type 抽象数据类型是指数据结构作为一个软件组件的实现 ADT的接口用一种类型和该类型上的一组操作来定义每个操作由它的输入和输出定义 ADT并不会指定数据类型如何实现这些实现细节对于ADT的用户来说是隐藏
php 验证密码大、小写英文字母、数字、特殊字符4选3；且长度大于等于8位

param password string 明文密码 return array 检测密码合法性大小写英文字母数字特殊字符 4选3 且长度大于等于8位 function check password legal KaTeX parse
pandas把索引变成列

pandas把索引变成列只需要使用reset index 这样index就会变成一列变量出现在元数据表中比如原来的数据表是上面这样使用reset index 就变成这样具体reset index 还有一些更细的应用后续随着学习再继
判断电脑是否插入移动磁盘U盘等并显示结果

VC 检测判断电脑是否插入移动磁盘U盘等并显示结果判断手机 U盘存储卡等设备是否插入到电脑接口中若检测到某设备则将设备盘符显示于窗口中项目源代码部分代码程序运行截图
数据库运维之数据库备份的多种方法

数据库备份数据库为school 素材如下 1 创建student和score表 CREATE TABLE student id INT 10 NOT NULL UNIQUE PRIMARY KEY name VARCHAR 20 NOT
静态路由及默认路由——基本配置

拓扑图原理简述 1 静态路由是指用户或网络管理员手工配置的路由信息当网络拓扑结构或链路状态发生改变时需要网络管理员手工配置静态路由信息相比较动态路由协议静态路由无需频繁的交换各自的路由表配置简单比较适合小型简单的网络环境
el-switch在按钮内加文字内嵌文字

产品需求在按钮内内嵌对应操作文字原生展示效果升级展示效果解决方案按钮
%d, %ld, %lld 区别， %s,%c区别

相信下面几个表达方式就能说明问题吧 d int ld long lld long long 在32位编译器上 int long 32bit long long 64bit c是单个字符也就是用的 s是字符串用的
深入理解SSL VPN

名词解析 SSL Secure Socket Layer 安全套接字层 TLS Transport Layer Security 传输层安全协议 TLS 1 0是IETF Internet Engineering Task Force In
docker-6-docker架构和MySQL容器化的优劣

1 docker架构 1 开发环境 gt 测试环境 gt 生产环境 2 环境和代码一起放在容器中解决软件跨环境迁移问题 3 Docker是一个开源的应用容器引擎 4 Docker于2013年基于Go语言实现 5 Docker从17 03版

随机推荐

vbox 安装linux64,CentOS 5.8 x64安装VirtualBox-5.0虚拟机

CentOS 5 8 x64安装VirtualBox 5 0虚拟机根据自己的环境下载相应的安装包 1 下载并安装for el5 virtualbox虚拟机安装包安装过程如下缺依赖包 root lvmtest rpm ivh Virtu
html中报错：xxx is not a function

我今天遇到了一个奇怪的问题在javascript中写好了一个function 而且之前是可以调用的例如在onclick事件中调用可是新增了一部分代码也用了onclick调用但是报错了不能执行一直说是xxx is not a
JAVA动态生成excel模板；列自定义下拉框赋值

哈喽 2023大家开工大吉啊财源滚滚业务需求需要生成excel模板且对部分列设置下拉框进行动态赋值效果如下拿上图举例针对省这一列不是填写而是选择数据也就是说我们生成excel文件的时候需要把数据填充到下拉框的列中大体
基本模块的总结

基本模块的总结请求模块 urllib库内置库 urllib request request urlopen 网址或者请求对象向网址发起请求 request Requqest url 网址 headers 请求头 data 请求参数创
利用java完成图像文字识别和翻译，实现拍照翻译的功能

需求利用java完成图像文字识别和翻译实现拍照翻译的功能可拆分为以下两个小的功能逐一完成 1 实现图像文字识别 2 将识别出来的文字进行翻译 1 实现图像文字识别利用Tess4J进行图像文字识别 1 1 为方便集成tess4j的ja
Discuz移动接口原理简介

2019独角兽企业重金招聘Python工程师标准 gt gt gt Discuz论坛内置提供针对移动端开发的json接口下面根据源码进行一些分析入口 api mobile index php 功能比较简单指向source plugin
Open Source Game Clones

Open Source Game Clones This site tries to gather open source reimplementations of great old games in one place If you t
微信开发者工具重定向(请求接口307)问题

问题描述在项目中勾选不校验http请求发起http请求会出现http请求自动转成了https请求如图所示请求失败这是因为微信开发者工具重定向导致的解决方法将微信开发者工具账号的配置清空删除C盘微信开发者工具User Data
解决ElementUI table表格的边框隐藏

解决ElementUI table表格的边框隐藏发现问题解决写在最后发现问题我方产品将于五秒后到达战场刚在对照原型做项目的时候突然发现了这样一个表格产品说他的这个数据表表格不要周边的边框但是中间要边框分隔嗯这是什么需求
python语言核心技术_python核心技术

基本语法 Python的设计目标之一是让代码具备高度的可阅读性它设计时尽量使用其它语言经常使用的标点符号和英文单字让代码看起来整洁美观它不像其他的静态语言如C Pascal那样需要重复书写声明语句也不像它们的语法那样经常有特殊情况和
Socket 与 Webservice 的区别

Socket 与 Webservice 的区别 socket是一种协议采用tcp或udp协议通信 Tcp udp属于网络层上边各层的应用都需要我们自己实现例如端口的定义数据包的定义数据包的加密解密等 webservice是一种服务
JAVA超大量数据入库

快速插入1000W万条数据背景步骤1 数据库连接步骤2 插入数据方法步骤3 调用他就完事了背景产品需求生成一串不重复的号码0 19999999且不能有超过3位以上的豹子号连号当消耗一半后需要多少秒才能插入一条数据首先的问题
microsoft store 微软应用商店打不开？所有教程都尝试了一遍，居然是因为这个

所有教程都尝试了一遍居然是因为这个此方法适用于 1 平时爱用梯子 2 下面这个浏览器已经不能上网了 3 网上其他教程均不管用的情况弄了好久没想到还能弄好网上的教程我都试了一遍真的哭笑不得原理微软的应用商店联网靠的就是inte
以一个最简单的例子把OO的JavaScript说明白

OO的JavaScript并不高深麻烦就麻烦在google出来的国人介绍文章经常罗罗嗦嗦而且之间的说法还各有不同摆在一起就让人看了头大这里重拾简单主义以一个最简单的例子把OO Javascript说明白 1 一个颇为精简的例子只
页面点击锚点后不改变URL的方法

前端简单地锚点实现方法无非就是在把 a 标签的 href 写成想要跳到的元素的id 比如点击 a href box a 页面就会自动滚动到 div div 元素的位置这样会导致url会改变浏览器默认的行为会将 id 放在 url 后面
vue-cli3中解决在ie中报语法错误问题导致白屏

1 一般报语法错误时因为部分浏览器不支持ES6 so 我们就应该下载 npm install babel polyfil 判断此插件是否成功查看项目中是否有babel config js这个文件 2 在vue config js里配置引入
【PTA 题目详解】例题5-7 计算2个复数之和与之积

题目分别输入2个复数的实部与虚部用函数实现计算2个复数之和与之积若2个复数分别为 c1 x1 y1 i c2 x2 y2 i 则 c1 c2 x1 x2 y1 y2 i c1 c2 x1 x2 y1 y2 x1 y2 x2 y1 i
Java 内部类

静态内部类 demo1 public class StaticInnerClassTest public static void main String args StaticInner Inner inner new StaticInne
python求一个数的阶乘_python如何计算数的阶乘

python计算数的阶乘的三种方法 1 使用 for i in range 循环语句求阶乘 2 使用 reduce 函数求阶乘 3 通过递归求阶乘方法一普通的for循环语句 a 1 n 5 for i in range 1 n 1 a
java根据关键字搜索_java 抓取百度根据关键词搜索域名

packagebaidusearch importcom sun glass ui SystemClipboard import java util importjava util HashMap importjava io Buffere

java根据关键字搜索_java 抓取百度根据关键词搜索域名

java根据关键字搜索_java 抓取百度根据关键词搜索域名 的相关文章

随机推荐

热门标签

java根据关键字搜索_java 抓取百度根据关键词搜索域名的相关文章