Csdn爬虫自动评论

2023-11-13

前言:因为发现自己的csdn博客被机器人自动评论,这些博客很多都是对别人进行评论,然后别人就有可能回访或者点赞关注等等,基本上总积分非常高,为了覆盖掉这些机器评论,本篇主要是实现java爬虫对自己的博客所有文章进行自动评论。

一、准备分析工作

工具:webmagic

材料:由文件加载的自动随机评论语


1、创建了一个自动随机生成评论语,以及可以自动加载评论语的类CommentLoad。

/**
 * 评论语加载
 */
public class CommentLoad {

	private AtomicBoolean inited = new AtomicBoolean(false);

	private List<String> urls = new ArrayList<>();

	// 默认刷新时间20秒
	private static final long DEFAULT_REFRESH_TIME = 20000l;
	private static final String DEFAULT_PATH = "comment.txt";

	// 起始时间
	private long beforeTime;

	// 结束时间
	private long endTime;

	// 刷新时间
	private long refreshTime = DEFAULT_REFRESH_TIME;

	public CommentLoad() {
	}

	public CommentLoad(long refreshTime) {
		super();
		this.refreshTime = refreshTime;
	}

	public static void main(String[] args) throws InterruptedException, IOException {

		// 功能1):从文件加载评论语列表
		String path = DEFAULT_PATH;
		CommentLoad commentLoad = new CommentLoad();
		int i = 0;
		while (true) {
			Thread.sleep(1000l);
			List<String> list = commentLoad.loadComments(path);
			System.out.println("计数时间:" + ++i);
			System.out.println(list.size());
			System.out.println(list);
		}

		// 功能2): 创建多个评论语到文件中
		// path =
		// CommentLoad.class.getClassLoader().getResource(path).getPath();
		//
		// System.out.println(path);
		//
		// // 写评论到评论文件中
		// PrintWriter printWriter = new PrintWriter(new FileWriter(path,
		// false));
		// String[] str = new String[] { "文章", "很好", "思路清晰,", "大佬", "66", "加油",
		// "学习了", "你真棒!" };
		// for (int i = 0; i < 50; i++) {
		// // System.out.println(flushArrToString(str));
		// printWriter.println(flushArrToString(str));
		// printWriter.flush();
		// }
		// printWriter.close();
	}

	/**
	 * 随机洗牌
	 */
	public static <T> String flushArrToString(T[] arr) {
		int length = arr.length;
		int index = length - 1;
		for (int i = 0; i < length && index > 0; i++) {
			int num = createRandom(index);
			T temp = arr[num];
			arr[num] = arr[index];
			arr[index] = temp;
			index--;
		}
		StringBuilder builder = new StringBuilder();
		for (T t : arr) {
			builder.append(t.toString());
		}
		return builder.toString();
	}

	public static int createRandom(int end) {
		return (new Random().nextInt(end));
	}

	/**
	 * 读取评论文本
	 */
	public List<String> loadComments(String path) {
		path = path == null ? DEFAULT_PATH : path;
		if (!inited.get() || System.currentTimeMillis() > this.endTime) {
			readComments(path);
		}
		return urls;
	}

	/**
	 * 读取评论文本
	 */
	private synchronized void readComments(String path) {
		if (!inited.get() || System.currentTimeMillis() > this.endTime) {
			try {
				urls = doReadComments("comment.txt");
			} catch (IOException e) {
				e.printStackTrace();
			}
			this.beforeTime = System.currentTimeMillis();
			this.endTime = beforeTime + this.refreshTime;
			inited.set(true);
		}
	}

	/**
	 * 读取评论文本
	 */
	private List<String> doReadComments(String path) throws FileNotFoundException, IOException {
		String res = CommentLoad.class.getClassLoader().getResource(path).getPath();
		List<String> comments = new ArrayList<>();
		BufferedReader reader = null;
		try {
			reader = new BufferedReader(new FileReader(res));
			String line;
			while ((line = reader.readLine()) != null) {
				comments.add(line.trim());
			}
		} finally {
			if (reader != null) {
				IOUtils.closeQuietly(reader);
			}
		}
		return comments;
	}

}

此类的主要功能就是从指定的文件path加载评论语到list列表

 

2、有了评论语,先进行一个评论的测试

经过测试评论文章需要知道文章id,以及登陆态即可进行评论。

	String content = "这个文章非常好啊";  // 评论内容
		String articleId = "109261723"; // 评论文章id
		Request request = new Request("https://blog.csdn.net/phoenix/web/v1/comment/submit");
		
		request.setMethod(HttpConstant.Method.POST);
		Map<String, Object> params = new HashMap<>();
		params.put("commentId", "");
		params.put("content", content);
		params.put("articleId", articleId);
		HttpRequestBody form = HttpRequestBody.form(params , "utf-8");
		request.setRequestBody(form);
		Spider.create(new ComentTest()).addRequest(request).thread(1).run(); // 需要设置登陆cookie

 

3、有了一个评论的测试,那么多个文章的评论,主要就是到哪里采集需要评论的文章。

比如从最近发表博客的列表等方法获取,本次批量评论,采用单个博主的文章列表全部评论的方式,单个博主的文章采集列表从https://blog.csdn.net/用户名/article/list/分页,开始。

/**
	 * 自动评论---单个博主
	 */
	public static void main(String[] args) {

		String user = "shuixiou1"; // csdn用户
		int page = 3; // 此用户的文章分页数目

		String[] alls = createInitUrls(user, page);
		
		Spider.create(new CsdnConmentSpider()).addUrl(alls).thread(1).run();
	}

	/**
	 * 创建初始时的url集合
	 */
	private static String[] createInitUrls(String user, int page) {
		List<String> urls = new ArrayList<>();
		for (int i = 1; i <= page; i++) {
			urls.add(String.format(listUrl, user) + i);
		}
		String[] result = urls.toArray(new String[urls.size()]);
		return result;
	}

二、完整代码

1、代码

package com.pc.demos.csdn;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Random;

import org.jsoup.Jsoup;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.pc.util.CookieUtil;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.model.HttpRequestBody;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.utils.HttpConstant;

/**
 * csdn单个博主自动评论所有文章
 */
public class CsdnConmentSpider implements PageProcessor {
	
	Logger logger = LoggerFactory.getLogger(getClass());

    // 列表url
	private static final String listUrl = "https://blog.csdn.net/%s/article/list/";
    
    // 列表url规则
	private static final String listUrlRegex = "https://blog\\.csdn\\.net/(.+)/article/list/(.*)";
	
    // 详细url规则
	private static final String detailUrlRegex = "https://blog\\.csdn\\.net/(.+)/article/details/(.*)";

    // 评论语加载对象	
	private CommentLoad commentLoad = new CommentLoad();

	@Override
	public void process(Page page) {
		// 列表页请求
		if(page.getRequest().getUrl().matches(listUrlRegex)) {
			List<String> list = page.getHtml().xpath("//div[@class='article-item-box csdn-tracking-statistics']/h4/a").all();
			for (String string : list) {
				String link = Jsoup.parse(string).select("a").attr("href");
				page.addTargetRequest(link);
			}
		// 详细页请求
		} else if(page.getRequest().getUrl().matches(detailUrlRegex)){
			
			System.out.println("详情页面加载:" + page.getRequest().getUrl());
			
			// 文章id
			String articleId = page.getRequest().getUrl().substring(page.getRequest().getUrl().lastIndexOf("/") + 1,
					page.getRequest().getUrl().length());
			
			Request request = new Request("https://blog.csdn.net/phoenix/web/v1/comment/submit");
			
			request.setMethod(HttpConstant.Method.POST);
			Map<String, Object> params = new HashMap<>();
			List<String> comments = commentLoad.loadComments(null); 
			
			params.put("commentId", "");
			params.put("content", comments.get(new Random().nextInt(comments.size())));
			params.put("articleId", articleId);
			HttpRequestBody form = HttpRequestBody.form(params , "utf-8");
			request.setRequestBody(form);
			Map<String, Object> extras = new HashMap<>();
			extras.put("articleId", articleId);
			request.setExtras(extras);
			page.addTargetRequest(request);
		// 评论请求
		} else {
			String res = page.getJson().jsonPath("$..data").toString();
			System.out.println("评论成功:返回id是" + res);
		}
	}

	@Override
	public Site getSite() {
		Site site = Site.me().setCycleRetryTimes(3).setSleepTime(2000);
		site.addHeader(":authority", "blog.csdn.net");
		site.addHeader(":method:", "POST");
		site.addHeader(":path:", "/phoenix/web/v1/comment/submit");
		site.addHeader(":scheme", "https");
		site.addHeader("accept", "application/json, text/javascript, */*; q=0.01");

		site.addHeader("accept-encoding", "gzip, deflate, br");
		site.addHeader("accept-language", "zh-CN,zh;q=0.9");
		site.addHeader("origin", "https://blog.csdn.net");
		site.addHeader("referer", "https://blog.csdn.net");
		
		// 设置登陆后的cookie字符串
		
		String cookieSpec = "################";
		
		CookieUtil.setSiteCookies(site, cookieSpec );
		
		return site;
	}

	/**
	 * 自动评论---单个博主
	 */
	public static void main(String[] args) {

		String user = "shuixiou1"; // csdn用户
		int page = 3; // 此用户的文章分页数目

		String[] alls = createInitUrls(user, page);
		
		Spider.create(new CsdnConmentSpider()).addUrl(alls).thread(1).run();
	}

	/**
	 * 创建初始时的url集合
	 */
	private static String[] createInitUrls(String user, int page) {
		List<String> urls = new ArrayList<>();
		for (int i = 1; i <= page; i++) {
			urls.add(String.format(listUrl, user) + i);
		}
		String[] result = urls.toArray(new String[urls.size()]);
		return result;
	}
}

2、 使用说明

经过一轮测试,没有被频率限制

1) 必须要设置登陆的cookie字符串 (代码中已经替换成######################)

2) 需要拿去使用的注意改写csdn博主名称!!!!

 

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Csdn爬虫自动评论 的相关文章

  • 关于Ubuntu ssh远程连接报错和无法root登录的解决方法

    一 使用远程工具连接Ubuntu提示报错 MobaXterm v22 0 版本直接可以远程连接上 前提是sshd服务是开启的状态 注意 须使用最新版本或较高版本的ssh远程连接工具 进行ssh连接 若使用较低版本的ssh远程连接工具 会报错
  • 安全编码规范-小羊的记录本

    目录 安全编码规范 安全目标 数据校验 SQL注入 OS注入 目录遍历攻击 XML注入 正则注入 日志注入 敏感数据保护 异常暴露敏感信息 线程同步 IO操作 反序列化 平台安全 线程同步 IO操作 反序列化 平台安全 安全编码规范 安全目
  • 网站弹窗公告一天弹窗一次源码简单好看

    介绍 简单好看到爆炸 上传到根目录使用即可 一天只弹一次 使用cookie记录 网盘下载地址 http kekewangLuo net T2ztQxJWt16 图片
  • kullback-leibler distance的计算(matlab)

    KL distance是用来计算两组离散数值的信息量 相对熵 的 一般针对的是离散数据 可以用来做特征筛选 但如果是连续数据 则先要离散化求每个bin内的frequency后再计算KL distance KL distance的解释 1 h

随机推荐

  • linux 文件测试运算符

    文件测试运算符用于检测 Unix 文件的各种属性 属性检测描述如下 b file 检测文件是否是块设备文件 如果是 则返回 true b file 返回 false c file 检测文件是否是字符设备文件 如果是 则返回 true c f
  • 板端电源硬件调试BUG

    项目场景 问题1 MC34063A负压电路调试 MC34063A是一款常用于产生负压的开关电源 但是去年我花PCB板子进行调试 负压产生的电压是0V 问题2 采用MP2359开关电源产生5V电压 问题3 这一步调试成功 但是AMS1117
  • Linux centos8 docker中安装postgresql12.4及远程访问设置

    centos 8 0 docker 安装postgresql 12 4 及远程连接设置 一 docker 安装 postgresql 12 4 1 拉取镜像 docker pull postgres 12 4 2 运行容器 docker r
  • VMware Workstation Pro 17 虚拟机安装Ubuntu18.4.06

    VMware Workstation Pro 17 虚拟机安装Ubuntu18 4 06 1 下载Ubuntu镜像文件 2 安装VMware Workstation Pro 17 3 使用VMware创建虚拟机 4 安装Ubuntu18 4
  • YC 带你快速入门区块链

    1 介 绍 如果你在这里 我们假设你是一个受区块链影响的开发者 黑客 你确信你了解它是如何工作的 现在你很想知道区块链对你和你所掌握的开发者技能的意义 如果你需要更多的底气 我们建议你先从比特币白皮书和以太坊白皮书开始 比特币白皮书学习资料
  • 权限系统控制到按钮级别开源推荐 Spring Boot-Shiro-Vue

    再搞权限系统的时候 权限控制到菜单很容易 但是很多情况要控制到按钮接口级别 这个时候设计就要研究下了 方案好几种 这里推荐一个不错的开源方案 大伙可以参考学习下 Spring Boot Shiro Vue实现 github开源地址及系统演示
  • JavaWeb-云日志

    前不久 我在哔哩哔哩上学了一个教写了云日志web项目 但讲的不全 我自己学习过程中 做个笔记 也分享给大家 源码链接在最后面 目录 1 数据库设计 2 登录模块 3 个人中心模块 4 类别模块 5 日志模块 6 数据报表模块 7 主页模块
  • Android SIM卡识别加载流程

    文章目录 总述 代码路径 UICC框架 SIM卡识别加载流程 日志分析举例 总述 本文基于Android N Android 7 首先要知道SIM卡一般是挂载在CP侧 MODEM侧 的 由MODEM给予真正的上电 识别 通信等 然后通过AP
  • Python selenium Boss直聘数据爬取(仅供学习使用)

    写在前面 因为最近刚好需要分析行业数据 又在查询时 发现了许多博主写了一些东西 但很多都已经失效了 所以写了那么一篇文章 希望能够帮到大家 注 BOSS直聘数据为js加载数据 故使用selenium 一 pip selenium bs4 下
  • Microsemi Libero系列教程(四)——PLL的使用

    文章目录 PLL是什么 Libero中PLL的使用 官方文档 交流群 系列教程 Microsemi Libero系列教程 PLL是什么 PLL Phase Locked Loop 为锁相回路或锁相环 用来统一整合时钟信号 使高频器件正常工作
  • 远程链接腾讯云Redis-遇到的坑

    开门见山 1 配置腾讯安全组 不用重启机器 首先找到默认的安全组 一个实例必须有一个安全组 即这个 点进去 就会进入安全组下全部的安全策略 根据需要配置 2 更改Redis配置redis conf 注意 1 一定找到启动Redis对应的re
  • C++ STL模板库用法查询及一些常见面试题(自用)

    C STL模板库 文章目录 C STL模板库 用法查询 Array 1 使用 2 创建 3 成员函数 Vector 1 使用 2 创建 3 成员函数 deque 1 使用 2 创建 3 成员函数 list 1 使用 2 创建 3 成员函数
  • 「如何优雅有效利用周末和下班时间?」

    文章目录 每日一句正能量 前言 下班的时间规划 周末的时间规划 提升周末体验感的好方法 怎样才能获得充分的休息 后记 每日一句正能量 眼望古城街尽 心谱落愁无序 旧时的誓言 曾而相似 河水在遵循河道的指引下 在曲折前进中放声的歌唱 我却在心
  • 记录QTcpSocket碰到的ConnectToHost失败问题

    之前尝试Qt的QTcpSocket 发现ConnectToHost失败 waitForConnected一直返回false 一直不得其解 放弃了 直到最近再次使用 仍然是返回false 下定决心要解决这个问题 心血来潮查了QT的文档 发现有
  • 一文让你知道关于App推送那些事

    推送相关介绍 在用户未打开App时 服务端向用户推送服务器最新的消息数据 称为推送 消息推送在移动开发中用到的场景非常多 比如典电商类app的商品促销活动 资讯类的app的新闻推送等等 在实际开发中 我们常常会根据产品设计的需要 进行推送功
  • RF4CE安全性:概述

    配对流程 RF4CE配对是一个相当简单的过程 带来一些安全隐患 可能是由于试图简化最终用户的配对过程 首先 我们有发现阶段 外围设备发送具有一些特定属性集的发现请求命令 并等待来自满足这些要求的设备的发现响应命令 配对本身从外围设备发出的配
  • 服务器基础知识

    服务器基础知识 服务器是网络环境中的高性能计算机 它侦听网络上的其他计算机 客户机 提交的服务请求 并提供相应的服务 为此服务器必须具有承担服务并且保障服务的能力 一 服务器的分类 1 塔式服务器 塔式服务器即常见的立式 卧式机箱结构的服务
  • 基于单片机ISP技术原理及在线编程器的实现

    编程接口一般 芯片不焊在电路中 如华邦的51单片机 40引脚 可能是串口下载 STC 焊在板上的USB转串口下载 下面的ATMEL的ISP是模拟SPI下载 用单片机的P1 5P1 6P1 7下载 以ATMEL公司的AT89S51 AT89S
  • 我所理解的设计模式(C++实现)——适配器模式(Adapter Pattern)

    解决的问题 适配器模式把一个类的接口变换成客户端所期待的另一种接口 从而使原本接口不匹配而无法在一起工作的两个类能够在一起工作 比如说我的hp笔记本 美国产品 人家美国的电压是110V的 而我们中国的电压是220V 要在中国能使用 必须找个
  • Csdn爬虫自动评论

    前言 因为发现自己的csdn博客被机器人自动评论 这些博客很多都是对别人进行评论 然后别人就有可能回访或者点赞关注等等 基本上总积分非常高 为了覆盖掉这些机器评论 本篇主要是实现java爬虫对自己的博客所有文章进行自动评论 一 准备分析工作