针对搜索引擎爬虫的欺骗式SSR

2023-11-14

玩Google Webmasters的可能会有这种经历。自己开发的app用了Vue/React，写完后用Fetch as Google一爬傻眼了，爬不到东西。
图片描述

网上搜解决方案出来的都是一堆额外的SSR框架，要上node，还看起来麻烦的要死。对于已经完成的项目，为了让搜索引擎爬虫能爬几个页面，又是改前端代码，又是改后端语言真的是郁闷。

一种迅雷不及掩耳盗铃式的解决方案：

判断浏览者是人还是爬虫
a. 是人，直接走正常html + javascript渲染流程
b. 是爬虫，去[2]
缓存文件夹找渲染好的html文件
a. 存在，把渲染好的html文件直接丢给爬虫
b. 不存在，去[3]
服务器开命令行浏览器访问同样地址，将渲染完成后的页面生成字符串丢给爬虫，并将字符串存储为html文件存放到缓存文件夹

如此一来，用户仍旧按原方式访问应用，而爬虫爬到的是已经渲染好的页面，这样就不会出现爬虫空白页面的情况了。当然在执行这套方案的时候有两个要点：

关于命令行浏览器。Headless Browser很多，但不是所有的都能用。很多地方说用PhantomJs来做，这个浏览器其实是不靠谱的。一来需要额外写个setTimeout的脚本来等待页面渲染完成，二来目前该浏览器不支持ES6，如果javascript里有不支持的语法会导致渲染失败。而使用chrome浏览器的话，语法支持没问题，而且只需一行代码即可搞定
```
google-chrome --headless --disable-gpu --dump-dom --no-sandbox --window-size=1280,1696
```
关于生成的字符串。用dump dom的方式生成的字符串是不能直接使用的，因为字符串中仍然包含用来客户端渲染的javascript代码，爬虫爬到后会尝试执行，然后又得出爬出了一个空页面。对于渲染完成后的字符串，需要用正则或DOM把其中的javascript代码给去掉，这样爬虫就可以正常解析了

图片描述

PHP实现，包括缓存策略共50行代码

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

javascript

php

ViewUI

针对搜索引擎爬虫的欺骗式SSR 的相关文章

如何使用 jQuery 通过单击按钮来选择下拉列表中的所有值？

如何通过在 JavaScript 中使用 jQuery 单击按钮来选择下拉列表中的所有值 function select children option attr selected selected 应该做当然你需要一个SELECT具有属
如何在 joomla 模块中通过 javascript 发送输入文件类型

我想将带有 javascript 的文件发送到 php 文件我的 php 文件中有这个表单
AngularJS Youtube 播放器嵌入非常大的播放列表

我目前正在构建一个 AngularJS 应用程序我知道它有点过时但我对它很有信心我的应用程序需要嵌入一个 YouTube 播放器其中包含一个非常大的播放列表大约 1500 个项目但我无法对其进行编码以便它实际上可以嵌入超过 2
适用于 HTML5 混合应用程序的 CORS

我读过很多关于 CORS 的文章以及允许 Access Control Allow Origin 如何成为 Web 服务器的安全漏洞但没有一篇文章解释了如何允许 HTML5 混合应用程序访问某些不允许使用通配符的域上托管的 Web 服
解析 PHP 响应：未捕获的语法错误：意外的标记 <

我正在使用 AJAX 来调用 PHP 脚本我唯一需要从响应中解析的是脚本生成的随机 ID 问题是 PHP 脚本会引发许多错误这些错误实际上很好不会妨碍程序功能唯一的问题是当我跑步时 parseJSON response I get
需要使用 php 从远程服务器下载与 $_FILES 相同的内容[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 好的我有处理图像上传的 php 代
如何使网站适应用户的屏幕分辨率？

我正在使用 1024x768 屏幕分辨率来设计我的网站当您从屏幕分辨率较小较大的计算机上的浏览器中查看网站时网站开始变形无论用户的屏幕分辨率是什么如何使网站适应用户的屏幕分辨率我相信通过 JavaScript 或 CSS 是可能
如何从代码隐藏文件中的asp.net用户控件注册（调用）jQuery函数？

如何从代码隐藏文件中的asp net用户控件注册调用 jQuery函数您可以使用ClientScriptManager RegisterStartupScript http msdn microsoft com en us librar
每次页面重新加载时都会出现新的 Google 登录库提示

在我的项目中我使用常规弹出客户端 JS 身份验证平台客户端 https developers google com identity sign in web sign in 我从旧版 Google Sign 迁移到新版 Google I
php，in_array，0值

我试图理解in array下一个场景的行为 arr array 2 gt Bye 52 77 3 gt Hey var dump in array 0 arr 返回值in array 是布尔值true 正如你所看到的no值等于0 所以有人可
iOS 11 getUserMedia 不起作用？

苹果公司发表声明称getUserMedia将在 iOS 11 上完全正常运行安装 iOS 11 Beta 版本 5 后我确实收到一条消息表明我的网站请求访问我的相机和麦克风但似乎是这样的 video src window URL c
php向多个收件人发送邮件

我可以通过在邮件程序中定义 id 来将电子邮件发送到一个电子邮件 id 但是当用户在表单中键入消息和电子邮件 id 时我无法理解如何发送到多个收件人例如我正在显示一个带有两个文本区域的表单一个用于电子邮件 ID 一个用于自定义消息
使 div 的大小与其内部图像的大小相同

我有一个带有以下代码的div HTML div img src img logo png div CSS div imgContainer width 250px height 250px padding 13px 问题是用户可以编辑图像大
“WebSocket 在连接建立之前已关闭”是什么意思？

我正在使用 JavaScript 和联盟平台 http www unionplatform com我该如何诊断这个问题非常感谢如果你去http jsbin com ekusep 6 edit http jsbin com ekusep
JavaScript 点击事件在 Android 4.0.4 默认浏览器上的 Samsung Galaxy SIII 上不起作用

我在 Android 4 0 4 上使用 Samsung Galaxy SIII 的默认浏览器时遇到了最奇怪的问题对于以下页面单击链接将不会触发 JavaScript 处理程序从其中一个 div 的内容中删除单个 a 字母使它们再次工
NodeJS 和 PHP (Laravel) 集成用于 Socket.IO 实时聊天

目前我有一个我写过的网站PHP通过Laravel 框架我已经使用写了一个实时聊天nodeJS with 套接字IO and Express现在我想做的是将它集成到我已经编写的 Laravel 网站中问题是聊天必须在主页中当前由 Lar
如何将字符串转换为 Javascript 中可执行的代码行？

我有以下代码 console log I am var x console log Alive 现在我只想使用x执行分配给它的代码字符串例如我什至可能不知道 x 的值但只是想执行它这可能吗 eval https developer
从另一台服务器读取 Node.js 中的大文件

我有两台相互通信的服务器 Server1 向 Server2 请求文件的部分内容并将收到的数据存储到一个文件中 Server2 应该接收每个请求并创建一个流管道传输数据假设服务器2中存储的文件目录如下 bigfile gz bigf
如何在不刷新页面的情况下更新页面 html 和 url

我想知道是否有人可以指出我学习如何在不刷新页面的情况下更新页面 html 和 url 的方向是否有任何现有的 javascript 库可以处理这个问题或者有一本涵盖此类事情的好书这是使用该效果的示例网站 http onedesignc
在 Javascript 中动态创建 []array

也许这将是一个真正愚蠢的问题但我是 JavaScript 新手并且坚持动态创建数组如下格式 items Date 2012 01 21T23 45 10 280Z Value 7 Date 2012 01 26T23 45 10 28

随机推荐

ulimit详解

ulimit详解 https www cnblogs com klb561 p 10575043 html
内网穿透：FRP(Forwarding Remote Proxy)反向代理

frp 是一个可用于内网穿透的高性能的反向代理应用支持 tcp udp 协议为 http 和 https 应用协议提供了额外的能力且尝试性支持了点对点穿透下载地址 https github com fatedier frp rele
gdb 调试程序时, "No such file or directory."

gdb 调试程序时出现 Breakpoint 1 main at test c 5 5 test c No such file or directory 原因原来在可执行程序中包含的调试信息源代码只是对源文件的一个链接过程期间我
2014-06-06:IOCTL_STORAGE_GET_DEVICE_NUMBER获取磁盘信息如磁盘号、磁盘类型、分区号

include
【设计模式】用Java手写21种常见设计模式

文章目录引言面向对象及封装继承多态 1 封装 2 继承 3 多态一创建型1 单例模式 1 饿汉模式常用 2 懒汉模式二创建型2 原型模式 1 克隆对象 2 克隆工厂三创建型3 工厂模式 1 实体类 2 工厂类四创建
计算机网络概述(修改篇)

1 计算机网络发展可以分为三阶段分别是第一个阶段分组交换技术标志性技术是ARPANET 第二个阶段 TCP IP协议标志性技术是互联网第三个阶段 web技术标志性技术是万维网 2 计算机的功能包含以下几个数据通信数据在网络
【C++】11新特性：std::thread、std::mutex和两种RAII方式的锁封装

一 std thread 在C 11之前开发多线程的程序一般都是使用pthread create来创建线程繁琐且不易读可以看一下它的函数原型 int pthread create pthread t restrict tidp co
第33步机器学习分类实战：误判病例分析

填最后一个坑如何寻找误判的病例之前我们在介绍AUC的时候提到了两个函数 predict和predict proba 复习一下 auc test roc auc score y test y testprba roc auc score
麻雀虽小，五脏俱全：上手Google App Engine遇到的问题总结

虽然不停的见到云计算的相关新闻而且在CSDN的论坛里也解答过关于Google App Engine持久化方面的问题但并没有将这两者联系起来我一直以为GAE是一个类似于Spring或者Hibernate一样的开源项目罢了最近构思技术族
嵌入式开发（7）系统定时器（SysTick）之延时函数运用

目录一系统定时器 1 简介 2 工作原理 3 频率的概念二库函数SysTick定时器操作系统定时器配置三寄存器SysTick定时器操作 1 系统定时器的用途 2 寄存器 3 官方示例 4 毫秒级延时函数 5 微秒和毫秒延时的优
ElasticSearch的查询权重-控制查询相关度

ES查询相关度的官网连接 1 ElasticSearch的查询权重每个文档与查询的相关度在全文搜索引擎中不仅需要找到匹配的文档还需根据它们相关度的高低进行排序根据全文相关的公式或相似算法 similarity algorithms
Python实现水仙花数代码

n int input for a in range 10 n 1 10 n if a sum int i n for i in str a print a
python 类函数调用外部函数_python类中调用外部函数,python 函数中定义类

Q1 python函数里的数组如何在函数外调用出来使用返回值的方法有两种可以直接把调用的函数作为变量使用可以用调用函数给一个变量赋值第一种情况见如下例子 l 1 2 3 4 5 def add element list elemen
两种方法利用CUDA实现矩阵乘法

方法一自己写创建 cu文件 include
常见的算法思想，全在这里了

常见的算法思想 1 贪心贪心算法有很多经典的应用比如霍夫曼编码 Huffman Coding Prim 和 Kruskal 最小生成树算法还有 Dijkstra 单源最短路径算法解决问题步骤第一步当我们看到这类问题的时候首先要
20190708三天总结zrb

20190705 操作系统对硬件的第一次扩充 Release 正式版本内核都为Linux 外观可能使各个品牌 swap 交换分区 1024 2048 根目录剩余的空间 boot 启动分区 520 1024 虚拟机安装 temp 临时文
Vue实现浙政钉扫码登陆（前端部分）

效果浙政钉app扫码实现登陆系统参考文档浙政钉 H5 小程序应用采集开发手册语雀专有钉钉门户 div class login 2code div
SpringBoot系列笔记一——SpringBoot项目结构

SpringBoot 简介 Spring Boot 是一个框架一种全新的编程规范他的产生简化了框架的使用所谓简化是指简化了 Spring 众多框架中所需的大量且繁琐的配置文件所以 Spring Boot 是一个服务于框架的框架服
ts自动编译声明文件_webstorm配置TS运行时环境与自动给编译

webstorm配置TS运行时环境与自动编译 Step 1 安装TypeScipt npm i typescript g Step 2 设置webstorm language Step 3 设置File Watch 添加file watch
针对搜索引擎爬虫的欺骗式SSR

玩Google Webmasters的可能会有这种经历自己开发的app用了Vue React 写完后用Fetch as Google一爬傻眼了爬不到东西网上搜解决方案出来的都是一堆额外的SSR框架要上node 还看起来麻烦的要死对

针对搜索引擎爬虫的欺骗式SSR

一种迅雷不及掩耳盗铃式的解决方案：

针对搜索引擎爬虫的欺骗式SSR 的相关文章

随机推荐

热门标签