关于搜索引擎抓取我应该了解什么？

2024-01-03

我指的不是 SEO 的事情。我应该知道什么。例如

引擎运行 JavaScript 吗？
他们使用cookies吗？
cookie 是否会跨爬行会话进行（例如今天的 cookie 和下周或下个月的爬行）。
选定的 JS 过滤器是否因某种原因未加载？（例如出于优化原因而忽略的可疑广告？）

我不想意外地让所有索引页面显示某种错误或警告消息，例如请打开您的 cookie、不支持浏览器或不被索引，因为我做了一些愚蠢的事情，例如让我的站点地图指向/r?id=5并且没有索引，因为它是重定向（但是我会使用 301）。

从这里：http://www.google.com/support/webmasters/bin/answer.py?answer=35769 http://www.google.com/support/webmasters/bin/answer.py?answer=35769

使用文本浏览器，例如Lynx http://www.google.com/search?q=lynx+browser检查您的网站，因为大多数搜索引擎蜘蛛会像 Lynx 一样查看您的网站。如果 JavaScript、cookie、会话 ID、框架、DHTML 或 Flash 等奇特功能使您无法在文本浏览器中查看整个网站，那么搜索引擎蜘蛛可能无法抓取您的网站。

Read Google 的网站站长指南 http://www.google.com/support/webmasters/bin/answer.py?answer=35769

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

searchengine

webcrawler

关于搜索引擎抓取我应该了解什么？的相关文章

.net 4.0 中并行网络爬虫的最佳实践

我需要通过代理下载很多页面构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好还是对于繁重的 CPU 任务更好您对以下代码有何看法 var multyProxy new MultyProxy mul
Scrapy 通过表单身份验证绕过警报消息

Scrapy是否可以抓取警报消息链接例如 http 域名 admin http domainhere admin 一旦加载到实际的浏览器中就会出现一条带有表单的警报消息以填写用户名和密码或者有没有办法检查警报消息中的表单以了解要填写
从头开始构建一个快速的私人文章语义MySQL搜索引擎

我正在开展一个项目其中涉及全文 and semantic搜索网站内的文章如果无法合并用户可以选择任一选项这些文章是订阅式的只有登录后才能搜索因此外部搜索引擎或其 API 无法访问它们我读过有关狮身人面像的文章 http www
从 JSON 嵌套哈希中提取特定字段

我正在考虑编写一个 Web 应用程序来抓取 API 并以 JSON 形式返回此信息但是我只关注一个数字然后是当前价格在本示例中为 227 我如何在 Ruby 中访问它我不知道从哪里开始我从来没有处理过这样的文字为了讨论的目的
维基百科文本下载

我正在寻找为我的大学项目下载完整的维基百科文本我是否必须编写自己的蜘蛛才能下载此内容或者是否有在线维基百科的公共数据集为了给你一些我的项目的概述我想找出我感兴趣的几篇文章中有趣的单词但是为了找到这些有趣的单词我计划应用 tf i
Android GUI爬虫

有人知道抓取 Android 应用程序 GUI 的好工具吗我发现this http code google com p android crawler source checkout但不知道如何运行它就我个人而言我认为使用以下命令制作
Symfony2 Crawler - 将 UTF-8 与 XPATH 结合使用

我正在使用 Symfony2 Crawler Bundle 来使用 XPath 除了编码之外一切正常我想使用 UTF 8 编码但 Crawler 不知何故没有使用它我注意到因为 nbsp 被转换为 nbsp 这是一个已知问题 UTF
使用selenium：如何在Python中关闭Driver后保持登录状态

我想在第二次在 chrome 驱动程序上打开 Whatsapp 网站时登录我的 Whatsapp 网站 web whatsapp com 以下是我基于Python的代码需要您的帮助 from selenium import webdriv
爬虫脚本php

我在这里抓取了一段脚本来抓取网站将其放在我的服务器上并且它可以工作唯一的问题是如果我尝试爬行并将深度设置为 4 以上则它不起作用我想知道这是由于服务器缺乏资源还是代码本身造成的
robots.txt htaccess 阻止谷歌

在我的 htaccess 文件中我有
托管爬虫的最佳解决方案？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个爬虫可以爬行几个不同的域以获取新帖子内容内容总量数十万页并且每天都有大量新内容添加因此
如何保护/监控您的网站免遭恶意用户抓取

情况网站内容受用户名密码保护并非全部受控因为他们可以是试用测试用户由于用户名密码限制普通搜索引擎无法获取它恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西问题是监控此类活动并对其做出响应的最佳
我需要帮助向 php 实时搜索添加条件

我刚刚学习 php 最终学习了本教程http www w3schools com php php ajax livesearch asp 到目前为止我的 PHP 搜索文件看起来与示例中的相同但我更改了if strlen q gt 0 t
在 C# 中实现动态 Web Scraper 的逻辑

我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下从用户处获取 URL 在WINForms中的IE UI控件嵌入式浏览器中加载网页允许用户选择文本连续小不超过 50 个字符从加载的网页当用户希望
如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
在文本文件上书写时，重音符号和特殊字符无法正确显示

这就是我正在做的事情我在网站上进行网络爬虫以供个人使用以复制文本并将书籍的章节设置为文本格式然后使用另一个程序将其自动转换为 pdf 以将其放入我的云中一切都很好直到发生这种情况特殊字符无法正确复制例如重音在文本文件上显示为
制作一个网络爬虫/蜘蛛

我正在考虑制作一个网络爬虫蜘蛛但我需要有人为我指明正确的方向才能开始基本上我的蜘蛛将搜索音频文件并为其建立索引我只是想知道是否有人对我应该如何做有任何想法我听说用 PHP 完成它会非常慢我知道 vb net 那么这能派上用场吗
HtmlUnit 的替代方案

迄今为止我一直在研究可用的无头浏览器发现 HtmlUnit 的使用非常广泛与 HtmlUnit 相比我们是否有任何具有可能优势的 HtmlUnit 替代方案谢谢纳恩据我所知 HtmlUnit 是最强大的无头浏览器你对此有什么
如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档
Lucene 评分：在什么情况下使用 queryNorm？

我对 lucene 的评分策略有点困惑我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM

随机推荐

用android解析json

你好我想解析这个 json codError 0 msg OK id 1 role id 4 name Super description Roling rights superuser true active true optimist
Android Studio 升级到 3.1.0 后 Android 支持插件出现错误

我在我的项目中使用 Kotlin 和数据绑定最近升级到 Android Studio 3 1 0 后我经常在 Android 支持插件中看到很多异常无法初始化类 android databinding tool ext ExtKt j
角度构建index.html不工作

I have taken the build of angular project and got dist folder when i am trying to open the index html in browser I am ge
jqGrid 格式化程序和可排序列 - 不排序

我正在为 jqGrid columnModel 使用自定义格式化程序但无法使用格式化程序函数进行排序如果我删除格式化程序列排序正常 jQuery listAgentOptions jqGrid height 240 datatype l
可编码的失败初始化器

我正在尝试解析以下项目数组的 json 模式 itemID 可能不为空如何使项目的 ID 为零itemIDJSON 中不存在 itemID 123 itemTitle Hello 我的可解码类如下 public struct Item N
我的所有视图控制器中都包含 AdMob 吗？

我已经实施了 AdMob 一切似乎都正常但我想知道如何将横幅放入所有视图控制器中目前我仅在 RootViewController 上有横幅我总共有 4 个视图控制器 Thanks 你想要的是一个GADBannerView各种单身人
如何在spring 3.0中注册自定义PersistenceAnnotationBeanPostProcessor

我想重写 PersistenceAnnotationBeanPostProcessor 它在插入 context component scan 标记后立即注册我尝试注册一个同名的 bean 但 spring 仍然注册原始的后处理器 bea
在 Eclipse Indigo 中运行 MPJ Express 时出现“未解决的编译问题”

我遵循了 Youtube 上关于如何在 IDE 中使用 MPJ Express 运行并行应用程序的教程我下载了最新版本的 MPJ Express 并使用了 Eclipse Indigo 我确实在我的项目 JAR 文件中包含了 MPI 当我
FXML 文档的 Netbeans 8.2 自动完成始终显示“无建议”

我第一次在 Netbeans 8 2 中创建 JavaFX 项目 FXML 文档的自动完成功能始终显示无建议例如我见过类似的问题例如Netbeans7 1 和 JavaFX 2 0 FXML 代码完成不起作用 https stack
Gradle 6.0 打破了源集依赖

我在这里为学生收集了一些课程 https github com emign engineEmi Lektionen tree master https github com emign engineEmi Lektionen tree ma
在左下角/右下角创建两个按钮

JButton button1 new JButton Button 1 JButton button2 new JButton Button 2 JFrame frame new JFrame frame getContentPane s
引用 github 存储库中的 .css 文件作为 .html 文件中的样式表

我在 github 上有一个存储库其中有一个 css 文件有什么方法可以让 github 以我可以在网页中使用它的方式提供该文件吗换句话说我希望能够从本地计算机或实时域上的 HTML 文件直接引用 github 上的此源文件就像是
Java 中的贪吃蛇游戏，但我的重启按钮不起作用

我的游戏重启按钮不起作用点击它时它会倍增我不太了解 Java 我认为自己很好游戏主要内容 package snake game public class snake public static void main String arg
选择各种嵌套容器中的最后一个元素

如何选择 CSS 中最后一个也是最深的元素有没有办法改进这个CSS代码对于深树您提出什么解决方案 15 25 我避免使用 JavaScript 但 SASS 解决方案是受欢迎的也许使用 for level 1 div case gt
Dispatcher.BeginInvoke 问题

我收到此代码的非静态字段方法或属性 System Windows Threading Dispatcher BeginInvoke System Action 需要对象引用 private void ResponseCompleted
使用 AutoCloseable 关闭多个资源（try-with-resources）

我知道如果资源实现了 AutoCloseable 则您尝试传递的资源将自动关闭到目前为止一切都很好但是当我有多个想要自动关闭的资源时我该怎么办套接字示例 try Socket socket new Socket input n
命名空间对性能有害吗？（PHP）

我对 php 框架进行了一些更改以支持名称空间但结果并不符合预期对于简单的测试主要加载框架类执行时间减慢了约 10 根据您的经验在大型应用程序上使用命名空间是否值得考虑PHP的实际开发水平已接受的答案php 命名空间基准测试
AWS将elb的8000端口转发到EC2的8000端口

我有一个 ELB 其中在目标组中注册了多个 EC2 实例我正在使用一个运行正常的 php 应用程序端口它有 SSL 我想将端口 8000 用于我的节点应用程序我想做的是将 my elb address 8000 转发到 any ec2
根据元组的值对Python中的元组进行排序[重复]

这个问题在这里已经有答案了我正在尝试使用以下代码打印最常见的 10 个单词但是它不起作用关于如何修复它有什么想法吗 def reducer count words self word counts send all num occu
关于搜索引擎抓取我应该了解什么？

我指的不是 SEO 的事情我应该知道什么例如引擎运行 JavaScript 吗他们使用cookies吗 cookie 是否会跨爬行会话进行例如今天的 cookie 和下周或下个月的爬行选定的 JS 过滤器是否因某种原因未加载例

关于搜索引擎抓取我应该了解什么？

关于搜索引擎抓取我应该了解什么？ 的相关文章

随机推荐

热门标签

关于搜索引擎抓取我应该了解什么？的相关文章