关于搜索引擎抓取我应该了解什么?

2024-01-03

我指的不是 SEO 的事情。我应该知道什么。例如

  1. 引擎运行 JavaScript 吗?
  2. 他们使用cookies吗?
  3. cookie 是否会跨爬行会话进行(例如今天的 cookie 和下周或下个月的爬行)。
  4. 选定的 JS 过滤器是否因某种原因未加载? (例如出于优化原因而忽略的可疑广告?)

我不想意外地让所有索引页面显示某种错误或警告消息,例如请打开您的 cookie、不支持浏览器或不被索引,因为我做了一些愚蠢的事情,例如让我的站点地图指向/r?id=5并且没有索引,因为它是重定向(但是我会使用 301)。


从这里:http://www.google.com/support/webmasters/bin/answer.py?answer=35769 http://www.google.com/support/webmasters/bin/answer.py?answer=35769

使用文本浏览器,例如Lynx http://www.google.com/search?q=lynx+browser检查您的网站,因为大多数搜索引擎蜘蛛会像 Lynx 一样查看您的网站。如果 JavaScript、cookie、会话 ID、框架、DHTML 或 Flash 等奇特功能使您无法在文本浏览器中查看整个网站,那么搜索引擎蜘蛛可能无法抓取您的网站。

Read Google 的网站站长指南 http://www.google.com/support/webmasters/bin/answer.py?answer=35769

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

关于搜索引擎抓取我应该了解什么? 的相关文章

  • .net 4.0 中并行网络爬虫的最佳实践

    我需要通过代理下载很多页面 构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好 还是对于繁重的 CPU 任务更好 您对以下代码有何看法 var multyProxy new MultyProxy mul
  • Scrapy 通过表单身份验证绕过警报消息

    Scrapy是否可以抓取警报消息 链接例如 http 域名 admin http domainhere admin 一旦加载到实际的浏览器中 就会出现一条带有表单的警报消息 以填写用户名和密码 或者有没有办法检查警报消息中的表单以了解要填写
  • 从头开始构建一个快速的私人文章语义MySQL搜索引擎

    我正在开展一个项目 其中涉及全文 and semantic搜索网站内的文章 如果无法合并 用户可以选择任一选项 这些文章是订阅式的 只有登录后才能搜索 因此外部搜索引擎或其 API 无法访问它们 我读过有关狮身人面像的文章 http www
  • 从 JSON 嵌套哈希中提取特定字段

    我正在考虑编写一个 Web 应用程序来抓取 API 并以 JSON 形式返回此信息 但是 我只关注一个数字 然后是当前价格 在本示例中为 227 我如何在 Ruby 中访问它 我不知道从哪里开始 我从来没有处理过这样的文字 为了讨论的目的
  • 维基百科文本下载

    我正在寻找为我的大学项目下载完整的维基百科文本 我是否必须编写自己的蜘蛛才能下载此内容 或者是否有在线维基百科的公共数据集 为了给你一些我的项目的概述 我想找出我感兴趣的几篇文章中有趣的单词 但是为了找到这些有趣的单词 我计划应用 tf i
  • Android GUI爬虫

    有人知道抓取 Android 应用程序 GUI 的好工具吗 我发现this http code google com p android crawler source checkout但不知道如何运行它 就我个人而言 我认为使用以下命令制作
  • Symfony2 Crawler - 将 UTF-8 与 XPATH 结合使用

    我正在使用 Symfony2 Crawler Bundle 来使用 XPath 除了编码之外 一切正常 我想使用 UTF 8 编码 但 Crawler 不知何故没有使用它 我注意到因为 nbsp 被转换为 nbsp 这是一个已知问题 UTF
  • 使用selenium:如何在Python中关闭Driver后保持登录状态

    我想在第二次在 chrome 驱动程序上打开 Whatsapp 网站时登录我的 Whatsapp 网站 web whatsapp com 以下是我基于Python的代码 需要您的帮助 from selenium import webdriv
  • 爬虫脚本php

    我在这里抓取了一段脚本来抓取网站 将其放在我的服务器上并且它可以工作 唯一的问题是 如果我尝试爬行并将深度设置为 4 以上 则它不起作用 我想知道这是由于服务器缺乏资源还是代码本身造成的
  • robots.txt htaccess 阻止谷歌

    在我的 htaccess 文件中 我有
  • 托管爬虫的最佳解决方案? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个爬虫 可以爬行几个不同的域以获取新帖子 内容 内容总量数十万页 并且每天都有大量新内容添加 因此
  • 如何保护/监控您的网站免遭恶意用户抓取

    情况 网站内容受用户名 密码保护 并非全部受控 因为他们可以是试用 测试用户 由于用户名 密码限制 普通搜索引擎无法获取它 恶意用户仍然可以登录并将会话 cookie 传递给 wget r 或其他东西 问题是监控此类活动并对其做出响应的最佳
  • 我需要帮助向 php 实时搜索添加条件

    我刚刚学习 php 最终学习了本教程http www w3schools com php php ajax livesearch asp 到目前为止 我的 PHP 搜索文件看起来与示例中的相同 但我更改了if strlen q gt 0 t
  • 在 C# 中实现动态 Web Scraper 的逻辑

    我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下 从用户处获取 URL 在WINForms中的IE UI控件 嵌入式浏览器 中加载网页 允许用户选择文本 连续 小 不超过 50 个字符 从加载的网页 当用户希望
  • 如何在elasticsearch中配置synonym_path

    我对 elasticsearch 很陌生 我想使用同义词 我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
  • 在文本文件上书写时,重音符号和特殊字符无法正确显示

    这就是我正在做的事情 我在网站上进行网络爬虫以供个人使用 以复制文本并将书籍的章节设置为文本格式 然后使用另一个程序将其自动转换为 pdf 以将其放入我的云中 一切都很好 直到发生这种情况 特殊字符无法正确复制 例如重音在文本文件上显示为
  • 制作一个网络爬虫/蜘蛛

    我正在考虑制作一个网络爬虫 蜘蛛 但我需要有人为我指明正确的方向才能开始 基本上 我的蜘蛛将搜索音频文件并为其建立索引 我只是想知道是否有人对我应该如何做有任何想法 我听说用 PHP 完成它会非常慢 我知道 vb net 那么这能派上用场吗
  • HtmlUnit 的替代方案

    迄今为止 我一直在研究可用的无头浏览器 发现 HtmlUnit 的使用非常广泛 与 HtmlUnit 相比 我们是否有任何具有可能优势的 HtmlUnit 替代方案 谢谢 纳恩 据我所知 HtmlUnit 是最强大的无头浏览器 你对此有什么
  • 如何基于Scrapy构建一个永远运行的网络爬虫?

    我想基于Scrapy构建一个网络爬虫 从多个新闻门户网站抓取新闻图片 我希望这个爬虫是 永远奔跑 意味着它将定期重新访问一些门户页面以获取更新 安排优先事项 为不同类型的 URL 赋予不同的优先级 多线程获取 我已经阅读了Scrapy文档
  • Lucene 评分:在什么情况下使用 queryNorm?

    我对 lucene 的评分策略有点困惑 我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM

随机推荐