Google 机器人使用 HTML5 模式路由在 AngularJS 网站上爬行

2024-01-30

我们有一个使用 HTML5 路由的 AngularJS 网站。我刚刚做了一些测试“Fetch as Google”运行。结果有点令人困惑：

在获取选项卡上，我看到我们的网站在查看源代码中的样子，其中包含所有前端绑定 {{ }}，但并非所有呈现的 HTML
在渲染选项卡上，我们的网站看起来非常好，没有 {{ }} 变量，看起来 Google bot 很好地获取并渲染了网站，这可能与此一致，http://googlewebmastercentral.blogspot.ae/2014/05/rendering-pages-with-fetch-as-google.html http://googlewebmastercentral.blogspot.ae/2014/05/rendering-pages-with-fetch-as-google.html.

但是，我们已经做好了 Google 无法抓取我们网站的准备，因此我们已经添加了，因此 Google 机器人会使用“?_escaped_fragment_=”重新访问我们的页面。我们遵循了这一点，https://developers.google.com/webmasters/ajax-crawling/docs/getting-started https://developers.google.com/webmasters/ajax-crawling/docs/getting-started（“3. 处理没有哈希片段的页面”部分）。在我们的 Nginx 配置中，我们有这样的内容：

if ($args ~ "_escaped_fragment_=") {
    serve the static HTML snapshots
}

，如果我们自己传递 _escaped_fragment_= ，它确实可以正常工作。但是，Google 机器人从未尝试使用此参数抓取我们的网站，因此它从未抓取快照。我们错过了什么吗？我们是否还应该在 Nginx 配置中添加针对 Google bot 的代理检测？像这样的东西吗？

if ($http_user_agent ~* "googlebot|yahoo|bingbot|baiduspider|yandex|yeti|yodaobot|gigabot|ia_archiver|facebookexternalhit|twitterbot|developers\.google\.com") {            

server from snapshots

}

如果我们能更好地理解这一点那就太好了，提前非常感谢！

UPDATE:
我刚刚读到这个，http://scotch.io/tutorials/javascript/angularjs-seo-with-prerender-io?_escaped_fragment_=tag#caveats http://scotch.io/tutorials/javascript/angularjs-seo-with-prerender-io?_escaped_fragment_=tag#caveats。因此，似乎在使用手动工具（Fetch as Google）时，我们应该传递自己 #!或 ?_escaped_fragment_= 在正确的位置。事实上，如果我在我们的例子中传递 ?_escaped_fragment_= ，我确实会看到我们创建的 HTML 快照。

真的吗？确实是这样吗？

UPDATE 2在此线程的底部，Google 员工验证了对于 Google 网站管理员“Fetch as Google”，您需要自己手动传递 _escaped_fragment_= 参数，https://productforums.google.com/forum/#!msg/webmasters/fZjdyjq0n98/PZ-nlq_2RjcJ https://productforums.google.com/forum/#!msg/webmasters/fZjdyjq0n98/PZ-nlq_2RjcJ

Cheers,
Iraklis

我将根据我们上个月开发HTML5模式的SPA的经验尝试回答您的问题。

如何让 Googlebot 使用 ?_escaped_fragment_= 而不是直接链接。

这实际上很简单，但很容易被忽视。事实上，有两种不同的方法可以让 Googlebot 尝试 escaped_fragment。第一种方法是以非 html5 模式运行您的网站。这意味着您的 URL 将采用以下形式：

http://my.domain.com/base/#!some/path/on/website http://my.domain.com/base/#!some/path/on/website

Googlebot 可识别 #!并使用更改后的 URL 对您的服务器进行第二次调用：

http://my.domain.com/base/?_escaped_fragment_=some/path/on/website http://my.domain.com/base/?_escaped_fragment_=some/path/on/website

然后您就可以按照您的意愿进行处理。让 Googlebot 尝试 _escaped_fragment_ 模式的第二种方法是在您提供给机器人的索引页上包含以下元标记：

<meta name="fragment" content="!">

这将使 googlebot 每次看到该标签时都会检查网页的其他版本。有趣的是，您可以同时使用这两种技术，或者您可以执行我们最终所做的操作，即使用元标记在 html5 模式下运行。这意味着您的 URL 将按如下方式转义：

http://my.domain.com/base/some/path/on/website?_escaped_fragment_= http://my.domain.com/base/some/path/on/website?_escaped_fragment_=

有趣的是，机器人不会在片段末尾放置任何内容。但根据您运行的网络服务器，您可以轻松地将其与“_escaped_fragment_”文本匹配的模式映射到您的备用机器人页面。有关逃逸片段的更多信息，请访问here https://developers.google.com/webmasters/ajax-crawling/docs/specification.

“Fetch as Googlebot”返回我的页面的两个不同版本，带有 {{}} 的源和看起来正确的呈现页面。这意味着什么？

自 2014 年初以来，Google 的 Bot 实际上可以在有限的范围内解释 JavaScript。有关更多信息，请阅读 google webmasters 上的官方博客条目here http://googlewebmastercentral.blogspot.ch/2014/05/understanding-web-pages-better.html。然而，正如博客文章中明确指出的，这有很多警告。例如：

Googlebot 不保证执行所有 JavaScript 代码。
Googlebot 将尝试在 javascript 中查找要跟踪的链接，并使用它们来帮助查找更多页面。
Googlebot 将通过执行尽可能多的 JavaScript 来在网站站长工具中呈现预览（因此呈现版本中缺少 {{}}）。
Googlebot 不一定会使用渲染版本来为其索引构建有关您网站的元信息。

As of 2014年12月18日，我们仍然不确定 Googlebot 是否真的可以在呈现模式下从 SPA 中提取任何信息作为其索引，而不仅仅是在 javascript 中查找要跟踪的链接。根据我们的经验，Googlebot 会在其索引列表中包含 {{}}，以便当您尝试使用 {{}} 填充元信息（说明、关键字、标题等...）时，您的网站在 Google 搜索中看起来像这样结果：

{{meta.siteTitle}}
http://my.domain.com/base/some/path/on/website http://my.domain.com/base/some/path/on/website
{{元.描述}}

而不是你所期望的，它可能看起来像这样：

Domain
http://my.domain.com/base/some/path/on/website http://my.domain.com/base/some/path/on/website
这是我的域上的随机页面。毫无疑问，这是一个出色的示例页面！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)