我正在创建一个网站,该网站将审查互联网上数十万个其他网站的隐私政策。它的最初内容是基于我的运行普通爬行 http://commoncrawl.org/50 亿页网络转储和分析所有隐私政策 https://stackoverflow.com/questions/9709293/interesting-nlp-machine-learning-style-project-analyzing-privacy-policies使用脚本来识别某些特征(例如“出售您的个人信息”)。
根据SEO MOZ SEO 初学者指南 http://www.seomoz.org/beginners-guide-to-seo/basics-of-search-engine-friendly-design-and-development:
搜索引擎往往只抓取任何给定页面上的大约 100 个链接。
这种宽松的限制对于减少垃圾邮件和节约资源是必要的。
排名。
我想知道什么是创建导航网络的明智方法,该导航网络不会留下孤立的页面,但仍然可以避免他们所说的搜索引擎优化惩罚。我有几个想法:
- 创建按字母顺序排列的页面(或 Google Sitemap .xml),例如“以 Ado* 开头的网站”。例如,它会在那里链接“Adobe.com”。这个,或者任何其他无意义的页面分割,似乎有点做作,我想知道谷歌是否会不喜欢它。
- 使用元关键字或描述进行分类
- 找到一些方法来应用更有趣的类别,例如地理或基于内容的类别。我担心的是,我不确定如何能够将此类类别全面应用到如此多的网站。我想如果需要的话我可以编写另一个分类器来尝试分析抓取的页面内容。不过,听起来这本身就是一项艰巨的工作。
- 使用 DMOZ 项目帮助对页面进行分类。
维基百科和 StackOverflow 显然已经很好地解决了这个问题,允许用户对所有页面进行分类或标记。就我而言,我没有那么奢侈,但我想找到最好的选择。
这个问题的核心是谷歌如何应对不同的导航结构。它是否会惩罚那些以程序化/无意义的方式创建网页的人?或者只要一切都通过链接连接就不在乎?
Google PageRank 不会因为页面上的链接超过 100 个而惩罚您。但是,每个超过特定阈值的链接在 PageRank 算法中的价值/重要性都会降低。
引用 SEOMOZ 和 Matt Cutts 的话:
你会受到惩罚吗?
在我们深入探讨之前,我想澄清一下,100 个链接
限制从来都不是惩罚的情况。在 2007 年 8 月的一次采访中,
兰德引用马特·卡茨的话:
“将链接数量保持在 100 以下”是技术性的
指南部分,而不是质量指南部分。这意味着
如果您的页面上有 101 或 102 个链接,我们不会删除该页面
页。将此更多地视为经验法则。
到时候,很有可能
谷歌在某一点之后开始忽略链接,但最坏的情况是
这使得那些 100 后的链接无法传递 PageRank。页面本身
不会被取消索引或受到处罚。
所以问题实际上是如何让谷歌认真对待你的所有链接。您可以通过生成供 Google 抓取的 XML 站点地图来实现此目的(您可以拥有静态 sitemap.xml 文件,也可以动态生成其内容)。您将需要阅读Google 网站管理员工具帮助文档的部分。
就像页面上的链接过多是一个问题一样,XML 站点地图文件中的链接过多也是一个问题。您需要做的就是对 XML 站点地图进行分页。 Jeff Atwood 谈论了 StackOverflow 如何实现这一点:站点地图的重要性 http://www.codinghorror.com/blog/2008/10/the-importance-of-sitemaps.html。杰夫也在网上讨论了同样的问题StackOverflow 播客 #24 https://blog.stackoverflow.com/2008/10/podcast-24/.
另外,这个概念也适用于Bing http://www.bing.com/toolbox/webmaster/以及。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)