AFAIK Google Analytics 源自 Urchin。正如有人所说,自从 Analytics 成为 Google 家族的一部分以来,它就有可能使用 MapReduce/BigTable。我可以假设 Google 已将旧格式的 Urchin DB 与新的 BigTable/MapReduce 集成。
我发现这个链接讨论了 Urchin DB。可能有些东西现在仍在使用。
http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/ http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/
这说:
[snip] ...仍然使用专有数据库来存储报告数据,这使得临时查询受到更多限制,因为您必须使用 Urchin 开发的工具而不是更灵活的 SQL 工具。
http://www.urchinexperts.com/software/faq/#ques45 http://www.urchinexperts.com/software/faq/#ques45
Urchin 使用什么类型的数据库?
Urchin 使用专有的平面文件数据库来存储报告数据。高性能数据库架构可以有效地处理高流量站点。数据库架构的一些好处包括:
* Small database footprint approximately 5-10% of raw logfile size
* Small number of database files required per profile (9 per month of historical reporting)
* Support for parallel processing of load-balanced webserver logs for increased performance
* Databases are standard files that are easy to back up and restore using native operating system utilitiesv
有关海胆的更多信息
http://www.google.com/support/urchin45/bin/answer.py?answer=28737 http://www.google.com/support/urchin45/bin/answer.py?answer=28737
很久以前,我曾经有一个跟踪器,在他们的网站上他们正在讨论数据标准化:http://www.2networx.com/dev/articles/statisticus5.asp http://www.2enetworx.com/dev/articles/statisticus5.asp
在那里你可以找到一些关于如何减少数据库中的数据的信息,也许这是研究的一个好的开始。