Google 每天处理约 20000TB 的数据

2023-10-30

Google 热衷于处理全球的信息，每天，他们花费大量时间探索更好的信息整理技术，他们目前使用的技术为 MapReduce ，这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力，MapReduce 是 Google 日常数据处理的完美技术方案。

Google 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣，并获得经验和教训，以改进下一代数据处理技术。

目前，Google 的每 TB 数据处理能力为，在1000台计算机中处理 1TB 数据的时间为68秒（使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中），以前的表现为 910 台电脑 209秒。

但 Google 要处理的数据远超过 TB 级，因此，Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍，或者，形象一点说，1PB 数据相当于 2008 年5月，美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示，Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。

有一个有趣的问题，就是，如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中（每个只利用了部分空间），每次进行数据整理，至少有一个硬盘坏掉（鉴于处理的时长，硬盘的数目和硬盘本身的寿命，这并不奇怪），因此，为了保证数据安全，Google 将每份数据都在不同的硬盘上写三份。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Google 每天处理约 20000TB 的数据的相关文章

mongodb 聚合随机化（shuffle）结果

我正在浏览一堆 mongo 文档但找不到洗牌或随机化结果内容的可能性有没有特别是对于聚合框架本身来说实际上并没有任何本地方法因为还没有可用的运算符来执行诸如生成随机数之类的操作因此无论您可能投射一个字段进行排序的任何匹配都不
URL中的gs_upl是什么意思？

在任何谷歌搜索 URL 中 gs upl 是什么意思例如那么 gs upl 1045l1663l0l3648l4l4l0l0l0l0l258l682l0 3 1l4l0 在这里意味着什么从构建的脚本gs upl j 我找到 funct
使用 hg 存储库作为网站

这与我的安全问题有些相关here https stackoverflow com questions 2361626 security deny access to hg via mod rewrite 对实时网站使用 hg Mercuri
函数默认参数有些问题？

看到这个 let foo outer function bar func x gt foo let foo inner console log func bar outer 我想知道为什么输出是外部而不是内部我知道 JavaScri
WebUSB 和 RFID 读取器

我想知道是否有人有让 RFID 读取器通过 WebUSB 工作的经验我使用的阅读器是https www parallax com product 28340 https www parallax com product 28340 根据我
使用节点http代理转发http代理

我正在使用 node http proxy 库来创建转发代理服务器我最终计划使用一些中间件来动态修改 html 代码这就是我的代理服务器代码的样子 var httpProxy require http proxy httpProxy c
对同一域发出 get 请求，出现 CORS 错误

在浏览器扩展中这是我的 ajax 调用 var xhr new XMLHttpRequest xhr open GET window location href true xhr responseType arraybuffer xhr
单击链接时启动本地应用程序

我正在开发一个内部 Web 应用程序它允许我为客户存储远程控制凭据每次我想要连接到客户计算机时我都需要启动远程支持软件复制并粘贴用户名和密码然后单击开始按钮该软件将具有可用的命令行参数允许我立即启动会话但是我不知道如何
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El
asp.NET 2.0网站无法访问App_Code中的类

将我的网站部署到服务器后我在访问课程时遇到问题请注意这是一个网络Site不是网络应用错误是编译器错误消息 CS0246 找不到类型或命名空间名称 Order 是否缺少 using 指令或程序集引用版本信息 Microsoft N
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
Web Api - 不允许捕获 405 方法

截至目前 Web api 应用程序针对 405 方法不允许错误返回以下响应正文我正在尝试更改响应正文但我不知道如何使用委托处理程序 ApiControllerActionSelector 或过滤器谁能帮我捕获服务器端的 405 错误
System.Web.HttpException 无法加载类型“[命名空间].???”

这开始于无法加载类型全局错误在我尝试了一些方法后没有找到删除 Global asax 文件的位置现在错误是无法加载类型 namespace 在哪里是我尝试加载的每个页面的类名该网站在 VS2008 本地开发计算机中执行时工
Magento：设置刚刚创建的网站的配置值？

我正在以编程方式创建网站用户等问题是创建网站时我无法立即设置配置值 Code
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
诸如用于测试 HTTP 请求的虚拟 REST 服务器之类的东西？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我一直在四处寻找但找不到任何这样的网站我想知道是否有一些虚拟服务器可以响应测试 GET 请求并返回
C# 构建一个 webservice 方法，它接受 POST 方法，如 HttpWebRequest 方法

我需要一个接受 POST 方法的 Web 服务访问我的服务器正在使用 POST 方法它向我发送了一个 xml 我应该用一些 xml 进行响应另一方面当我访问他时我已经使用 HttpWebRequest 类进行了管理并且工作正常
如何防止桌面浏览器（Chrome、Safari）缩放网页

我尝试使用以下元视图端口标记来防止浏览器缩放但这不起作用我知道这是可能的因为我的缩放在此网站上被阻止未来主义 xyz http futurism xyz 该网站的视口标签是这样的
重新加载更新的 javascript> 代码而不完全重新加载 html 页面

我正在开发一个单页 Web 应用程序它具有许多不同的功能和形式当开发一个深度我的意思是主页上没有的功能时我会经历这个循环开发代码编辑类和函数刷新整个页面一路点击直到到达我需要测试的部分有时加起来大约一分钟测试新代码
Web 应用程序使用 API 来完成一切？

我即将开始为我的公司规划一个内部项目管理工具 API 一直让我疑惑首先创建 API 并使用这些 API 调用构建实际站点而不是实施两次是否会被视为不好的做法效率太低让我知道你的想法我完全同意开发 API 将为您提供解耦的架构并且

随机推荐

附录2 FFmpeg从入门到精通-Linux下编译FFmpeg

文章目录附录2 Linux下编译FFmpeg 1 安装依赖项 2 NASM 3 Yasm 4 libx264 5 libx265 6 libfdk aac 7 libmp3lame 8 libopus 9 libvpx 10 FFmpeg
【最全下载合集】最新Office 2021微软官方原版离线安装下载地址合集

Office2021下载地址合集说明仅支持Win10 11系统 img镜像Win10 11下直接装载打开即可一专业增强版强烈推荐 http officecdn microsoft com pr 492350f6 3a01 4f97
java读取jar包中resource下的图片

读取jar包或者war包中的文件时只能使用流不能使用new File Resource resource new ClassPathResource topo img File separator a png
漫谈Web3早期发烧友为什么会成为未来的主流人群？

创新的扩散随着连续的消费者群体采用新技术蓝色显示其市场份额黄色将最终达到饱和水平摘自罗杰斯埃弗雷特的创新扩散 1962 新技术的采用有一个可预测的模式 Web3 也不例外 1962 年埃弗雷特罗杰斯在他的开创性著作创新的
ubantu初始化两部曲

1 配置网络 2 同步windos和ubantu的复制粘贴 sudo apt get install open vm tools sudo apt get install open vm tools desktop
gdb调试积累

1 p打印字符串时不省略默认情况下 gdb调试时太长的字符串只显示一部分如果想要完全显示可以设置 set print element 0 2 查看产生coredump文件的进程 1 gdb c corefile 使用gdb调试cor
git创建分支提示fatal: not a valid object name: ‘master‘解决方案

文章目录 1 背景描述 2 原因分析 3 解决方案 1 背景描述在本地使用 git init初始化一个空的git项目后想使用git branch创建分支时提示fatal not a valid object name master 2
【我的Java笔记】IO流_输出流中给文本文件追加数据的方法

1 IO流中给文本追加数据的方法append 1 该方法是Writer类字符输出流中的方法该类为抽象类可用的子实现类为 OutputStreamWriter和BufferedWriter 2 API中的方法描述注字符序列即字符串
基于BP神经网络的Matlab仿真实现

第一部分引言 BP神经网络 Back Propagation Neural Network 是一种多层前馈神经网络主要用于解决非线性问题它通过反向传播算法进行训练不断调整网络权重最终实现输入与输出之间的映射关系本文将介绍如何使用
python处理时间格式：日期、时间、年、月、日、时刻、星期

原dataframe中的字段timestamp如下提取其中的日期时间年月日时刻星期 import datetime from datetime import datetime 时间格式转换获取日期时间年月日周几小
吉比特无源光纤接入用户端设备_网管型光纤收发器产品功能及技术特点详解

网管型光纤收发器采用主从式管理结构支持SNMP及Web图形化和Telnet命令行方式带外网管为电信运营商的维护管理提供了便捷可靠的手段接下来就由飞畅科技小编来为大家介绍下网管收发器的功能及技术特点一起来看看吧网管收发器的功能介
ubuntu 安装openjdk

在安装环境的过程中可能需要切换安装版本安装openjdk sudo apt update sudo apt install openjdk 8 jdk sudo apt install openjdk 11 jdk 切换版本 sudo u
linux检查是否有D进程,Linux的CPU-Load虚高之进程的D状态

写在前面前几天从同事手里接盘了一个 HHKB 的键盘虽说是顶级的配置但是如果不提一句的话估计大家都不会意识到码出这篇博文的工具如此高大上同时意味着我要持续吃土小半年了就像之前博文提到的我工作的重心从业务开发逐渐向基础平台建设转移
模拟cisp-pte 综合题三个key

1 拿到ip地址扫端口扫目录不多说有1443端口 SQL sever数据库和27666端口 2 扫出来这个地址查看一下访问一下发现一个是后台一个存在文件包含的网页一个大概是上传地址爆破一下后台发现不成功试一下利用文件包
虚拟主机的配置

root localhost nmcli connection modify ens160 ipv4 addresses 192 168 171 137 24 root localhost nmcli connection up ens16
21天Jenkins打卡Day15项目复制

参考文章 http istester com jenkins 188 html
【visual studio】使用 C++ OpenCV 读取图片失败，数据为空

这里写自定义目录标题图片路径问题图片路径问题 F Documents test image Image BMP 需要改成 F Documents test image Image BMP
feign调用第三方接口服务

前言做个笔记下次直接抄这里需要拿到response的header做验签之类的操作所以用feign Response来接收响应正文第三方接口调用的feign 自测OK import com mea pay common excep
广告案例｜10亿数据、查询<10s，论基于OLAP搭建广告系统的正确姿势

由于流量红利逐渐消退越来越多的广告企业和从业者开始探索精细化营销的新路径取代以往的全流量粗放式的广告轰炸精细化营销意味着要在数以亿计的人群中优选出那些最具潜力的目标受众这无疑对提供基础引擎支持的数据仓库能力提出了极大的技术挑战
Google 每天处理约 20000TB 的数据

Google 热衷于处理全球的信息每天他们花费大量时间探索更好的信息整理技术他们目前使用的技术为 MapReduce 这是一种可以对数据进行并发处理的软件架构鉴于其简单性与处理大规模数据的能力 MapReduce 是 Google

Google 每天处理约 20000TB 的数据

Google 每天处理约 20000TB 的数据 的相关文章

随机推荐

热门标签

Google 每天处理约 20000TB 的数据的相关文章