本文中的“本地数据缓存”是什么意思？

2024-01-11

摘自以下正文—— (http://developer.yahoo.com/hadoop/tutorial/module2.html)，它提到顺序可读的大文件不适合本地缓存。但我不明白本地是什么意思...

我认为有两个假设：一是Client缓存来自HDFS的数据，二是datanode将hdfs数据缓存在其本地文件系统或内存中，以便客户端快速访问。有谁可以解释更多吗？多谢。

但是，虽然 HDFS 具有很强的可扩展性，但其高性能设计也限制了它特定类别的应用程序；它不像 NFS 那样通用。有一个大使用 HDFS 做出的额外决策和权衡的数量。尤其：

假设使用 HDFS 的应用程序执行长顺序流读取文件。 HDFS经过优化，提供流式读取性能；这是以牺牲随机查找文件中任意位置的时间。

数据会被写入HDFS一次，然后被多次读取；文件更新关闭后不再受支持。（Hadoop 的扩展将提供支持将新数据附加到文件末尾；它计划被纳入 Hadoop 0.19 但尚未可用。）

由于文件的大小以及读取的顺序性，系统不会不提供机制数据本地缓存。缓存的开销已经足够大了该数据应该简单地从 HDFS 源重新读取。

假设单个机器经常发生故障，无论是永久性的还是间歇性地。集群必须能够承受多个系统的完全故障机器，可能有很多机器同时发生（例如，如果一个机架同时发生故障）。虽然性能可能会与丢失的机器数量成比例地下降，但系统作为一个整体不应变得过于缓慢，也不应丢失信息。数据复制
策略来解决这个问题。

任何真正的 Mapreduce 作业可能都会处理来自 HDFS 的 GB（10/100/1000 秒）数据。

因此，任何一个映射器实例很可能会按顺序处理大量数据（典型的块大小为 64/128/256 MB，具体取决于您的配置）（它将从头开始读取整个文件/块）结束。

在同一台机器上运行的另一个映射器实例也不太可能在不久的将来随时再次处理该数据块，更重要的是，多个映射器实例也将在任何一个 TaskTracker 中与该映射器一起处理数据（希望有一个相当一部分是数据的实际物理位置的“本地”，即数据块的副本也存在于映射器实例运行的同一台机器上）。

考虑到所有这些，缓存从 HDFS 读取的数据可能不会给您带来太多好处 - 在查询另一个块并最终在缓存中替换它之前，您很可能不会对该数据进行缓存命中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

HDFS

本文中的“本地数据缓存”是什么意思？的相关文章

hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
使用Spring批处理从HDFS读取文件

我必须编写一个 Spring 批处理它将从 HDFS 读取文件并更新 MySQL DB 中的数据 HDFS 中的源文件包含一些 CSV 格式的报告数据有人能给我举一个从 HDFS 读取文件的例子吗 Thanks The FlatFile
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装

随机推荐

运行其他命令时的 Python 后台循环

我正在开发一款现实迷你游戏每 5 分钟就会获得一次材料为了监控这一点我想编写一个简单的 python 脚本但现在有一个小障碍如何制作一个循环每 x 分钟执行一次操作同时仍然运行其他键盘输入而不中断循环这是一个相当简单的使用示
UI-Router 的解析函数仅调用一次

我打算使用 ui routers 解析功能将一些易于解析的承诺注入到我的控制器中我用示例 plnkr 来做一个例子考虑这些嵌套状态 route1 and route1 list 我有一个名为的解析函数abc定义于route1 现在当我导
如何使用 MonoTouch 将 DateTime 格式化为短时间格式的本地用户区域设置

我尝试了多种方法这是其中之一 System Globalization DateTimeFormatInfo format System Globalization CultureInfo CurrentCulture DateTimeF
如何使用具有多个 URL 的 MockRestServiceServer？

我需要在 MockRestServiceServer 的实例上配置多个期望期望是两个不同的 URL 调用 URL 1 调用 URL 1 第二次调用 URL 2 同一 URL 被调用两次然后使用不同的请求参数对同一 URL 进行第三次调
将 post 数据从一个 java servlet 写入另一个 java servlet

我正在尝试编写一个 servlet 它将通过 POST 发送 XML 文件 xml 格式的字符串到另一个 servlet 非必要的 xml 生成代码替换为 Hello there StringBuilder sb new StringBu
如何将自定义数据添加到路线？

我想在定义路线时向路线添加一些自定义数据我怎样才能做到这一点 like path department component DepartmentComponent customdata name foo age 23 我不希望自定义数据显
服务器和客户端 TypeScript 项目组织、编译

我如何编译我的 TypeScript 项目在服务器和客户端之间共享代码使用 TypeScript 我无法让 webpack 工作该网站只显示了一个非常基本的入门我尝试了 gulp 但它太复杂了并且增量编译花费了很长的时间远远超过
出现错误“位置 0 处没有行”

请帮我解决这个问题我收到错误位置 0 处没有行索引超出范围异常未由用户代码处理下面是我的代码 protected void Page Load object sender EventArgs e MTMSService obj ne
Oracle，从具有多行的子查询插入多行

我试图将某个字段从一个表复制到另一个表我想通过使用带有子查询的插入来执行 iy 如下所示 insert into sed reporte generico srg usuario srg nombres srg ape paterno s
我可以从代码访问我的 Scala 应用程序的名称和版本（在 SBT 中设置）吗？

我正在使用 SBT 0 11 0 使用 Scala 构建定义构建一个应用程序如下所示 object MyAppBuild extends Build import Dependencies lazy val basicSettings S
生成SQL Server数据库中所有索引、键的脚本

我希望生成如下脚本 ALTER TABLE dbo Person ADD CONSTRAINT PK Person PRIMARY KEY CLUSTERED PersonID CREATE INDEX IX EVT EVENTS on E
将 Double 转换为 Int 时的不同答案 - Java 与 .Net

在 C 中如果我想将 double 1 71472 转换为 int 那么我会得到答案 2 如果我在 Java 中使用 intValue 方法执行此操作我会得到 1 作为答案 Java 是否会向下舍入转换为什么 Java API 文档关
具有多种风格的应用程序的 Crashlytics 发行版

我正在尝试将 crashlytics 发行版用于具有多种风格的 Android 应用程序当没有口味时一切都工作正常但是一旦我添加了两种口味我就收到了 Task crashlyticsUploadDistributionRelease
使用 vaadin 7.3 和 valo 主题编译我的主题时出错

我正在开发一个使用 vaadin v7 2 的 vaadin 应用程序现在它已更新到 v7 3 7 并使用新的 valo 主题和我的自定义样式使用编译整个项目时mvn clean install主题得到完美编译但是当我尝试使用命令提示
使用Fresco时如何将图像保存到SD卡？

我在用Fresco http frescolib org 在我的应用程序中下载并显示 Gif 我想在单击时将图像保存到 SD 卡但我不知道该怎么做 final View view inflater inflate R layout fra
如何使用GCM成功“在客户端生成通知密钥”？ [复制]

这个问题在这里已经有答案了我按照以下说明进行操作但响应始终是 HTTP 401 未经授权我已验证ID令牌注册ID和项目ID 编号均有效遗憾的是回复中没有提供详细原因 https developer android com go
如何在 HttpModule 中执行 XSLT 转换？

我一直在尝试将服务器端 XSLT 转换实现为 IIS HttpModule 我的基本方法是在 BeginRequest 处安装一个新的过滤器将写入转移到 MemoryStream 中然后在 PreSendRequestContent 处
如何单击或双击网页上的某个单词来触发事件处理程序？

对于像这样的页面 http www answers com http www answers com 如果用户双击页面中的任何单词将会出现一个弹出框并显示该单词的定义我可以想出一种方法使用 DOM 脚本来分解页面中的所有单词然后使每
Android - 创建带有事件的自定义日历

我有一个显示特殊日子的应用程序我想将它们整合到日历中这些事件是静态的不会改变所以我不必经常更新日历我首先想到创建一个本地日历并添加事件但新的 Android 版本自 2 3 起似乎不支持这一点要实现我必须创建一个日历提供程
本文中的“本地数据缓存”是什么意思？

摘自以下正文 http developer yahoo com hadoop tutorial module2 html 它提到顺序可读的大文件不适合本地缓存但我不明白本地是什么意思我认为有两个假设一是Client缓存来自HDFS的数

本文中的“本地数据缓存”是什么意思？

本文中的“本地数据缓存”是什么意思？ 的相关文章

随机推荐

热门标签

本文中的“本地数据缓存”是什么意思？的相关文章