我从哪里开始分布式计算?

2024-01-13

我对学习分布式计算技术感兴趣。作为一名 Java 开发人员,我可能愿意从Hadoop http://hadoop.apache.org/。您能推荐一些书籍/教程/文章吗?


也许你可以先阅读一些MapReduce和分布式计算相关的论文,以更好地理解它。以下是我想推荐的一些:

  • MapReduce:简化大型集群上的数据处理,http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/ http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/

  • Bigtable:结构化数据的分布式存储系统,http://www.usenix.org/events/osdi06/tech/chang/chang_html/ http://www.usenix.org/events/osdi06/tech/chang/chang_html/

  • Dryad:来自顺序构建块的分布式数据并行程序,http://pdos.csail.mit.edu/6.824-2007/papers/isard-dryad.pdf http://pdos.csail.mit.edu/6.824-2007/papers/isard-dryad.pdf

  • 并行计算研究的前景:伯克利的观点,

另一方面,如果你想更好地了解Hadoop,也许你可以开始阅读Hadoop MapReduce框架源代码。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我从哪里开始分布式计算? 的相关文章

  • Namenode高可用客户端请求

    谁能告诉我 如果我使用java应用程序请求一些文件上传 下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里 我的意思是客户端如何知道哪个名称节点处于活动状态 如果您提供一些工作流程类型图或详细解释请求步骤 从开始到结束
  • hive创建表的多个转义字符

    我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表 数据值包含单引号 双引号 括号等 使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
  • 如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?

    我想知道如何指定mapreduce配置 例如mapred task timeout mapred min split size等等 当使用自定义 jar 运行流作业时 当我们使用 ruby 或 python 等外部脚本语言运行时 我们可以使
  • 如何通过Python访问Hive?

    https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
  • Hive“添加分区”并发

    我们有一个外部 Hive 表 用于处理原始日志文件数据 这些文件每小时一次 并按日期和源主机名分区 目前 我们正在使用简单的 python 脚本导入文件 这些脚本每小时触发几次 该脚本根据需要在 HDFS 上创建子文件夹 从临时本地存储复制
  • Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

    我有一个文件夹 里面有 14 个文件 我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
  • Java 套接字 - 如何模拟多个客户端

    我有一个用Java编写的套接字程序 服务器使用 DatagramSocket 创建具有特定端口号的套接字 我有一个客户端java程序 它连接到该服务器并发送一些消息 目前我有 3 台笔记本电脑 因此我使用 1 台运行服务器 其余 2 台作为
  • 猪的组连接等效吗?

    试图在 Pig 上完成这个任务 寻找 MySQL 的 group concat 等效项 例如 在我的表中 我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
  • HDFS:使用 Java / Scala API 移动多个文件

    我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件 例如 我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
  • 如何从hdfs读取文件[重复]

    这个问题在这里已经有答案了 我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行 而不将 mr txt 文件下载到本地 但我无法从 hdfs 打开 mr tx
  • 2n + 1 法定人数是什么意思?

    我在描述 HBase 的 Zookeeper 配置时遇到过这个问题 但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗 或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性 可用性水平
  • pyspark.sql.utils.AnalysisException:u'Path不存在

    我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业 而不是 S3 来存储我的文件 我在 hdfs user hive warehouse 有一个配置单元表 但当我的 Spark 作业运行时找不到它 我配置了 Spar
  • Talend 和 Apache Spark?

    我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑 因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法 通过内置组件支
  • Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

    我想问一下 Spark 中输入的可能性 我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
  • Hadoop NoSuchMethodError apache.commons.cli

    我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作 在我的工作中 我正在使用apache commons cli 1 3 1我把库放在罐子里 当我在 Hadoop 集群上使用 MapReduceJob
  • 从 HDFS 传出文件

    我想将文件从 HDFS 传输到另一台服务器的本地文件系统 该服务器不在 hadoop 集群中 而是在网络中 我本可以这样做 hadoop fs copyToLocal
  • Sqoop 导出分区的 Hive 表

    我在尝试导出分区的 Hive 表时遇到了一些问题 这是否完全受支持 我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
  • Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

    针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
  • 运行 Sqoop 导入和导出时如何找到最佳映射器数量?

    我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库 运行 Sqoop 命令时 例如这样 sqoop import fs
  • 在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

    我正在编写一个 M R 作业 该作业处理以二进制格式编写的大型时间序列数据文件 如下所示 此处换行以提高可读性 显然 实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME

随机推荐

  • php mysql asc/desc 顺序

    TABLE timeslot id timeslot times 1 09 00 2 09 30 3 10 00 4 10 30 5 11 00 bookslot id id timeslot date b ref 1 2 2010 02
  • 如何让Android模拟器启动更快

    我目前一直坚持使用 Atom CPU 桌面来开发 Android 应用程序 有哪些方法可以改善其启动时间 运行模拟器时 我可以看到模拟器使用的核心数量只有一个 我从 Eclipse ADT 插件中运行模拟器 如何让模拟器使用两个核心而不是一
  • 只需单击标签即可双击

    我有一个标签 并且单击它时正在运行一些功能 但是 当单击事件发生时 双击事件完成 然后我的函数运行两次 你可以看一个简单的例子here http jsfiddle net vgWGT 2 HTML
  • iOS 7 master有导航栏提示时的细节布局

    我在 iOS 7 中遇到布局问题 要重现 请创建一个简单的主从应用程序并将此行插入MasterViewController m self navigationItem prompt Master 这在DetailViewController
  • 正则表达式允许非 ASCII 和外文字母吗?

    是否可以创建一个正则表达式来允许非ascii字母与拉丁字母一起使用 例如中文或希腊符号 例如允许A汉语AbN汉语 我目前有以下内容 w d w d s 只允许使用拉丁字母 In NET p L d p L d s 相当于你的正则表达式 另外
  • Angular2 5 分钟安装错误 - 未定义需求

    我正在做Angular2 5 分钟快速入门 https angular io docs ts latest quickstart html 现在教程已经进行了大约一半 我已经正确设置了以下文件 索引 html 应用程序组件 ts 应用程序
  • 实现观察者模式时出现的问题:“成员引用基类型 ________ 不是结构或联合”

    我一直在实现一个准系统观察者模式 但遇到了一个有点神秘的错误 成员引用基类型 Observer 不是结构或联合 我认为这与我使用模板有关 但我仍然对模板感到相当不舒服 这是有问题的代码 为了简化事情而删除了大多数 cons 析构函数 主题界
  • 在Android中绘画时如何遮盖一个简单的区域?

    下面是一个简化的描述 想象一下 我有一个 View 类 它可以绘制一面墙的图片 并且我想在绘制它时切出一个窗口 假设我扩展该 View 类并重写其dispatchDraw 方法来执行以下操作 首先绘制背景 如果有的话 可以通过窗户看到 接下
  • 有没有办法像oracle中的rownum一样获取Mysql中的行号[重复]

    这个问题在这里已经有答案了 有没有办法像oracle中的rownum一样获取Mysql中的行号 如果没有那么有什么间接的方法吗 请建议 直到MySQL终于支持现代SQL http modern sql com slides 获得类似内容的唯
  • 如何标记和测量斑点的大小?

    我正在用Python学习图像分析 我只是一个初学者 我能够编写代码 我在下面分享 来检测此纳米颗粒图像中的斑点 纳米颗粒 我可以使用以下方法检测到有 10 个纳米粒子cv2 connectedComponents 但现在我需要 用数字标记每
  • 单击标题上的按钮时阻止引导手风琴打开

    我有两个操作按钮位于手风琴的标题上 如下所示 当我单击这些按钮之一时 它会切换手风琴的状态 我尝试过e preventDefault and e stopImmediatePropagation 没有结果 这是jsfiddle https
  • 如何使用垂直对齐:居中;适当地?

    我想让我的列表 导航 与图像 徽标 的中心对齐 我尝试使用vertical align middle 但是当我左右浮动图像时 我无法让它工作 这是我的代码 HTML div img src logo png ul li a href Ite
  • 如何以最简单的方式在 V 2010Express C# 中创建 MRU?

    首先 我是 C 编程的新手 我需要尽快创建一个简单的 MRU 好吧 问题是我尝试查看一些在线示例 但我发现它们有点太令人困惑了 那么 是否任何人都可以在工具条菜单项中创建 最近使用 部分 而无需进入那些复杂的代码 例如 我将无法理解这些东西
  • 如何在 pyparsing 中与 OneOrMore 等进行非贪婪(回溯)匹配?

    我正在尝试使用以下方法将部分标准化的街道地址解析为其组件pyparsing 我想要非贪婪地匹配可能有 N 个令牌长的街道名称 例如 444 PARK GARDEN LN 应该解析为 number 444 street PARK GARDEN
  • 使用 selenium 滚动网站的特定部分。

    我正在尝试创建一个用于滚动该网站的脚本 http m 1688 com offer 39202959720 html spm a26g8 7664812 0 0 dfxn8I http m 1688 com offer 3920295972
  • R:对一列中的完整案例进行求和,并按另一列中的值进行分组(或排序)

    我正在使用airqualityR 中可用的数据集 并尝试计算数据中不包含任何数据的行数NAs 同时聚合Month 数据如下 head airquality Ozone Solar R Wind Temp Month Day 1 41 190
  • 无法解析“:app@debugUnitTest/compileClasspath”、:app@debugAndroidTest/compileClasspath 的依赖关系

    情况 创建最简单的项目 添加到项目模块 文件 gt 新建 gt 新模块 手机 平板模块 添加对模块的依赖 并得到错误 无法解析 app debug compileClasspath 的依赖关系 无法解析项目 testmodule 无法解析
  • MySQL-多列索引

    我正在学习 MySQL 索引 发现索引应该应用于 SELECT 查询的 WHERE 子句中命名的任何列 然后我发现多列索引与多个索引 https stackoverflow com questions 7261536 mysql multi
  • Dart源文件更改时自动刷新页面

    当源文件发生更改时 如何使 Dartium 自动重新加载 Web 客户端应用程序 有关的 如何让 Firefox 在文件更改时自动刷新 https stackoverflow com questions 1346716 firefox au
  • 我从哪里开始分布式计算?

    我对学习分布式计算技术感兴趣 作为一名 Java 开发人员 我可能愿意从Hadoop http hadoop apache org 您能推荐一些书籍 教程 文章吗 也许你可以先阅读一些MapReduce和分布式计算相关的论文 以更好地理解它