distributedcomputing

Apache Spark 中的混洗与非混洗合并

在将 RDD 写入文件之前执行以下转换时它们之间有什么区别合并 1 随机播放 true 合并 1 随机播放假代码示例 val input sc textFile inputFile val filtered input filter

scala apachespark distributedcomputing

Javascript分布式计算[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案为什么没有任何 Javascript 分布式计算框架项目这个想法对我来说绝对很棒因为客户端就是浏览器可以使用AJAX进行迭代网站管理

javascript AJAX distributedcomputing

在分布式 dask 中，我们如何为每个工作人员选择 --nthreads 和 --nprocs ？

我们如何选择 nthreads and nprocsDask 中每个工人的分布情况我有 3 个工作线程 2 个工作线程有 4 个核心每个核心有一个线程 1 个工作线程有 8 个核心根据输出lscpu每个worker上的Linux命令

distributedcomputing Dask daskdistributed

使用 COMPS 构建 C/C++ 应用程序时出错：硬编码路径

我正在尝试构建一个使用 C C 绑定开发的 COMPASs 应用程序当我构建应用程序时出现以下错误您知道我该如何解决这个问题吗 xxxx xxx c increment gt buildapp increment BSC Barcel

distributedcomputing HPC compss

在 Spark 执行器节点上安装 Python 依赖项的最简单方法？

据我所知您可以将单个文件作为 Python Spark 程序的依赖项发送但是成熟的库例如 numpy 呢 Spark 是否有办法使用提供的包管理器例如 pip 来安装库依赖项或者这必须在 Spark 程序执行之前手动完成如果答案

与共享数据相比，消息传递的性能损失

最近有很多关于不使用锁和使用 Erlang 等消息传递方法的讨论或者关于使用不可变的数据结构例如函数式编程与 C Java 中的比较但我关心的是以下几点 AFAIK Erlang 不保证消息传递消息可能会丢失如果还要担心消息丢失

concurrency Transactions ERLANG distributedcomputing

网络断开后，raft follower如何重新加入？

我在木筏上遇到了问题在论文寻找一种可理解的共识算法扩展版中写道要开始选举追随者会增加其当前的任期并过渡到候选状态第 5 2 节它还说 AppendEntries RPC 和 RequestVot RPC 中的接收者应为 R

distributedcomputing DistributedSystem raft

LRPC 的意义何在？为什么有人想要对同一台机器进行远程过程调用？

根据我对 RPC 远程过程调用的理解它们提供了一种向远程计算机发送函数调用调用等的方法这样做的明显优点是您可以拥有一个在机器集群上运行的单个程序并且可以处理更多请求更多数据等但我很困惑LRPC 轻量级RPC http www

rpc distributedcomputing

如果更新值与接受者发送的最高提案编号不同步，paxos 是否会“忽略”更新值的请求？

这里的标题可能会产生误导我将尽力通过一个例子来解释我的疑问我正在从 wiki 和其他来源阅读有关 paxos 算法的内容 1 想象一下客户端请求更新值的情况 X在下面的示例中已被处理经过一轮 Paxos 后得到一个值Vb之所以被选

distributedcomputing paxos Consensus

大规模分布式系统中的日志文件

我在网格和 HPC 领域做了很多工作对于分布在数百或在某些情况下数千服务器上的系统我们面临的最大挑战之一是分析日志文件当前日志文件本地写入每个刀片上的磁盘但我们也可以考虑使用 UDP Appender 等发布日志信息并集中收集

distributedcomputing HPC

如果leader没有死但是无法接收Kafka中的消息会发生什么？单点故障？

我有 3 个经纪人 3 个分区每个代理都是一个分区的领导者和所有分区的 ISR 假设我已经在端口上运行了代理19092 29092 39092分别 19092 partition 0 29092 partition 1 39092 par

ApacheKafka distributedcomputing

适用于商品 Linux 存储场的最佳分布式文件系统 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我有很多闲置的英特尔 Linux 服务器数百台并且希望将它们用于 Web 托管和文件共享环境中的分布式文件系统这不适用于 HPC 应用程序

Linux filesystems distributedcomputing DistributedSystem

在 Spark 中将简单的一行字符串转换为 RDD

我有一条简单的线 line Hello world 我想将其转换为只有一个元素的 RDD 我努力了 sc parallelize line 但它得到 sc parallelize line collect H e l l o w o r l

python apachespark PySpark distributedcomputing RDD

我什么时候使用像 Paxos 这样的共识算法，什么时候使用像向量时钟这样的算法？

我已经阅读了很多有关保证分布式系统中节点之间一致性的不同策略的文章但我在弄清楚何时使用哪种算法时遇到了一些麻烦我会在什么样的系统中使用矢量时钟之类的东西哪个系统最适合使用 Paxos 之类的东西两者是互相排斥的吗有一个由 2 个节

distributedcomputing Distributed Theory

Spark：同时从具有不同内存/核心配置的单个 JVM 作业启动

问题解释假设您有带有独立管理器的 Spark 集群其中作业通过SparkSession在客户端应用程序中创建客户端应用程序在 JVM 上运行为了提高性能您必须使用不同的配置启动每个作业请参阅职位类型示例 below 问题是您无法

Java apachespark configuration Architecture distributedcomputing

如何在 OS X C 代码中创建异步计时器？

所以这个问题实际上是为什么 time h 在 OS X 和 Linux 上不一样但是我已经接受了这些分歧为了在 Unix 系统上创建计时器我遵循了本教程http www helsinki fi atk unix dec manua

c MacOS system distributedcomputing

Dask 分布式。如何在正在计算的函数中获取任务密钥ID？

我使用 dask distributed 进行的计算包括创建名称包含 UUID4 的中间文件用于标识该工作块 pairs n n n format list1 list2 list3 file path os path join job

python27 Distributed distributedcomputing Dask

自动完成后端

这是一个面试问题设计一个自动完成的分布式后端我会回答如下自动完成是按给定后缀在字典中进行搜索这本词典可能应该被组织为trie 该词典是根据最常见的查询构建的但这是另一回事了现在我假设字典不会经常更改例如每天一次而不是每毫秒一次

为什么 Hadoop 不使用 MPI 来实现？

如果我错了请纠正我但我的理解是 Hadoop 不使用 MPI 进行不同节点之间的通信造成这种情况的技术原因是什么我可以冒险进行一些猜测但我对 MPI 是如何在幕后实现的了解不够无法知道我是否正确想想看我对 Hadoop

TCP Hadoop protocolbuffers MPI distributedcomputing

如何将事件分发到（Wildfly）集群中的所有节点？

当我的进程中运行时间较长的进程的状态时我想通知集群中的所有节点JavaEE 7WebApp 发生变化因此每个节点都可以通过 WebSocket 依次通知其客户端该变化我正在集群环境中使用 Wildfly 10 What JavaEE

jakartaee EJB wildfly distributedcomputing javaee7