Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Apache Spark 中的混洗与非混洗合并
在将 RDD 写入文件之前执行以下转换时 它们之间有什么区别 合并 1 随机播放 true 合并 1 随机播放 假 代码示例 val input sc textFile inputFile val filtered input filter
scala
apachespark
distributedcomputing
Javascript分布式计算[关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 为什么没有任何 Javascript 分布式计算框架 项目 这个想法对我来说绝对很棒 因为 客户端就是浏览器 可以使用AJAX进行迭代 网站管理
javascript
AJAX
distributedcomputing
在分布式 dask 中,我们如何为每个工作人员选择 --nthreads 和 --nprocs ?
我们如何选择 nthreads and nprocsDask 中每个工人的分布情况 我有 3 个工作线程 2 个工作线程有 4 个核心 每个核心有一个线程 1 个工作线程有 8 个核心 根据输出lscpu每个worker上的Linux命令
distributedcomputing
Dask
daskdistributed
使用 COMPS 构建 C/C++ 应用程序时出错:硬编码路径
我正在尝试构建一个使用 C C 绑定开发的 COMPASs 应用程序 当我构建应用程序时 出现以下错误 您知道我该如何解决这个问题吗 xxxx xxx c increment gt buildapp increment BSC Barcel
distributedcomputing
HPC
compss
在 Spark 执行器节点上安装 Python 依赖项的最简单方法?
据我所知 您可以将单个文件作为 Python Spark 程序的依赖项发送 但是成熟的库 例如 numpy 呢 Spark 是否有办法使用提供的包管理器 例如 pip 来安装库依赖项 或者这必须在 Spark 程序执行之前手动完成 如果答案
与共享数据相比,消息传递的性能损失
最近有很多关于不使用锁和使用 Erlang 等消息传递方法的讨论 或者关于使用不可变的数据结构 例如函数式编程与 C Java 中的比较 但我关心的是以下几点 AFAIK Erlang 不保证消息传递 消息可能会丢失 如果还要担心消息丢失
concurrency
Transactions
ERLANG
distributedcomputing
网络断开后,raft follower如何重新加入?
我在木筏上遇到了问题 在论文 寻找一种可理解的共识算法 扩展版 中写道 要开始选举 追随者会增加其当前的 任期并过渡到候选状态 第 5 2 节 它还说 AppendEntries RPC 和 RequestVot RPC 中的接收者应为 R
distributedcomputing
DistributedSystem
raft
LRPC 的意义何在?为什么有人想要对同一台机器进行远程过程调用?
根据我对 RPC 远程过程调用 的理解 它们提供了一种向远程计算机发送函数调用 调用等的方法 这样做的明显优点是 您可以拥有一个在机器集群上运行的单个程序 并且可以处理更多请求 更多数据等 但我很困惑LRPC 轻量级RPC http www
rpc
distributedcomputing
如果更新值与接受者发送的最高提案编号不同步,paxos 是否会“忽略”更新值的请求?
这里的标题可能会产生误导 我将尽力通过一个例子来解释我的疑问 我正在从 wiki 和其他来源阅读有关 paxos 算法的内容 1 想象一下客户端请求更新值的情况 X在下面的示例中 已被处理 经过一轮 Paxos 后 得到一个值Vb之所以被选
distributedcomputing
paxos
Consensus
大规模分布式系统中的日志文件
我在网格和 HPC 领域做了很多工作 对于分布在数百 或在某些情况下数千 服务器上的系统 我们面临的最大挑战之一是分析日志文件 当前日志文件本地写入每个刀片上的磁盘 但我们也可以考虑使用 UDP Appender 等发布日志信息并集中收集
distributedcomputing
HPC
如果leader没有死但是无法接收Kafka中的消息会发生什么?单点故障?
我有 3 个经纪人 3 个分区 每个代理都是一个分区的领导者和所有分区的 ISR 假设我已经在端口上运行了代理19092 29092 39092分别 19092 partition 0 29092 partition 1 39092 par
ApacheKafka
distributedcomputing
适用于商品 Linux 存储场的最佳分布式文件系统 [关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我有很多闲置的英特尔 Linux 服务器 数百台 并且希望将它们用于 Web 托管和文件共享环境中的分布式文件系统 这不适用于 HPC 应用程序
Linux
filesystems
distributedcomputing
DistributedSystem
在 Spark 中将简单的一行字符串转换为 RDD
我有一条简单的线 line Hello world 我想将其转换为只有一个元素的 RDD 我努力了 sc parallelize line 但它得到 sc parallelize line collect H e l l o w o r l
python
apachespark
PySpark
distributedcomputing
RDD
我什么时候使用像 Paxos 这样的共识算法,什么时候使用像向量时钟这样的算法?
我已经阅读了很多有关保证分布式系统中节点之间一致性的不同策略的文章 但我在弄清楚何时使用哪种算法时遇到了一些麻烦 我会在什么样的系统中使用矢量时钟之类的东西 哪个系统最适合使用 Paxos 之类的东西 两者是互相排斥的吗 有一个由 2 个节
distributedcomputing
Distributed
Theory
Spark:同时从具有不同内存/核心配置的单个 JVM 作业启动
问题解释 假设您有带有独立管理器的 Spark 集群 其中作业通过SparkSession在客户端应用程序中创建 客户端应用程序在 JVM 上运行 为了提高性能 您必须使用不同的配置启动每个作业 请参阅职位类型示例 below 问题是您无法
Java
apachespark
configuration
Architecture
distributedcomputing
如何在 OS X C 代码中创建异步计时器?
所以这个问题实际上是 为什么 time h 在 OS X 和 Linux 上不一样 但是 我已经接受了这些分歧 为了在 Unix 系统上创建计时器 我遵循了本教程http www helsinki fi atk unix dec manua
c
MacOS
system
distributedcomputing
Dask 分布式。如何在正在计算的函数中获取任务密钥ID?
我使用 dask distributed 进行的计算包括创建名称包含 UUID4 的中间文件 用于标识该工作块 pairs n n n format list1 list2 list3 file path os path join job
python27
Distributed
distributedcomputing
Dask
自动完成后端
这是一个面试问题 设计一个自动完成的分布式后端 我会回答如下 自动完成是按给定后缀在字典中进行搜索 这本词典可能应该被组织为trie 该词典是根据最常见的查询构建的 但这是另一回事了 现在我假设字典不会经常更改 例如每天一次而不是每毫秒一次
为什么 Hadoop 不使用 MPI 来实现?
如果我错了 请纠正我 但我的理解是 Hadoop 不使用 MPI 进行不同节点之间的通信 造成这种情况的技术原因是什么 我可以冒险进行一些猜测 但我对 MPI 是如何 在幕后 实现的了解不够 无法知道我是否正确 想想看 我对 Hadoop
TCP
Hadoop
protocolbuffers
MPI
distributedcomputing
如何将事件分发到(Wildfly)集群中的所有节点?
当我的进程中运行时间较长的进程的状态时 我想通知集群中的所有节点JavaEE 7WebApp 发生变化 因此每个节点都可以通过 WebSocket 依次通知其客户端该变化 我正在集群环境中使用 Wildfly 10 What JavaEE
jakartaee
EJB
wildfly
distributedcomputing
javaee7
1
2
3
4
»