distributedcomputing

使用阿姆达尔定律计算性能增益

我对阿姆达尔定律来确定性能增益和串行应用程序部分感到困惑但未能弄清楚这一点已知的是以下内容 S N Speedup factor for N CPU s N Number of CPU s f The part of the progr

Algorithm parallelprocessing distributedcomputing parallelismamdahl

Lamport同步算法讨论中的“偏序”和“全序”是什么意思？

我的理解是部分排序和全排序是两组规则部分排序有三个规则 1 如果a和b是同一进程中的两个事件并且a出现在b之前则a gt b 2 3 那什么是全序呢为何如此命名这些名称源于这样一个事实在部分顺序中并非所有元素都具有可比性而

Algorithm synchronization distributedcomputing systemclock

Python 分布式计算（作品）

我正在使用旧线程发布试图解决相同问题的新代码什么构成了安全的泡菜 this http docs python org library crypto html sock py from socket import socket from s

python Sockets multiprocessing pickle distributedcomputing

Apache Spark join 操作的扩展能力较差

我在 Apache Spark 上运行 join 操作发现没有弱可扩展性如果有人能解释这一点我将不胜感激我创建两个数据帧 a b 和 a c 并通过第一列连接数据帧我为一对一连接生成数据帧值另外我使用相同的分区器来避免随机

performance scala apachespark distributedcomputing

Spark CollectAsMap

我想知道collectAsMap在Spark中是如何工作的更具体地说我想知道所有分区的数据聚合将在哪里进行聚合发生在 master 或workers 中在第一种情况下每个工作人员将其数据发送到主设备上当主设备从每个工作人员收集数

apachespark distributedcomputing worker

如何获得CRC64分布式计算（利用其线性特性）？

我需要对存储在分布式文件系统上的相当大的文件进行哈希处理我能够以比整个文件更好的性能处理文件的某些部分因此我希望能够计算各部分的哈希值然后对其求和我在想CRC64作为哈希算法但我不知道如何使用其理论上的线性函数属性以便我可以

Java c Hash distributedcomputing CRC

Spark 中的任务是什么？ Spark Worker如何执行jar文件？

阅读了一些文档后http spark apache org docs 0 8 0 cluster overview html http spark apache org docs 0 8 0 cluster overview html 我有

apachespark distributedcomputing

有 BOINC 编程经验吗？

我被 BOINC 吸引是因为我的一个小项目我听说过 BOINC 但没有太多了解它的工作原理主要是因为我现在专注于其他优先事项我想知道的是你们中是否有人真正尝试过为 BOINC 编程并让程序在分布式计算机网络上运行我特别对以下问题感

distributedcomputing boinc

C# 中的分布式计算

我有一个特定的 DLL 其中包含一些语言处理类和方法其中一种方法获取一个单词作为参数并进行大约 3 秒的一些计算并将相关结果保存在 SQL Server 数据库上我想在 900k 字上运行这个 DLL 方法并且这项工作可能每周重复

c NET distributedcomputing

当你真的搞砸了分布式系统的设计时该怎么办？

相关问题打破集中式数据库最有效的方法是什么 https stackoverflow com questions 2356805 what is the most efficient way to break up a centralise

distributedcomputing

Spark 中的总和变坏了

基于KMeans 的不平衡因子 https stackoverflow com questions 39235576 unbalanced factor of kmeans 我试图计算不平衡因子但失败了 RDD 的每个元素r2 10是一对

python function apachespark machinelearning distributedcomputing

Spark 1.0.2（以及 1.1.0）挂在分区上

我在 apache Spark 中遇到了一个奇怪的问题希望得到一些帮助从 hdfs 读取数据并进行一些从 json 到对象的转换后下一阶段处理所述对象在处理 2 个分区总共 512 个分区后失败这种情况发生在大型数据集上

Hadoop Bigdata Distributed distributedcomputing apachespark

如何调试大型服务器端分布式Java应用程序

这是我的问题我正在尝试调试 Apache Cassandra 并了解应用程序的流程 IE 当客户端发送请求例如 put 时会调用哪些方法以及系统内部如何工作所以这就是我的想法在 cassandra 代码中编写一个 main 方法

Java debugging Log4j distributedcomputing

“最终一致性”与“强最终一致性”与“强一致性”？

我遇到了强最终一致性的概念它是否应该比最终一致性强但比强一致性弱有人可以用适用的例子解释这三个概念之间的区别吗 http en wikipedia org wiki Eventual consistency Strong E

distributedcomputing

什么是spark.driver.maxResultSize？

The ref http spark apache org docs latest configuration html says 每个分区的所有分区的序列化结果总大小的限制激发行动例如收集应至少为 1M 或 0 无限如果总大小超过

apachespark configuration Driver Communication distributedcomputing

Celery：长期专用的整体任务与短期的多个任务

在我的解决方案中我使用分布式任务来监视硬件实例一段时间例如 10 分钟当以下情况时我必须做一些事情我开始这个监控会话我完成了这个监控会话可能在监控会话期间在整个会话 10 分钟内运行单个任务并执行所有这些操作是否安全或者

python rabbitmq Celery distributedcomputing djangocelery

使用 Zookeeper 而不仅仅是数据库来管理分布式系统的目的是什么？

我正在学习Zookeeper 到目前为止我不明白将其用于数据库无法解决的分布式系统的目的我读过的用例是通过让 Zookeeper 客户端读写 Zookeeper 服务器来为分布式系统实现锁屏障等不能通过读写数据库来实现同样的目的

Java apachezookeeper distributedcomputing

坏元素的映射

我正在实施k means我想创建新的质心但映射遗漏了一个元素然而当K值较小例如 15 效果会很好基于此code http www cs berkeley edu rxin ampcamp ecnu machine learning

Java scala apachespark distributedcomputing RDD

使用 MPI 分散不同大小的矩阵块

假设所有矩阵都按行优先顺序存储说明该问题的一个示例是将 10x10 矩阵分布在 3x3 网格上以便每个节点中的子矩阵的大小如下所示 3x3 3x3 3x4 3x3 3x3 3x4 4x3 4x3 4x4 我在 Stackoverflow

c parallelprocessing MPI distributedcomputing messagepassing

缓存和持久化有什么区别？

按照RDD坚持两者有什么区别cache and persist 在火花 With cache 您仅使用默认存储级别 MEMORY ONLY for RDD MEMORY AND DISK for Dataset With persist

apachespark distributedcomputing RDD