分布式分析系统数据一致性的架构设计

2023-12-21

我正在重构一个将进行大量计算的分析系统，并且我需要一些关于可能的架构设计的想法来解决我面临的数据一致性问题。

当前架构

我有一个基于队列的系统，其中不同的请求应用程序创建最终由工作人员使用的消息。

Each "请求应用程序“将大型计算分解为较小的部分，这些部分将被发送到队列并由workers.

当所有的部分都完成后，原始的“请求应用程序”将巩固成果。

另外，workers使用来自中央数据库 (SQL Server) 的信息来处理请求 (重要提示：工作人员不会更改数据库上的任何数据，只会使用它).

Problem

好的。到目前为止，一切都很好。当我们包含更新数据库信息的 Web 服务时，问题就出现了。这种情况随时可能发生，但至关重要的是，源自同一“请求应用程序”的每个“大型计算”都能在数据库中看到相同的数据。

例如：

App A生成消息A1和A2，并将其发送到队列
Worker W1选取消息 A1 进行处理。
Web 服务器更新数据库，从状态更改S0 to S1.
Worker W2获取消息A2进行处理

我只是不能让工作人员 W2 使用数据库的状态 S1。为了使整个计算保持一致，应该使用之前的 S0 状态。

Thoughts

A 锁图案以防止 Web 服务器在有工作人员使用数据库中的信息时更改数据库。
- cons：锁定可能会持续很长时间，因为不同“请求应用程序”的计算形式可能会重叠（A1、B1、A2、B2、C1、B3 等）。
Create 新层数据库和工作人员之间（通过 req.app 控制数据库缓存的服务器）
- cons：添加另一层可能会带来巨大的开销（也许？），而且这是一项繁重的工作，因为我必须重写工作人员的持久性（大量代码）。

我正在等待第二种解决方案，但对此不太有信心。

有什么绝妙的想法吗？我是否设计错误，或者遗漏了什么？

OBS:

这是一个巨大的 2 层遗留系统（C# 语言），我们正在尝试以最少的努力演变成一个更具可扩展性的解决方案可能的。
每个工作人员可能在不同的服务器上运行。

你可以版本化你的数据库吗？

假设请求应用程序用 ct1 标记计算的开始。现在，此计算生成的每条消息都带有相同的时间戳。

而且每个数据库更新都会用更新时间标记数据库状态。因此，状态 S0 在时间 t0 上，状态 S1 在时间 t1 上，等等。

现在，当工作人员收到消息时，它需要获取更新时间小于或等于消息时间的最大值的数据库状态。在您的示例中，如果 A1 和 A2 都带有 ct1 标记，并且 t1 > ct1，则两个工作人员都将检索 S0 而不是 S1。

这当然意味着您需要在数据库中保存多个版本。如果您知道计算必须在某个时间窗口后完成，您可以在一段时间后清理这些版本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sqlserver

Architecture

MessageQueue

Distributed

distributedcaching

分布式分析系统数据一致性的架构设计的相关文章

当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
让 Hibernate 和 SQL Server 与 VARCHAR 和 NVARCHAR 良好配合

我目前正在大型数据库的某些表中启用 UTF 8 字符这些表已经是 MS SQL 类型 NVARCHAR 此外我还有几个使用 VARCHAR 的字段 Hibernate 与 JDBC 驱动程序的交互存在一个众所周知的问题例如参见在 h
Spring Batch 死锁 - 无法增加身份；嵌套异常是 com.microsoft.sqlserver.jdbc.SQLServerException

我们正在将 Spring Batch 应用程序从 Oracle DB 迁移到 Azure SQL Server 我在尝试执行时收到以下错误两个不同的工作同时更新不同的表但使用相同的公共 BATCH 表引起原因 org springfra
SQL Server 2012：有条件地增加计数器用户 ROW_NUMBER()

我正在尝试申请ROW NUMBER 根据特定条件增加计数器我的数据如下所示目标计数器是Prep column id DSR PrepIndicator Prep 1662835 1 1 1 1662835 14 2 2 1662835
使用 MS Access 链接表连接到 SQL Server 后端时是否可能发生 SQL 注入

我一直在对此进行一些研究但到目前为止还是一片空白情况是这样的我正在开发一个链接到 SQL Server 后端的 MS Access 前端我在某种程度上使用 Access 中的链接表表单访问 SQL DB 这样当用户更新表单中的值
分组和切换列和行

我不知道这是否会被正式称为枢轴但我想要的结果是这样的 Alex Charley Liza 213 345 1 23 111 5 42 52 2 323 5 23 1 324 5 我的输入数据采用这种形式 Apt Name
一个表可以有多个主键吗？

我现在很困惑也许你可以帮助我更好地理解这个问题即一个表可以有两个主键如果是那么如何如果没有那为什么您询问是否可以有多个主键field你当然可以您只能有一个主键但它可以包含唯一标识行所需的任意数量的列创建表时使用类似这样的
SQL Server：将表达式转换为数据类型 bigint 时出现算术溢出错误

这是我的查询顺序 SELECT CASE WHEN BarCode IS NOT NULL AND ExternelBarCode IS NULL THEN BarCode WHEN BarCode IS NULL AND Externel
在 C# 中执行基于存储过程的查询后，如何重新使用 CommandText 的 SqlCommand 对象？

我有一个示例代码 aCommand CommandType CommandType StoredProcedure aCommand Parameters AddWithValue book id bookID aCommand Param
为什么我的代码会产生错误：该语句没有返回结果集[重复]

这个问题在这里已经有答案了我正在从 Microsoft SQL Server Studio 执行以下查询该查询工作正常并显示结果 SELECT INTO temp table FROM md criteria join WHERE us
如何在不同的分辨率/屏幕上提供相同的应用程序

Scenario 您需要在不同的屏幕上展示相同的应用程序假设标准的 15 英寸 17 英寸便携式 10 英寸和移动 4 英寸可能在不同的分辨率下工作 Question 您是否尝试采用一种根据可用空间重新排列的流动布局或者您是否滚动
SQL Server 2008。允许远程连接吗？

我在 Windows XP Pro 机器上安装了 SQL Server 2000 和 2008 我可以在本地连接到两个数据库实例从另一个机器 Windows 7 机器中我可以连接到第一个机器上的 SQL 2000 实例但无法使用本地
SQL Server使用in关键字传递字符串数组查询

我认为 IN 子句不能接受具有多个值的绑定参数 Oracle 不能需要几分钟查询是 declare setting varchar max set setting Sales Entry Grid Cursor Customer Man
Microsoft SQL：CASE WHEN 与 ISNULL/NULLIF

除了可读性之外在防止 SQL 中的除以 0 错误时使用 CASE WHEN 语句与 ISNULL NULLIF 相比还有什么显着的好处吗 CASE WHEN BeginningQuantity BAdjustedQuantity 0 T
如何在 SQL Server 中不循环更新列？

出于性能角度的考虑我只需要删除循环并使用一些联接或其他解决方案来更新 Result 表中的数据并获得循环返回的相同结果标量函数 CREATE FUNCTION MultiplyerScl a INT b INT RETURNS INT
SQL Server 中的 FIFO 查询

我正在构建一个库存管理应用程序c with SQL server 我想做一个FIFO从我的表查询我以可变价格购买了相同的产品之后我卖掉了其中一些我想根据先进先出进行查询BatchDate柱子所以我想通过PurchasePrice
更改表添加列并在同一条件 IF 语句中更新新列

我正在尝试添加列并在同一 if 语句中更新它 BEGIN TRAN IF NOT EXISTS SELECT 1 FROM sys columns WHERE Name N Code AND Object ID Object ID N Te
计算2个日期之间每个日期的记录数

我必须创建一个查询来返回多轴图表的结果我需要计算为 2 个日期之间的每个日期创建的 ID 数量我试过这个 DECLARE StartDate datetime2 7 11 1 2020 EndDate datetime2 7 2 22
如何使用 php 在 sql 查询中转义引号？

我有一个疑问 sql SELECT CustomerID FROM tblCustomer WHERE EmailAddress addslashes POST username AND Password addslashes POST p
替换字符串中的多个字符，而不使用任何嵌套替换函数

我的表中存储了一个方程我一次获取一个方程并希望将所有运算符替换为任何其他字符输入字符串 N 100 6858 6858 N 100 0 2 N 35 运算符或模式替换字符输出字符串 N 100 6858 6858 N 100 0

随机推荐

如何检查 Twig/Symfony2 中是否存在翻译项？

这是我用于打印侧边栏项目的宏每个title属性正在构建寻找 tip route项目在messages it yml 即使反式物品不存在Twig 总是返回传递给的字符串trans筛选例如 tip dashboard Dashboard 模
如何访问 app/assets/* 文件中控制器的变量

我使用 Rails 3 1 In my app controllers locations controller rb我声明一个 location变量 location Location find params id 我有一个文件 app
枚举类

我偶然发现了以下模式想知道它是否有一个名字 An enum定义具体类 enum Fruits eApple eBanana 还有一个模板化的struct提供接口 template lt Fruit T gt struct SomeFrui
spring security注销导致NullPointerException

一段时间以来我一直在尝试了解 spring security 除了logout方面在查看有关 SO 的其他问题时我觉得他们中的大多数人都面临着与会话未终止相关的问题另一方面我面临着完全不同的麻烦我的安全 XML 文件配置如下
无法在开发模式下使用 Facebook 应用创建 Facebook 广告素材

我正在开发一个用于创建 Facebook 广告的 FB 应用程序过去我能够在开发模式下调试整个 FB 广告创建过程但突然我开始收到此错误但我无法找到相关文档 Request https graph facebook com v2 2
布尔实例对象是否为真？

我一直在业余时间学习 Java 有一个我似乎无法弄清楚的快速问题此代码返回 true Boolean testBool true Boolean test testBool instanceof Object System out pri
WP 管理速度极慢

我正在处理的站点这是一个多站点的 WP 后端需要大约 25 秒才能加载直到昨天一切都工作正常前端仍然工作得很好同一服务器上的所有其他站点都运行得同样好因此这一定是 WP 后端问题我不记得到底是什么变化导致它如此缓慢我记得最近
Python CSV - 需要对按另一列中的值分组的列中的值进行求和

我的 csv 中有数据需要解析看起来像 Date Name Subject SId Mark 2 2 2013 Andy Cole History 216351 98 2 2 2013 Andy Cole Maths 216351 87
在C语言中如何读取scanf直到EOF？

我有这个但是一旦它到达假定的 EOF 它就会再次重复循环和 scanf int main void char words 16 while scanf 15s words 1 printf s n words return 0 Try w
在 MVC Web 应用程序上实施 FCM（Firebase 云消息传递）

我正在开发一个 MVC Web 应用程序该应用程序将为人们提供一个销售产品的平台并允许人们搜索查看这些产品我不知道 Firebase FCM 可以提供哪些功能所以我的两个问题是是否可以将 FCM 添加到 MVC 应用程序以便在事
Android应用程序实时录制声音并识别频率

我需要开发一个应用程序来使用手机麦克风实时记录频率然后显示它们以文本形式我在这里发布我的代码 FFT 和复数类已从http introcs cs princeton edu java 97data FFT java html http
为什么使用archiver.file模块压缩文件时出现“队列关闭错误”

我正在尝试使用 archiver 在 Node js 中以 zip 形式下载多个文件这是我的代码 exports downloadAllFiles function req res var archive archiver zip gzi
使用 ADO.NET 时如何最好地显示进度信息？

我想在执行可能很长的数据库操作时向用户显示详细的进度信息具体来说当插入更新可能约为数百 KB 或 MB 的数据时目前我使用内存中的 DataTables 和 DataRows 然后通过 TableAdapter Update 调用
Unix 上的文件修改时间（秒）

在Unix上有没有命令可以显示文件的修改时间精确到秒在 Linux 上这可以通过 stat c y 轻松完成它返回类似的内容2009 11 27 11 36 06 000000000 0100 我在 Unix 上没有找到类似的东西
为什么 Perl 在释放大数组时不进行垃圾回收内存？

我知道 Perl 使用基于引用计数的垃圾收集当变量超出范围时引用计数会递减如果 REFcount 变为 0 则会取消分配内存但是当我跟踪如下所示的一个小示例时我无法发现取消分配的情况 print start sub func m
startIntentSenderForResult 已弃用 Android

代码片段 private fun requestHint val hintRequest HintRequest Builder setPhoneNumberIdentifierSupported true build val creden
从 Google 服务帐户模拟 Azure 服务主体

我想使用 Google 服务帐户 JWT 令牌获取 Azure 服务主体 SP 的临时凭据这是从 GKE 工作负载调用 Azure API 所必需的而无需在 GKE 中存储长期 SP 凭据这种联合对于 GCP gt Azure 是否可
调用 CLR 存储过程

简而言之在哪里可以找到 C VB 客户端示例代码该代码使用一些 argumnet 如 sqlxml 数据调用 CLR 存储过程并接收数据读取器或其他形式的结果另外如何定期接收通过 SQlContext Pipe Send 方法发送
为什么 Seq.newBuilder 返回 ListBuffer？

看着 val sb Seq newBuilder Int println sb getClass getName sb 1 sb 2 val s sb result println s getClass getName 输出是 scala
分布式分析系统数据一致性的架构设计

我正在重构一个将进行大量计算的分析系统并且我需要一些关于可能的架构设计的想法来解决我面临的数据一致性问题当前架构我有一个基于队列的系统其中不同的请求应用程序创建最终由工作人员使用的消息 Each 请求应用程序将大型计算分解为较小的

分布式分析系统数据一致性的架构设计

分布式分析系统数据一致性的架构设计 的相关文章

随机推荐

热门标签

分布式分析系统数据一致性的架构设计的相关文章