需要帮助以更有效的方式设计搜索算法

2024-03-02

我有一个涉及生物领域的问题。现在我有4个非常大的文件（每个有1亿行），但结构相当简单，这些文件的每一行只有2个字段，都代表一种基因。

我的目标是：设计一种有效的算法，可以实现以下目标：在这 4 个文件的内容中找到一个圆圈。圆定义为：

field #1 in a line in file 1 == field #1 in a line in file 2 and
field #2 in a line in file 2 == field #1 in a line in file 3 and
field #2 in a line in file 3 == field #1 in a line in file 4 and
field #2 in a line in file 4 == field #2 in a line in file 1

我想不出一个像样的方法来解决这个问题，所以我现在只是编写了一个 brute-force-stupid-4-layer-nested 循环。我正在考虑按字母顺序对它们进行排序，即使这可能会有所帮助，但很明显，计算机内存不允许我一次加载所有内容。谁能告诉我一种既节省时间又节省空间的好方法来解决这个问题？谢谢！！

首先，我注意到您可以对文件进行排序，而无需一次将其全部保留在内存中，并且大多数操作系统都有一些程序可以执行此操作，通常称为“排序”。通常您可以让它对文件中的字段进行排序，但如果不能，您可以重写每一行以使其按照您想要的方式排序。

鉴于此，您可以通过对两个文件进行排序来连接它们，以便第一个文件在字段 #1 上排序，第二个文件在字段 #2 上排序。然后，您可以为每个匹配项创建一条记录，组合所有字段，并且仅在内存中保存每个文件中的一个块，其中您排序的所有字段都具有相同的值。这将允许您将结果与另一个文件连接 - 四个这样的连接应该可以解决您的问题。

根据您的数据，解决问题所需的时间可能取决于您进行连接的顺序。利用此功能的一种相当幼稚的方法是，在每个阶段从每个文件中抽取一个小的随机样本，并使用它来查看每个可能的连接会产生多少结果，并选择产生最少结果的连接。从大文件中随机抽取 N 个项目的一种方法是，获取文件中的前 N 行，然后，当您到目前为止已读取 m 行时，读取下一行，然后以概率 N/(m + 1) 交换为其保留的 N 行之一，否则将其扔掉。继续阅读，直到读完整个文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

需要帮助以更有效的方式设计搜索算法的相关文章

Swift - 对数组中每个字符串中的字符进行排序

所以这个问题是这个问题的后续问题允许相同字符串的快速字符串排列 https stackoverflow com questions 48976065 swift string permutations allowing the same
Bellman-Ford 算法检测什么？负重还是负循环？

如果给定一个图现在我们要从源头计算最短路径现在如果一条边具有负权重但在到达目的地时有边到后边返回到该边我的意思是如果没有循环那么我们就没有负循环但是here http en wikipedia org wiki Bellman
稀疏矩阵中的最大和子矩形

求一个子矩形中的最大和NxN矩阵可以完成O n 3 正如其他帖子中指出的使用 2 d kadane 算法的时间然而如果矩阵是稀疏的具体来说O n 非零条目可以O n 3 时间被打败了吗如果有帮助的话对于我感兴趣的当前应用程序
交换两个向量之间的值，使两个向量的 max_element 之和最小

这是 Codechef 的问题但请耐心等待 https www codechef com ZCOPRAC problems ZCO16001 https www codechef com ZCOPRAC problems ZCO16001
合并字符数组中的最小重复次数

假设我有两个数组我想合并它们以便合并后的数组具有最小重复次数例如 x x 是重复 arr1 x d d m f m arr2 d d x f f m 唯一的条件是在合并数组中元素来自arr1 and arr2必须出现在各自的订单中a
反转二进制网络

如何反转二元方程以便找到哪些输入将产生给定的输出 Example Inputs i0 through i8 Outputs o0 through o8 Operators XOR AND 二元方程 1 i0 1 i1 0 i2 1 i3
C中的链表按升序排序

我正在为我的 C 编程课程编写一个程序该程序应该为我们提供使用链表的经验作业的最后部分之一要求我们获取一个链接列表并使用我们之前在程序中编写的前置或附加函数按升序对其进行排序 struct lnode int datum struct
Powershell 错误：方法调用...不包含名为“replace”的方法

我想使用 PowerShell 搜索并替换 xml 文件中的字符串我试过这个 gc d test xml replace 1234 xxxx sc d test xml 这对于我的 test xml 文件效果很好我的 test xml
对模板之一的 observableArray 进行排序

我有以下视图模型 function instance id FirstName extend this id ko observable id FirstName ko observable FirstName 我在 observableA
远程linux服务器到远程linux服务器大型稀疏文件复制 - 如何？

我有两台 CentOS 5 4 服务器每台服务器上都安装了 VMware Server 假设我始终对 vmware 虚拟机使用稀疏文件将虚拟机文件从一台服务器复制到另一台服务器的最可靠最快速的方法是什么虚拟机的文件复制起来很痛苦因
在关键服务器上对字符串进行内存受限的外部排序，并合并和计算重复项（数十亿个文件名）

我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中第一部分是GUID 第二部分是名称模板我想计算具有同名模板的文件的数量例如我们有 c521c143
用 Java 创建迷宫求解算法

我被分配了用 Java 创建迷宫求解器的任务这是任务 Write an application that finds a path through a maze The maze should be read from a file A
如何按名字和姓氏排序，然后按 SamAccountName 排序，其中并非所有姓名都有名字和姓氏？

目前我有以下内容来自 LDAP Get context based on currently logged on user PrincipalContext domainContext new PrincipalContext Cont
cordova 使用什么 js“引擎”？

Cordova 使用什么 JS 引擎它是特定于平台的还是跨所有平台的一个标准意味着 iOS 的 safari 和 Android 的 chrome 以及 Windows 可能的 IE 标准或者跨所有平台的 Cordova JS 引擎
32 位数字中 1 的数量

我正在寻找一种在 32 位数字中包含 1 数量的方法之间不使用循环任何人都可以帮助我并向我提供代码或算法吗这样做提前致谢 See Integer bitCount int http java sun com javase 6 doc
使用C标准数学库精确计算标准正态分布的CDF

标准 C 数学库不提供计算标准正态分布 CDF 的函数 normcdf 然而它确实提供了密切相关的函数误差函数 erf 和互补误差函数 erfc 计算 CDF 的最快方法通常是通过误差函数使用预定义常量 M SQRT1 2 来表示 d
正在搜索 Mercurial 存储库 (TortoiseHG)？

有什么方法可以输入特定的文件名例如 xyz txt 并使用 TortoiseHG 在 Mercurial 存储库中搜索该文件的任何签入如果没有为什么不呢这不就是版本控制的用途吗在 Hg Repository Explorer 窗口
检索受“rowspan”影响的行的列索引的最有效方法是什么？

考虑下表 table thead tr th th th A th th B th th C th tr thead tbody tr th 1 th td Apples td td Oranges td td Pears td tr tb
如何将无向图转换为 DAG？

The 维基页面 http en wikipedia org wiki Directed acyclic graph Relation to other kinds of graphs says 任何无向图都可以通过为其顶点选择总顺序并将每
在多线程环境中，Collections.sort 方法有时会抛出 ConcurrentModificationException。列表没有进行结构性修改

package CollectionsTS import java util ArrayList import java util Collections import java util HashSet import java util

随机推荐

Javascript 无法解析相对于当前脚本的工作路径

我有一个脚本在http localhost js foo js需要从文件中生成一个 Web Workerhttp localhost js fooWorker js 我以为我可以做这样的事情 var worker new Worker fo
文本区域编辑器 Redactor。使用 jQuery 插入值

有字段文本区域id tr 使用 HTML 编辑器 Redactor 最新版本尝试按照 API 文档中的描述准确设置字段的值 tr redactor insertText text or tr redactor insertHtml tex
“冻结”张量流中的一些变量/范围：stop_gradient 与传递变量以最小化

我正在尝试实施对抗性神经网络 http arxiv org abs 1406 2661 这需要在交替训练小批量期间冻结图的一个或另一部分 IE 有两个子网 G 和 D G Z gt Xz D X gt Y 其中损失函数G依赖于取决于D
抓取文本然后将该文本提交到特定路径

我想做的是抓取文本然后将该文本提交到接受表单输入 name mykeyword 的特定应用程序路径并且我也希望在浏览器的新选项卡中打开它我做了一些练习但没有运气任何想法 ScanTitle click function var m
拦截html按钮点击

当用户点击 html 按钮时是否有可能拦截我有一个 webviewclient 它加载带有两个按钮的登录页面允许和拒绝我希望您在按下拒绝按钮时进行拦截拒绝和允许具有相同的 basUrl 和 js 执行正确的重定向提前致谢您可能不
在 javascript 中的对象数组中搜索深度嵌套的值

我基本上试图实现对任何给定值的搜索应该在对象键值数组中查找也可以是嵌套对象这是一个例子下面的函数将采用一个对象和一个查询来搜索数组对象键值因此如果找到匹配项它应该从该数组中进行过滤 function searchObj obj
如何用圆圈替换光标，而不是在 p5.js 中将其绘制到画布上？

问题我正在尝试使用 p5 js 创建一个简单的绘图应用程序我想在光标位置显示一个代表画笔大小的圆圈而不是标准光标图像可能的解决方案1 使用替换光标cursor p5 的原生函数为什么它不起作用 The p5光标功能 https p
使用 JavaScript 提交具有新值的表单。（MVC）

给定一个包含以下元素的表单
MacOS：ModuleNotFoundError：没有名为“_ctypes”的模块

我在 pyenv 环境中使用 python 和 pip 但是当我尝试使用 pip 安装 numpy 时 pip install numpy 我收到以下错误有人知道我哪里出错了吗使用缓存的 numpy 1 21 0 zip 收集 nump
获取共享缓存的逻辑 CPU 核心数（L1、L2、L3）

下面是一些 C 代码它使用以下命令检测 Windows 上 L1 L2 和 L3 CPU 缓存的大小 typedef BOOL WINAPI LPFN GLPI PSYSTEM LOGICAL PROCESSOR INFORMATION
错误：使用未分配的局部变量（对于字符串数组）

我正在从 App config 文件中读取连接字符串为此我有以下代码 try string dbnames int counter 0 foreach ConnectionStringSettings connSettings in Co
三.JSL：加载Blender模型需要本地服务器吗？

我正在使用 Three js 开发基于 Web 的 3D WebGL 应用程序我正在尝试使用以下代码加载 Blender 模型 JS 文件 var loader new THREE JSONLoader var jsonLoader ne
SQLAlchemy 在同一事务中删除和插入

我正在使用 SQLAlchemy 并在一个事务中我想要执行以下操作删除满足特定条件的所有记录假设这是Cars color red 现在我想插入满足特定条件的所有汽车例如Cars type Honda 现在假设我的数据库只是一个包含
如何调试 SwiftUI AttributeGraph 循环警告？

我在使用 SwiftUI 的应用程序中收到很多 AttributeGraph 循环警告有什么方法可以调试导致它的原因吗这是控制台中显示的内容 AttributeGraph cycle detected through attribute
创建一个通用 Swift 函数以返回 Core Data 实体数组

警告我对 Swift 和 Core Data 还很陌生我的代码中有几个函数返回特定实体类型的数组 func fetchStores gt Store var stores Store let fetchRequest NSFetchRe
TypeScript：导入的模块类不可见

我正在使用多个模块测试打字稿编译器这些模块将被编译为 AMD 模块我有一个模块测试和一个将使用它的单独文件 test ts export module test use strict export class Person age
相交的矩形

这是一个分析几何类型的问题我不确定我可以将其发布在这里但是我必须想出一个 Java 函数来执行此功能我在页面 swing 容器中有多个矩形我知道现在我需要找到哪些矩形彼此相交这里的一件好事是相交的矩形将始终具有相同的 y 分量并
SQL 选择一列中具有重复值的所有行

我有一个users中包含重复值的表employee id柱子我需要列出具有重复的employee ids 的所有行及其姓名我需要查看所有具有重复项的用户employee id这样我就可以消除哪些值是有效的冲突 SELECT name e
Windows Phone Silverlight 8.1 不支持 Windows.UI.Notifications.ToastNotification API？

我正在尝试验证我的应用程序但出现以下错误发现错误支持的 API 测试检测到以下错误 This API is not supported for this application type Api Windows UI Notifica
需要帮助以更有效的方式设计搜索算法

我有一个涉及生物领域的问题现在我有4个非常大的文件每个有1亿行但结构相当简单这些文件的每一行只有2个字段都代表一种基因我的目标是设计一种有效的算法可以实现以下目标在这 4 个文件的内容中找到一个圆圈圆定义为 field

需要帮助以更有效的方式设计搜索算法

需要帮助以更有效的方式设计搜索算法 的相关文章

随机推荐

热门标签

需要帮助以更有效的方式设计搜索算法的相关文章