计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

2023-12-14

我有两个数据框，df1与参考数据和df2与新数据。对于中的每一行df2，我需要找到最佳（和第二最佳）匹配行df1就汉明距离而言。

I used e1071计算汉明距离的包。两个向量之间的汉明距离x and y可以计算如下：

x <- c(356739, 324074, 904133, 1025460, 433677, 110525, 576942, 526518, 299386,
       92497, 977385, 27563, 429551, 307757, 267970, 181157, 3796, 679012, 711274,
       24197, 610187, 402471, 157122, 866381, 582868, 878)

y <- c(356739, 324042, 904133, 959893, 433677, 110269, 576942, 2230, 267130,
       92496, 960747, 28587, 429551, 438825, 267970, 181157, 36564, 677220,
       711274, 24485, 610187, 404519, 157122, 866413, 718036, 876)

xm <- sapply(x, intToBits)
ym <- sapply(y, intToBits)

distance <- sum(sapply(1:ncol(xm), function(i) hamming.distance(xm[,i], ym[,i])))

结果距离是 25。但是我需要对所有行执行此操作df1 and df2。一个简单的方法需要一个双循环嵌套，看起来非常慢。

有什么想法可以更有效地做到这一点吗？最后我需要附加到df2:

具有行 id 的列df1给出最短距离；
距离最近的一列；
具有行 id 的列df1这给出了第二短的距离；
距离第二短的列。

Thanks.

快速计算两个等长整数向量之间的汉明距离

正如我在评论中所说，我们可以这样做：

hmd0 <- function(x,y) sum(as.logical(xor(intToBits(x),intToBits(y))))

计算之间的汉明距离两个长度相等的整数向量 x and y。这仅使用 R 基，但比e1071::hamming.distance, 因为它是矢量化的！

举个例子x and y在你的帖子中，这给出了 25。（我的另一个答案将展示如果我们想要成对汉明距离，我们应该做什么。)

矩阵和向量之间的快速汉明距离

如果我们想计算单个之间的汉明距离y和多个xs，即向量和矩阵之间的汉明距离，我们可以使用以下函数。

hmd <- function(x,y) {
  rawx <- intToBits(x)
  rawy <- intToBits(y)
  nx <- length(rawx)
  ny <- length(rawy)
  if (nx == ny) {
    ## quick return
    return (sum(as.logical(xor(rawx,rawy))))
    } else if (nx < ny) {
    ## pivoting
    tmp <- rawx; rawx <- rawy; rawy <- tmp
    tmp <- nx; nx <- ny; ny <- tmp
    }
  if (nx %% ny) stop("unconformable length!") else {
    nc <- nx / ny  ## number of cycles
    return(unname(tapply(as.logical(xor(rawx,rawy)), rep(1:nc, each=ny), sum)))
    }
  }

注意：

hmd执行计算逐列。它的设计目的是CPU缓存友好。这样，如果我们想做一些按行计算，我们应该先转置矩阵；
这里没有明显的循环；相反，我们使用tapply().

两个矩阵/数据帧之间的快速汉明距离计算

这就是你想要的。以下功能foo需要两个数据框或矩阵df1 and df2，计算之间的距离df1和每一行df2。争论p是一个整数，显示您想要保留多少个结果。p = 3将保持最小的 3 个距离及其行 iddf1.

foo <- function(df1, df2, p) {
  ## check p
  if (p > nrow(df2)) p <- nrow(df2)
  ## transpose for CPU cache friendly code
  xt <- t(as.matrix(df1))
  yt <- t(as.matrix(df2))
  ## after transpose, we compute hamming distance column by column
  ## a for loop is decent; no performance gain from apply family
  n <- ncol(yt)
  id <- integer(n * p)
  d <- numeric(n * p)
  k <- 1:p
  for (i in 1:n) {
    distance <- hmd(xt, yt[,i])
    minp <- order(distance)[1:p]
    id[k] <- minp
    d[k] <- distance[minp]
    k <- k + p
    }
  ## recode "id" and "d" into data frame and return
  id <- as.data.frame(matrix(id, ncol = p, byrow = TRUE))
  colnames(id) <- paste0("min.", 1:p)
  d <- as.data.frame(matrix(d, ncol = p, byrow = TRUE))
  colnames(d) <- paste0("mindist.", 1:p)
  list(id = id, d = d)
  }

注意：

换位是在开始时根据之前的原因进行的；
a for这里使用了循环。但这实际上是有效的，因为每次迭代都会进行大量计算。它也比使用更优雅*applyfamily，因为我们要求多个输出（行 idid和距离d).

实验

这部分使用小数据集来测试/演示我们的功能。

一些玩具数据：

set.seed(0)
df1 <- as.data.frame(matrix(sample(1:10), ncol = 2))  ## 5 rows 2 cols
df2 <- as.data.frame(matrix(sample(1:6), ncol = 2))  ## 3 rows 2 cols

Test hmd首先（需要转置）：

hmd(t(as.matrix(df1)), df2[1, ])  ## df1 & first row of df2
# [1] 2 4 6 2 4

Test foo:

foo(df1, df2, p = 2)

# $id
#   min1 min2
# 1    1    4
# 2    2    3
# 3    5    2

# $d
#   mindist.1 mindist.2
# 1         2         2
# 2         1         3
# 3         1         3

如果您想附加一些列df2，你知道该怎么做，对吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apply

sapply

tapply

hammingdistance

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离的相关文章

修复 ggplot 中构面中的数据顺序

我在使用 ggplot 绘制数据时遇到问题我无法使每个方面内的数据正确排序我的样本数据是 data lt structure list Parameter c 0 1 0 7 0 0 0 2 0 2 0 7 0 0 0 1 0 3 0
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
使用 R 读取和转换二进制原始数据

我有一个file https drive google com file d 0BxMpk0nhnJy6SFhxd2xuMzJYYlk edit usp sharing其中包含原始二进制数据和 ascii 它包含一个时间戳和一个代表速度的
按具有作业的组划分的 R 分位数

我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数因此
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
使用 stargazer 分析包含时间序列的数据帧

我有一个面板数据集共 10 个观测值和 3 个变量观测值 30 的数量 10 行国家地区 2 列迁移参数相应年份的 1 列可以这么说我的数据框由 3 个年度数据框组成我该如何申请观星者考虑到它是一个面板数据集所以最大 N
分组和计数以获得接近值

我想计算每country的次数status is open以及次数status is closed 然后计算closerate per country Data customer lt c 1 2 3 4 5 6 7 8 9 country
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
将天气 iframe 嵌入到 Shiny Dashboard 中

我正在尝试将 Forecast io 的天气预报嵌入到闪亮的仪表板中我最初在使用符号时遇到了麻烦但看到一篇文章提供了如何使用特殊字符格式化 HTML 代码的示例但是当我运行该应用程序时我看到一个简单的未找到即使我知道该链接有
使用starts_with() 将 NA 替换为 0

我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点我已经看到了有关 SO 的其他几个问题但是它们都需要使用特
使用 data.table 进行分组并选择最短日期

My Data df1 lt structure list ID c A A A B B C c1 1 6 c2 1 6 myDate c 01 01 2015 02 02 2014 03 01 2014 09 09 2009 10 10
使用管道语法处理模型列表

我经常喜欢拟合和检查与 R 数据框中的两个变量相关的多个模型我可以使用如下语法来做到这一点 require tidyverse require broom models lt list hp exp cyl hp cyl map df m
连接多个用户的 R 闪亮会话

最小可重现示例 library shiny ui lt fluidPage actionButton button1 Run 1 actionButton button2 Run 2 server lt function session i
R texreg：如何选择要显示的 gof 统计信息？

我正在使用 texreg 通过 plm 生成面板回归的输出表我想抑制所有 gof 统计数据的输出这不是显示 R2 adj R2 和 N 我只想显示 adj R2 有谁知道一个简单的方法来做到这一点好吧这实际上很简单只需在调用中包含
如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
如何将带有观察计数的标签添加到 stat_summary ggplot？

我有一个数据集例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
R data.table 连接不等式条件

我想使用 data table 包根据多个不等式条件对数据进行子集化 data table 手册中的示例展示了如何使用字符变量执行此操作但不显示数字不等式我还了解了如何使用子集函数来执行此操作但我真的很想利用 data table 二
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt

随机推荐

是什么导致了这个属性错误？

我一直在寻找解决方案但还没有找到所以这是我的代码 class snakeGame def init self pygame init self isRunning False self surface None self drawLis
RNetLogo 无法在 Mac Yosemite 上运行

我刚刚尝试过此操作但收到此错误消息关于如何修复它有什么想法吗我使用的是R版本3 1 1 RNetLogo 1 0 1 平台是x86 64 apple darwin13 1 0 64位 Java 7 update 60 Sys sete
如何使用 CasperJS 通过自定义 POST 请求下载文件

我正在编写一个爬虫需要使用 POST 下载表单请求后生成的文件我已成功将 this download url POST Params 用于常规表单其中一个网站有许多字段使用相同的名称从而使我无法使用常规下载方法在尝试了很多事情之后
是否有理由担心表中的列顺序？

我知道你可以用 FIRST 和 AFTER 来改变 MySQL 中的列顺序但是你为什么要费心呢由于好的查询在插入数据时会显式命名列因此真的有理由关心列在表中的顺序吗列顺序对我调优的一些数据库包括 Sql Server Oracle
如何将Recyclerview项目保持在同一位置？

我有以下问题我从 Fragment 类中填充 Recyclerview 到目前为止一切顺利然而当我测试我的应用程序并上下滚动填充的回收器列表时每个项目的内容都会发生变化也就是它们会被回收如何保存每个项目的位置并在滚动后将其内容
“未找到请求的实体。” - Apps 脚本执行 API 错误

我们有一个安装在五个 G Suite 帐户中的 Apps 脚本我正在从 Google App Engine 中部署的 Java 代码调用应用程序脚本我已将五个刷新令牌存储在属性文件中并在调用 Apps 脚本之前以循环方式将它们设置在
Flask-sqlalchemy：连接两个数据库中的表（不同的绑定键）时遇到问题。出现错误 1146（见下文）

我正在使用 python 和 sqlalchemy 构建 Flask Restful API 并且尝试连接来自不同数据库的两个表看来我一次只能搜索一个数据库中的表我错过了什么吗 from flask sqlalchemy import
通配符匹配严格，但找不到元素“resources”的声明

我知道这是重复的你们会因此责备我但在阅读所有帖子后我没有得到正确的解决方案我正在尝试在 Spring Source Tool Suite 中构建 Spring 模板应用程序我收到以下错误 org springframework be
QT + OpenSSL + 安卓

我想设置 OpenSSL 库对于我的 Qt 项目在 Linux 下它可以与内置的 OpenSSL 一起正常工作我将其添加到我的 pro 文件中 LIBS lcrypto PKGCONFIG openssl 但是如果我在Android
CakePHP hasAndBelongsToMany (HABTM) 删除加入记录

我在用户和位置之间有 HABTM 关系两种型号都有合适的 hasAndBelongsToMany变量集当我管理用户位置时我想删除用户和位置之间的关联但不删除位置显然这个位置可能属于其他用户我希望以下代码仅删除提供 HABTM 关
如何处理android中的复选框ischecked和unchecked事件

我是 android 新手我制作了一个简单的数学应用程序我使用复选框来选择正确的选项但问题是答案选项不仅是一个而且是两个三个意味着多重选择所以我使用复选框 chkOption setOnCheckedChangeListener
Swift - 检查 url asset 是否有声音

我的屏幕破裂了而且我的手机没有声音功能我用相机录制了视频当我选择视频网址时didFinishPickingMediaWithInfo我尝试检查视频是否有声音但是player currentItem asset tracks说视频确实
Java Mail：在没有 SSL 的情况下在端口 25 上发送电子邮件时出现 SSLHandshakeException

尽管我尝试在不使用 SSL 的情况下在端口 25 上发送电子邮件但我收到了 SSLHandshakeException 下面您可以看到 javax mail Session 和 SSLHandshakeException 打印的调试消息
浮动 div，100% 高度

t webkit tap highlight color rgba 0 0 0 0 margin 0 padding 0 list style none 页脚渐变 position relative width 100 overflow h
我可以创建一个接受 C# 中两种不同类型的泛型方法吗

我可以创建一个接受两种类型的通用方法吗这attributeType and ts attributeType尽管它们确实具有相同的字段但不共享任何公共父类这可能吗或者有什么方法可以实现这一点 private static void
淡出内容 A 的 div，淡入内容 B 的同一 div

我有以下内容 function ajaxloader click function event var target this attr href window location hash target conteudoInscricao
CSS 定位 70-30，带内联块

我正在定位main bar and side bar with 70 30比例如下 JSFIDDLE main bar side bar position relative margin 0 padding 0 outline 0 disp
如何根据邮政编码在 Woocommerce 中隐藏付款方式

在此 woocommerce 设置中我有 2 种付款方式 Paypal and 货到付款现在怎么可以货到付款仅对某些邮政编码隐藏禁用这是我在 Gist 上找到的代码 Disable gateway based on country
OpenSSL 是否允许每个进程使用多个 SSL_CTX，一个 SSL_CTX 用于服务器会话，另一个 SSL_CTX 用于客户端会话？

我有一个 Linux 进程需要充当 SSL 服务器接受和服务来自其他客户端的连接但也需要在同一进程中启动与其他 SSL 服务器的客户端会话我打算使用两个 SSL CTX new 函数调用创建两个单独的 SSL CTX 句柄一个使用
计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

我有两个数据框 df1与参考数据和df2与新数据对于中的每一行df2 我需要找到最佳和第二最佳匹配行df1就汉明距离而言 I used e1071计算汉明距离的包两个向量之间的汉明距离x and y可以计算如下 x lt c 356

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离 的相关文章

随机推荐

热门标签

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离的相关文章