R 记录链接标识

2023-12-12

我正在 R 中使用 RecordLinkage 库。 我有一个包含 id、姓名、电话、邮件的数据框

我的代码如下所示:

ids = data$id
pairs = compare.dedup(data, identity=ids, blockfld=as.list(2,3,4))

问题是我的结果输出中的 id 不一样 所以如果我有这些数据:

id   Name     Phone    Mail
233  Nathali  2222     nathal[email protected]
435  Nathali  2222 
553  Jean     3444     [email protected]

在我的结果输出中我会得到类似的东西

id1 id2
1   2

代替

id1 id2
233 435 

我想知道是否有办法保留 ids 而不是索引,或者有人可以向我解释身份参数。

Thanks


恒等向量告诉 getPairs 方法哪些输入记录属于同一实体。它实际上包含您通常希望从记录链接中获得的信息,即您有几条记录并且执行not提前知道它们中的哪一个属于同一组。但是,当您使用训练集来校准方法或想要评估记录链接方法的准确性(该包主要是为此目的而编写的)时,您需要从已经进行重复数据删除或链接的数据集开始。

在您的示例中,前两行(id 233、435)显然表示同一个人,第三行表示不同的人。因此,一个有意义的恒等向量是:

c(1,1,2)

但也可能是:

c(42,42,128)

只需确保恒等向量在相应表行保存匹配记录的位置具有完全相同的值(向量索引 = 行索引)。

关于如何在结果中显示 id 的问题:您可以获取完整的记录对,包括所有数据字段(有关更多详细信息,请参阅文档):

getPairs(pairs)

可能有更好的方法来获取原始 ID,具体取决于您进一步处理记录对的方式(例如运行分类算法)。如果您需要更多建议,请扩展您的示例。

p.s.:我是包的作者之一。我最近才意识到有人在 Stack Overflow 上询问有关该软件包的问题,​​因此请原谅,有几个问题长期以来一直没有得到解答。我将寻找一种方式来获得有关此处发布的新问题的通知,但我还想提一下,人们可以通过包裹信息中列出的电子邮件地址之一直接与我们联系。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R 记录链接标识 的相关文章

  • Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

    我正在尝试动态构建一个需要运行循环的报告 并为每次迭代打印一些消息 表格和绘图 我可以让一切正常运转except为了情节 示例 rmd r echo FALSE results asis fig keep all message FALSE
  • 再现频率矩阵图

    我想在 R 中重新创建一个情节 情节如下 来源 Boring E G 1941 作为动态平衡的统计频率 心理学评论 48 4 279 这略高于我的工资等级 能力 因此在这里询问 无聊的状态 第一次 A 只能出现 从不 0 或 总是 1 在
  • R 中的 as.numeric 有什么问题? [复制]

    这个问题在这里已经有答案了 gt X864291X8X74 1 8 0000000000 9 0000000000 10 0000000000 6 0000000000 8 0000000000 10 Levels 0 0000000000
  • 如果条件长度 > 1 并且仅使用第一个元素,为什么我会在 R 中收到此警告

    我有下面的源代码 这if is na monthData 用于检查是否monthData is NA 如果是 则为其分配一个初始值 monthData lt NA if category QUARTER for m in c rep 1 4
  • read.table 和 read.delim 函数之间的区别

    两者有什么区别read table and read delim R语言中的函数 当您不确定函数的作用时 除了阅读帮助页面之外 您还可以检查函数的实际代码 例如 输入read delim显示该函数包含以下代码 gt read delim f
  • 使用pivot_longer将R中的多列变成一列[重复]

    这个问题在这里已经有答案了 我有一个dfpopulation看起来像这样 未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
  • 建模前减少因子水平数量

    我有一个 2600 个级别的因子 我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点 如果一个因素列出的次数少于 x 次 则应将其放入名为 其他 的存储桶中 这是一些示例数据 df lt data frame colour
  • 栅格堆叠后如何写入?

    我想操作几个光栅文件 然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
  • 无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

    我尝试创建一个矩阵 为此我想降低文本 为此 我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
  • 使用starts_with() 将 NA 替换为 0

    我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头 所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点 我已经看到了有关 SO 的其他几个问题 但是它们都需要使用特
  • 在 R 中将时间间隔数据扩展为天数

    假设我有如下所示的数据 interval id indiv id role start date end date 1 1 A 2006 05 01 2006 06 16 2 1 B 2006 06 16 2006 10 16 3 1 A
  • 在 mutate 和 across 之后使用 ~separate

    目的是将所有物种 setosa 行转换为一行 setosa 这是一个最小的示例 实际上有更多列和更多组 我有这个数据框 head iris 2 gt select 1 2 5 gt group by Species Sepal Length
  • 连接多个用户的 R 闪亮会话

    最小可重现示例 library shiny ui lt fluidPage actionButton button1 Run 1 actionButton button2 Run 2 server lt function session i
  • 使用滑动窗口动画 ggplot 时间序列图

    我正在寻找在不失去分辨率的情况下对长时间序列图进行动画处理的方法 我希望视图能够 平移 数据 显示从开始到结束的滑动子集 假设我有以下内容 library ggplot2 library dplyr library gganimate df
  • jupyter 中的 r 图形 - 无法启动 png() 设备

    我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表 这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
  • 如何将带有观察计数的标签添加到 stat_summary ggplot?

    我有一个数据集 例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
  • R闪亮主面板显示样式和字体

    我正在学习闪亮的应用程序 并且有一些关于调整布局的基本问题 特别是样式和字体 希望得到指点或明确的答案 谢谢 考虑一个基本的输入输出应用程序 用户在 sidebarPanel 中输入数据 然后在 mainPanel 中反应性地输出结果 如何
  • 美人鱼图:调整图表周围的空白

    我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图 在 HTML PDF 输出中 图表上方和下方有大量空白 请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
  • R data.table 连接不等式条件

    我想使用 data table 包根据多个不等式条件对数据进行子集化 data table 手册中的示例展示了如何使用字符变量执行此操作 但不显示数字不等式 我还了解了如何使用子集函数来执行此操作 但我真的很想利用 data table 二
  • R闪亮:使用闪亮的JS从数据表中获取信息

    我想读出所有列名称以及它们在数据表中显示的顺序 由于不同的原因 我无法使用 stateSave 等选项 我对 JS 没有什么把握 但我确信用它可以完成 所以我需要你帮助我 我尝试过类似的代码片段 datatable data callbac

随机推荐

  • 应用程序崩溃时退出

    当任何应用程序崩溃时我想退出该应用程序 如何实现同样的效果 Android 清单是否有任何相同的规定 我建议注册一个全球未捕获异常处理程序 这会捕获所有未处理的异常 然后你就可以在那里做你想做的事 例如 关闭应用程序 通知用户并向自己发送日
  • 根据宽度和高度保持纵横比

    可以将正方形拟合并居中div在视口中并始终保持它的根据宽度和高度的长宽比 要求 only CSS 无论视口的方向 横向或纵向 如何 正方形的大小都必须适应视口的最小尺寸 宽度或高度 正方形必须在视口中水平和垂直居中 Example 纵横比属
  • 与 Maven SCM 插件一起使用的 svn-settings.xml 的格式是什么?

    我正在尝试外部化我的用户名和密码 但它的格式似乎是svn 设置 xml是不正确的 除了这篇文章之外 我在网上找不到任何资源here然后出现错误 在我的 pom xml 中我得到了
  • 通过 SMTP Python 发送电子邮件时遇到问题

    所以我尝试使用 Python 通过 SMTPlib 发送电子邮件 但我无法让它工作 我阅读了 Microsoft SMTP 规范 并相应地将它们放入其中 但我无法让它工作 这是我的代码 Send an email SERVER smtp m
  • 使用 JavaScript 将相对路径转换为绝对路径

    有一个函数 它给我这样的网址 some css extra some css lib slider slider css 它始终是相对路径 假设我们知道页面的当前路径 例如http site com stats 2012 不确定如何将这些相
  • BlackBerry:是否可以从网站(无线)下载应用程序?

    我想让我的 BlackBerry 应用程序可供使用 BlackBerry 浏览器通过网站下载 这可能吗 有两种方法允许从网站下载 BlackBerry 应用程序 1 空中分配 为了允许用户通过无线方式安装应用程序 您需要有一个 Web 服务
  • java中的序列点

    以下java代码是否有保证的执行顺序 int i getA getB Is getA 总是在之前执行getB 正如任何普通人所期望的那样 是的 来自 JLS 第 15 7 节 Java 编程语言保证运算符的操作数似乎按特定的求值顺序 即从左
  • np.sum 和 np.add.reduce - 在生产中,你用​​什么?

    作为背景 请阅读这篇快速帖子和明确的答案 np sum 和 np add reduce 有什么区别 因此 对于小数组 使用add reduce是比较快的 让我们看一下我为了学习而试验的以下代码 它对一个二维数组求和 a np array 1
  • 根据值对对象属性进行排序[重复]

    这个问题在这里已经有答案了 我有一个对象数组 Accept Credit Cards 17 Take Out 17 Alcohol 16 Caters 10 Takes Reservations 11 Smoking 0 Dogs Allo
  • Apache Flink Rest-Client Jar-Upload 不起作用

    我正在努力使用 Flink Rest api 可能会发现 在我们的 CI CD 工作流程中自动部署新的 Flink 作业在 flink Github 存储库中 文档仅说明 jar 上传可以通过使用来实现 jars upload 但不是如何准
  • 当锁持有非最终对象时,该对象的引用是否仍然可以被另一个线程更改?

    当一个对象需要同步时 如果它没有设置为非最终的 IDE 会抱怨 因为它的引用不是持久的 private static Object myTable synchronized myTable IDE complains access myTa
  • 使用 GDB Python API 从符号名称获取全局符号的地址

    如果我知道 GDB Python API 的名称 是否可以通过某种方式获取二进制文件中全局符号的地址 Is python print gdb parse and eval symbol address 获得这个值的正确方法是什么 好吧 你自
  • 使用ajax自动完成

    也许你可以帮助解决一些ajax问题 我有自动完成代码 我输入城市名称 代码会自动为我完成它 并且还获取城市 ID 并应该将其放入隐藏输入字段 名称 cityID 但它没有 不要那样做 你能告诉我为什么吗 html代码 p p
  • 将字符连接到字符串数组时获取“null”

    public static void main String args char charArr a b c d e f g h i String stringA charToString charArr for int i 0 i lt
  • 如何在我的连接类中使用“using”

    我想使用 using forSqlConnection在我的代码中是这样的 using SqlConnection Con new SqlConnection 但我用过dictionary对于一个内的多个连接Connections班级 这是
  • 自定义 Finder“获取信息”窗口?

    操作系统 在查找器中 如果您选择 获取信息 您会看到一个 属性窗口 引用当前选定的文件 文件夹 卷 默认情况下 该窗口包含 聚光灯评论 一般的 更多信息 名称和扩展名 预览 共享与权限 有人知道是否可以向该窗口添加分段吗 比如说我想添加一个
  • 比较两个相同大小的位图以确定它们是否相同的最快方法是什么?

    我正在尝试编写一个函数来确定两个相同大小的位图是否相同 我现在拥有的函数只是一次比较每个位图中的一个像素 在第一个不相等的像素处返回 false 虽然这很有效 并且适用于小位图 但在生产中我将在紧密循环中和更大的图像上使用它 所以我需要一种
  • 从 Java 字符串中删除行尾字符

    我有这样的字符串 hello java book 我要删除 r and n from String hello r njava r nbook 我想要的结果是 hellojavabook 我怎样才能做到这一点 带replaceAll 的正则
  • 在 listView 内的 listItem 内的 textView 上使用 setSelected

    我试图让滚动文本 选取框 发生在列表视图中 但从我之前的阅读来看 我似乎需要在文本视图上使用 setSelected true 因为textview位于listitem而不是listview内部 所以我似乎无法在该textView上使用ge
  • R 记录链接标识

    我正在 R 中使用 RecordLinkage 库 我有一个包含 id 姓名 电话 邮件的数据框 我的代码如下所示 ids data id pairs compare dedup data identity ids blockfld as