估算缺失数据，同时强制相关系数保持不变

2024-05-08

考虑以下（excel）数据集：

m   |   r
----|------
2.0 | 3.3
0.8 |   
    | 4.0
1.3 |   
2.1 | 5.2
    | 2.3
    | 1.9
2.5 | 
1.2 | 3.0
2.0 | 2.6

我的目标是使用以下条件填充缺失值：

将上述两列之间的成对相关性表示为 R（大约 0.68）。将相关性表示为 R*after空单元格已被填充。填写表格使 (R - R*)^2 = 0。这就是，我想保持数据的相关结构完整。

到目前为止，我已经使用 Matlab 完成了：

clear all;

m = xlsread('data.xlsx','A2:A11') ;
r = xlsread('data.xlsx','B2:B11') ;

rho = corr(m,r,'rows','pairwise');

x0 = [1,1,1,1,1,1];
lb = [0,0,0,0,0,0];
f = @(x)my_correl(x,rho);

SOL = fmincon(f,x0,[],[],[],[],lb)

其中函数my_correl is:

function X = my_correl(x,rho)

sum_m = (11.9 + x(1) + x(2) + x(3));
sum_r = (22.3 + x(1) + x(2) + x(3));
avg_m = (11.9 + x(1) + x(2) + x(3))/8;
avg_r = (22.3 + x(4) + x(5) + x(6))/8;
rho_num = 8*(26.32 + 4*x(1) + 2.3*x(2) + 1.9*x(3) + 0.8*x(4) + 1.3*x(5) + 2.5*x(6)) - sum_m*sum_r;
rho_den = sqrt(8*(22.43 + (4*x(1))^2 + (2.3*x(2))^2 + (1.9*x(3))^2) - sum_m^2)*sqrt(8*(78.6 + (0.8*x(4))^2 + (1.3*x(5))^ + (2.5*x(6))^2) - sum_r^2);

X = (rho - rho_num/rho_den)^2;

end

该函数手动计算相关性，其中每个缺失数据都是一个变量x(i).

问题：我的实际数据集有超过 20,000 个观察值。我无法手动创建 rho 公式。

如何填写我的数据集？

注 1：我愿意使用 Python、Julia 或 R 等替代语言。Matlab 只是我的默认语言。

注2：回答完将获得100分奖励。从现在开始承诺。

这就是我的处理方法，并提供了 R 中的实现：

没有唯一的解决方案来估算缺失的数据点，使得完整（估算）数据的成对相关性等于不完整数据的成对相关性。因此，为了找到“好的”解决方案而不仅仅是“任何”解决方案，我们可以引入一个附加标准，即完整的估算数据也应与原始数据共享相同的线性回归。这引导我们采用一种相当简单的方法。

计算原始数据的线性回归模型。
找到恰好位于该回归线上的缺失值的估算值。
为该回归线周围的估算值生成残差的随机散布
缩放估算残差以强制完整估算数据的相关性等于原始数据的相关性

R 中的解决方案如下：

library(data.table)
set.seed(123)

rho = cor(dt$m,dt$r,'pairwise')

# calculate linear regression of original data
fit1 = lm(r ~ m, data=dt)
fit2 = lm(m ~ r, data=dt)
# extract the standard errors of regression intercept (in each m & r direction)
# and multiply s.e. by sqrt(n) to get standard deviation 
sd1 = summary(fit1)$coefficients[1,2] * sqrt(dt[!is.na(r), .N])
sd2 = summary(fit2)$coefficients[1,2] * sqrt(dt[!is.na(m), .N])

# find where data points with missing values lie on the regression line
dt[is.na(r), r.imp := coefficients(fit1)[1] + coefficients(fit1)[2] * m] 
dt[is.na(m), m.imp := coefficients(fit2)[1] + coefficients(fit2)[2] * r]

# generate randomised residuals for the missing data, using the s.d. calculated above
dt[is.na(r), r.ran := rnorm(.N, sd=sd1)] 
dt[is.na(m), m.ran := rnorm(.N, sd=sd2)] 

# function that scales the residuals by a factor x, then calculates how close correlation of imputed data is to that of original data
obj = function(x, dt, rho) {
  dt[, r.comp := r][, m.comp := m]
  dt[is.na(r), r.comp := r.imp + r.ran*x] 
  dt[is.na(m), m.comp := m.imp + m.ran*x] 
  rho2 = cor(dt$m.comp, dt$r.comp,'pairwise')
  (rho-rho2)^2
}

# find the value of x that minimises the discrepencay of imputed versus original correlation
fit = optimize(obj, c(-5,5), dt, rho)

x=fit$minimum
dt[, r.comp := r][, m.comp := m]
dt[is.na(r), r.comp := r.imp + r.ran*x] 
dt[is.na(m), m.comp := m.imp + m.ran*x] 
rho2 = cor(dt$m.comp, dt$r.comp,'pairwise')
(rho-rho2)^2  # check that rho2 is approximately equal to rho

作为最终检查，计算完整估算数据的线性回归并绘图以显示回归线与原始数据相同。请注意，下图适用于下面所示的大数据集，以演示此方法在大数据上的使用。

fit.comp = lm(r.comp ~ m.comp, data=dt)
plot(dt$m.comp, dt$r.comp)
points(dt$m, dt$r, col="red")
abline(fit1, col="green")
abline(fit.comp, col="blue")
mtext(paste(" Rho =", round(rho,5)), at=-1)
mtext(paste(" Rho2 =", round(rho2, 5)), at=6)

DATA

OP 示例中的原始玩具数据：

dt=structure(list(m = c(2, 0.8, NA, 1.3, 2.1, NA, NA, 2.5, 1.2, 2), 
                  r = c(3.3, NA, 4, NA, 5.2, 2.3, 1.9, NA, 3, 2.6)), 
             .Names = c("m", "r"), row.names = c(NA, -10L), 
             class = c("data.table", "data.frame"))

更大的数据集来演示大数据

dt = data.table(m=rnorm(1e5, 3, 2))[, r:=1.5 + 1.1*m + rnorm(1e5,0,2)]
dt[sample(.N, 3e4), m:=NA]
dt[sample(which(!is.na(m)), 3e4), r := NA]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

MATLAB

Julia

估算缺失数据，同时强制相关系数保持不变的相关文章

如何使用 Pycharm 运行 fast-api 服务器？

我有一个简单的 API 函数如下所示 from fastapi import FastAPI app FastAPI app get async def read root return Hello World 我正在使用启动服务器uvi
如何搜索一列并用找到的内容填充另一列？

我有一个带有虚构人物数据的大熊猫数据框下面是一个小例子每个人都由一个数字定义 import pandas as pd import numpy as np df pd DataFrame Number 5569 3385 9832 64
如何在 R 中为所有plot.default、plot 或lines 调用设置默认颜色

为了简化我的日常 R 交互我想为所有绘图设置默认颜色例如假设我想要用红线绘制所有绘图例如在 gnuplot 中到目前为止这是我的 Rprofile 的片段 setHook packageEvent grDevices onLoa
ggplot2 - 在绘图顶部添加辅助 y 轴

对于出版物我需要向现有绘图添加第二个 y 轴我遇到了一种方法来做到这一点 https rpubs com kohske dual axis in ggplot2 https rpubs com kohske dual axis in g
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
将 12 小时字符时间转换为 24 小时

我有一个包含字符格式时间的数据集我试图将其从 12 小时格式转换为 24 小时格式我做了一些搜索但我发现的所有内容似乎都假设字符已经采用 24 小时格式这是我工作时的一个例子 times lt c 9 06 AM 4 42 PM 3
Python 模块 BeautifulSoup 提取锚点 href

我正在使用 BeautifulSoup 模块通过以下方式从 html 选择所有 href def extract links html soup BeautifulSoup html anchors soup findAll a print
如何停止 PythonShell

如何终止停止 Node js 中 PythonShell 执行的 Python 脚本的执行我在交互模式下运行输出通过 socket io 发送到给定的房间如果没有更多的客户端连接到这个房间我想停止 python 脚本的执行这是我
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
使用最新值进行采样

考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
零膨胀泊松分布：无法估计参数，错误代码为 100

以下是我正在研究的一种数据集 data lt c 0 1 0 11 2 0 3 0 0 2 1 3 1 0 1 0 0 0 2 3 0 0 0 8 1 1 1 0 1 1 2 7 0 0 0 5 2 3 6 1 1 5 2 9 0 0 1
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
安装 gplots 时出错

我正在 OSX v 10 9 2 上运行 R v 3 0 3 当尝试使用以下命令在 R studio 中安装 gplots 包时出现错误 gt library gplots Error in library gplots there is
R：中断 for 循环

你能确认下一个break是否取消了内部for循环吗 for out in 1 n old id velho lt old table df id out for in in 1 n id novo lt new table df ID in
R 中的 ddply：对于每个组，查找特定变量的出现百分比

我有一个数据集其中包含两列 user type 和滞后响应时间以天为单位 user type imp date lag Consumer 20130613 1 Consumer 20130612 2 Consumer 20130611
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
如何从 Pandas 数据框函数调用中回顾之前的行？

我正在研究回测交易系统我有一个包含 OHLC 数据的 Pandas 数据框并添加了几个计算列 https stackoverflow com questions 12376863 adding calculated columns t

随机推荐

viewDidLoad 中的帧大小错误[重复]

这个问题在这里已经有答案了可能的重复为什么我必须在 viewDidLoad 中手动设置视图的框架 https stackoverflow com questions 6757018 why am i having to manually
Angular-ui State - 多个视图看不到我的解析数据

由于某种原因当使用多个命名视图 angular ui ui router 时控制器看不到我的resolvedData 有人遇到过这个问题吗 stateProvider state page abstract true templateU
Windows 批处理文件：如何启用命令的内联回显

如果在 Windows 批处理文件中默认禁用 echo 是否有办法为特定命令内联启用它我知道可以回显特定命令disabled通过在命令前添加但是有没有办法做相反的事情呢例如假设有一个像这样的批处理文件 echo off cmd1
UITableView 顶部出现间隙[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我不确定现在问这个问题是否合适我正在表视图上使用 Xcode 5 预览版现在的问题是我的表格视图是否被选择为group比我在第一个单元
由于触摸事件上的类切换/高度变化而导致可点击区域错位

如果您切换上方元素的高度则触摸设备上的链接可点击区域会出现奇怪的行为如果您运行以下代码片段例如将其保存在本地并使用 chrome 来模拟触摸事件您会注意到哈希值 mylink在某些情况下您没有点击红色链接区域会将 url 添加
Android NullPointerException 在视图或适配器中或

我不知道还能去哪里看我对这个错误感到疯狂它不是来自使用空变量它似乎只是重新启动应用程序而不更改任何代码有谁知道 java lang NullPointerException Attempt to invoke virtual met
如何在Java中查找年月日中两个日期之间的差异？ [复制]

这个问题在这里已经有答案了假设我有 Employee模型有开始日期作为其属性变量和晋升型号有促销日期我想知道员工在晋升之前已经工作了多长时间我必须找到 PromotionDate 和 startDate 之间的差异如果我得到 sta
HTML 表单：POST 对象数组

提交班级名单一次添加3名学生每个学生都有最初最后的年龄问题我们如何才能将所有学生放入数组中 students 0 gt Array first gt first name for 0 last gt last name for 0
C# Winform（实体框架）- 将数据绑定 DataGridView 或 BindingSource 转换为 DataTable

我正在使用 C Winforms 和实体框架我的项目基于此链接建模与 WinForms 的数据绑定 https msdn microsoft com en us data jj682076 aspx 我的问题是如何转换DataGridV
为什么Mysql的Group By和Oracle的Group by行为不同

为什么Mysql的Group By和Oracle的Group by行为不同我多次发现 Mysql group By 功能和 Oracle 的 GroupBy 功能表现不同很多时候我在Oracle中发现错误这实际上是错误的查询但是My
Magento 2 REST API 客户自定义属性

Magento 2 REST API 文档解释了在更新或创建客户时设置custom attributes 的方法 http devdocs magento com swagger index 20 html http devdocs mag
循环更改多个数据帧

例如我有这三个数据集就我而言它们更多并且有很多变量 data frame1 lt data frame a c 1 5 3 3 2 b c 3 6 1 5 5 c c 4 4 1 9 2 data frame2 lt data fra
如何将每个句子的第一个字母大写？

我正在尝试编写一个程序将每个句子的第一个字母大写这是我到目前为止所拥有的但我不知道如何在句子之间添加句号例如如果我输入你好再见输出是你好再见并且期间已经消失 string input Enter a sentence s
如何创建自定义 Powershell 运算符？

是否可以在 Powershell 中创建自定义运算符而且我该怎么做呢我搜索过谷歌但没有任何结果我特指一个中缀运算符示例列表包含元素我已经创建了 cmdlet 使用 Powershell 和 C 模块等所以我只需要大概的内
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
Ruby IMAP IDLE 并发 - 如何解决？

我正在尝试构建一个目前是私有的 Web 应用程序该应用程序将利用 IMAP IDLE 连接在人们到达时显示电子邮件我很难弄清楚如何将其组合在一起以及它如何与我的 Heroku RoR 服务器结合在一起我编写了一个用于连接到 IMA
Python UTF-8转换问题

在我的数据库中我存储了一些 UTF 8 字符例如名称字段中的通过 Django ORM 当我读到这个时我得到了类似的东西 gt gt gt p name u xce xb1 gt gt gt print p name 我本来希望
在解析之前使用 lxml 注册命名空间

我正在使用 lxml 从具有命名空间的外部服务解析 XML 但未将它们注册到xmlns 我正在尝试手动注册它register namespace 但这似乎不起作用 from lxml import etree xml
highchart情节可以有移动动画吗？

有没有什么方法可以让情节线通过动画移动到新位置或者我必须使用其他插件吗我想构建像二元期权或专家期权游戏一样的乐趣这是我的简单演示示例演示链接 http jsfiddle net krdh2e73 function Highchart
估算缺失数据，同时强制相关系数保持不变

考虑以下 excel 数据集 m r 2 0 3 3 0 8 4 0 1 3 2 1 5 2 2 3 1 9 2 5 1 2 3 0 2 0 2 6 我的目标是使用以下条件填充缺失值将上述两列之间的成对相关性表示为 R 大约 0 68 将

估算缺失数据，同时强制相关系数保持不变

估算缺失数据，同时强制相关系数保持不变 的相关文章

随机推荐

热门标签

估算缺失数据，同时强制相关系数保持不变的相关文章