MATLAB中fillmissing函数用法

2023-10-30

语法

说明

示例

fillmissing函数的功能是填充缺失的条目。

语法

F = fillmissing(A,'constant',v)
F = fillmissing(A,method)
F = fillmissing(A,movmethod,window)
F = fillmissing(A,'knn')
F = fillmissing(A,'knn',k)
F = fillmissing(A,fillfun,gapwindow)
F = fillmissing(___,dim)
F = fillmissing(___,Name,Value)
[F,TF] = fillmissing(___)

说明

F = fillmissing(A,'constant',v) 使用常量值 v 填充缺失的数组或表条目。如果 A 是矩阵或多维数组，则 v 可以是标量或向量。如果 v 是向量，则每个元素指定 A 的对应列中的填充值。如果 A 是表或时间表，则 v 也可以是元胞数组，其元素包含每个表变量的填充值。

缺失值的定义取决于 A 的数据类型：

NaN - double、single、duration 和 calendarDuration
NaT — datetime
<missing> — string
<undefined> — categorical
{''} - 字符向量的 cell

如果 A 是表，则每个变量的数据类型定义该变量的缺失值。

F = fillmissing(A,method) 使用 method 指定的方法填充缺失的条目。例如，fillmissing(A,'previous') 对 A 中的缺失条目使用上一个非缺失条目进行填充。

F = fillmissing(A,movmethod,window) 使用窗长度为 window 的移动窗均值或中位数填充缺失条目。例如，fillmissing(A,'movmean',5) 使用窗长度为 5 的移动均值填充缺失数据。

F = fillmissing(A,'knn') 用最近邻行中的对应值填充缺失条目，这些值是根据行之间的成对欧几里德距离计算的。

F = fillmissing(A,'knn',k) 用 k 最近邻行中对应值的均值填充缺失条目，该均值是根据行之间的成对欧几里德距离计算的。例如，fillmissing(A,'knn',5) 用五个最近邻行中对应值的均值填充 A 中的缺失条目。

F = fillmissing(A,fillfun,gapwindow) 使用由函数句柄 fillfun 指定的自定义方法填充缺失条目的空缺，并在每个空缺周围设置固定窗，从该窗计算填充值。fillfun 必须具有输入参数 xs、ts 和 tq，它们是向量，分别包含长度为 gapwindow 的采样数据 xs、长度为 gapwindow 的采样数据位置 ts 和缺失数据位置 tq。ts 和 tq 中的位置是采样点向量的子集。

F = fillmissing(___,dim) 支持上述语法中的任何输入参数组合，且可指定 A 中要进行运算的维度。默认情况下，fillmissing 沿其大小不为 1 的第一个维度进行运算。例如，如果 A 是矩阵，则 fillmissing(A,2) 跨 A 的各列进行运算，逐行填充缺失的数据。

F = fillmissing(___,Name,Value) 使用一个或多个名称-值参数指定用于填充缺失值的其他参数。例如，如果 t 是时间值向量，则 fillmissing(A,'linear','SamplePoints',t) 会基于 t 中的时间值对 A 中的数据进行插值。

[F,TF] = fillmissing(___) 还返回逻辑数组 TF，该数组指示 F 中先前缺失现已填充的条目的位置。

示例

包含 `NaN` 值的向量

创建包含 NaN 值的向量，并使用前一个非缺失值替换每个 NaN。

A = [1 3 NaN 4 NaN NaN 5];
F = fillmissing(A,'previous')

F = 1×7

     1     3     3     4     4     4     5

由 `NaN` 值组成的矩阵

创建一个 2×2 矩阵，每列有一个 NaN 值。在第一列中用 100 填充 NaN，在第二列中用 1000 填充。

A = [1 NaN; NaN 2]
A = 2×2

     1   NaN
   NaN     2


F = fillmissing(A,'constant',[100 1000])
F = 2×2

           1        1000
         100           2

插入缺失数据

使用插值来替换非均匀采样的数据中的 NaN 值。定义非均匀采样点向量，并计算这些点上的正弦函数。

x = [-4*pi:0.1:0, 0.1:0.2:4*pi];
A = sin(x);

将 NaN 值插入 A 中。

A(A < 0.75 & A > 0.5) = NaN;

使用线性插值填充缺失数据，并返回填充的向量 F 和逻辑向量 TF。TF 项中的值 1 (true) 对应于 F 中的填充值。

[F,TF] = fillmissing(A,'linear','SamplePoints',x);

绘制原始数据和填充的数据。

scatter(x,A)
hold on
scatter(x(TF),F(TF))
legend('Original Data','Filled Data')

如图所示：

使用移动中位数方法

使用移动中位数填充缺失的数值数据。创建样本点向量 x 和包含缺失值的数据向量 A。

x = linspace(0,10,200); 
A = sin(x) + 0.5*(rand(size(x))-0.5); 
A([1:10 randi([1 length(x)],1,50)]) = NaN;

使用窗长度为 10 的移动中位数替换 A 中的 NaN 值，并绘制原始数据和填充的数据。

F = fillmissing(A,'movmedian',10);  
plot(x,F,'.-') 
hold on
plot(x,A,'.-')
legend('Original Data','Filled Data')

如图所示：

使用自定义填充方法

定义一个自定义函数，用上一个非缺失值填充 NaN 值。定义采样点向量 t 和包含 NaN 值的对应数据向量 A。绘制数据图。

t = 10:10:100;
A = [0.1 0.2 0.3 NaN NaN 0.6 0.7 NaN 0.9 1];
scatter(t,A)

如图所示：

使用局部函数 forwardfill（在示例末尾定义）用上一个非缺失值填充缺失空缺。函数句柄输入包括：

xs - 用于填充的数据值
ts - 用于填充的值相对于采样点的位置
tq - 缺失值相对于采样点的位置
n - 要填充的空缺中的值的数目

n = 2;
gapwindow = [10 0];

[F,TF] = fillmissing(A,@(xs,ts,tq) forwardfill(xs,ts,tq,n),gapwindow,'SamplePoints',t);

空缺窗值 [10 0] 指示 fillmissing 考虑缺失值空缺之前的一个数据点，不考虑空缺之后的任何数据点，因为上一个非缺失值位于空缺之前 10 个单位。对于第一个空缺，由 fillmissing 确定的函数句柄输入值为：

xs = 0.3
ts = 30
tq = [40 50]

第二个空缺的函数句柄输入值为：

xs = 0.7
ts = 70
tq = 80

绘制原始数据和填充的数据。

scatter(t,A)
hold on
scatter(t(TF),F(TF))

如图所示：

function y = forwardfill(xs,ts,tq,n)
% Fill n values in the missing gap using the previous nonmissing value
y = NaN(1,numel(tq));
y(1:min(numel(tq),n)) = xs;
end

包含缺失端点的矩阵

创建包含缺失条目的矩阵并使用线性插值填充各列（第二个维度），一次一行。对于每行，使用该行中距离最近的非缺失值填充前导和尾随缺失值。

A = [NaN NaN 5 3 NaN 5 7 NaN 9 NaN;
     8 9 NaN 1 4 5 NaN 5 NaN 5;
     NaN 4 9 8 7 2 4 1 1 NaN]
A = 3×10

   NaN   NaN     5     3   NaN     5     7   NaN     9   NaN
     8     9   NaN     1     4     5   NaN     5   NaN     5
   NaN     4     9     8     7     2     4     1     1   NaN



F = fillmissing(A,'linear',2,'EndValues','nearest')
F = 3×10

     5     5     5     3     4     5     7     8     9     9
     8     9     5     1     4     5     5     5     5     5
     4     4     9     8     7     2     4     1     1     1

包含多个数据类型的表

使用不同数据类型填充表变量的缺失值。创建表，其变量包括 categorical、double 和 char 数据类型。

A = table(categorical({'Sunny'; 'Cloudy'; ''}),[66; NaN; 54],{''; 'N'; 'Y'},[37; 39; NaN],...
    'VariableNames',{'Description' 'Temperature' 'Rain' 'Humidity'})


A=3×4 table
    Description    Temperature       Rain       Humidity
    ___________    ___________    __________    ________

    Sunny               66        {0x0 char}       37   
    Cloudy             NaN        {'N'     }       39   
    <undefined>         54        {'Y'     }      NaN

用上一个条目的值替换所有缺失的条目。由于 Rain 变量中不存在前一个元素，缺失的字符向量将不会被替换。

F = fillmissing(A,'previous')
F=3×4 table
    Description    Temperature       Rain       Humidity
    ___________    ___________    __________    ________

      Sunny            66         {0x0 char}       37   
      Cloudy           66         {'N'     }       39   
      Cloudy           54         {'Y'     }       39

将 A 中 Temperature 和 Humidity 变量的 NaN 值替换为 0。

F = fillmissing(A,'constant',0,'DataVariables',{'Temperature','Humidity'})
F=3×4 table
    Description    Temperature       Rain       Humidity
    ___________    ___________    __________    ________

    Sunny              66         {0x0 char}       37   
    Cloudy              0         {'N'     }       39   
    <undefined>        54         {'Y'     }        0

参数说明：

A-输入数据，指定为向量、矩阵、多维数组、字符向量元胞数组、表或时间表。

如果 A 为时间表，则仅填充表值。如果关联的行时间向量包含 NaT 或 NaN 值，则 fillmissing 会产生错误。行时间必须是唯一的并按升序列出。
如果 A 是元胞数组或包含元胞数组变量的表，则 fillmissing 仅在元胞数组包含字符向量时填充缺失元素。

v-填充常量，指定为标量、向量或元胞数组。

如果 A 是矩阵或多维数组，则 v 可以是向量，表示每个运算维度的一个不同填充值。v 的长度必须与运算维度的长度相匹配。
如果 A 是表或时间表，则 v 可以是填充值的元胞数组，表示每个变量的一个不同填充值。元胞数组中的元素数必须与表中的变量数目相匹配。

method-填充方法，指定为下列值之一：

方法	描述
'previous'	上一个非缺失值
'next'	下一个非缺失值
'nearest'	距离最近的非缺失值
'linear'	相邻非缺失值的线性插值（仅限数值、duration 和 datetime 数据类型）
'spline'	分段三次样条插值（仅限数值、duration 和 datetime 数据类型）
'pchip'	保形分段三次样条插值（仅限数值、duration 和 datetime 数据类型）
'makima'	修正 Akima 三次 Hermite 插值（仅限数值、duration 和 datetime 数据类型）

movmethod — 移窗法

填充缺失数据的移动方法，指定为下列值之一：

方法	描述
'movmean'	窗长度为 window 的移动均值（仅限数值数据类型）
'movmedian'	窗长度为 window 的移动中位数（仅限数值数据类型）

window — 窗长度
移动方法的窗长度，指定为正整数标量、由正整数组成的二元素向量、正持续时间标量或由正持续时间组成的二元素向量。窗是相对于采样点定义的。

如果 window 是正整数标量，则窗以当前元素为中心并且包含 window-1 个相邻元素。如果 window 是偶数，则窗口以当前元素和上一个元素为中心。

如果 window 是由正整数组成的二元素向量 [b f]，则窗口包含当前元素、其之前的 b 个元素和之后的 f 个元素。

如果 A 是时间表或 SamplePoints 指定为 datetime 或 duration 向量，则窗口必须为 duration 类型。

k — 最近邻的数量,用 'knn' 方法计算平均值的最近邻的数量，指定为正整数标量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)