拟合部分高斯

2024-02-01

我正在尝试使用拟合高斯总和scikit学习 http://scikit-learn.org/stable/index.html因为 scikit-learn高斯混合 http://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html#sklearn.mixture.GaussianMixture.fit看起来比使用 curve_fit 更稳健。

Problem：它在拟合单个高斯峰值的截断部分方面效果不佳：

from sklearn import mixture
import matplotlib.pyplot
import matplotlib.mlab
import numpy as np

clf = mixture.GaussianMixture(n_components=1, covariance_type='full')
data = np.random.randn(10000)
data = [[x] for x in data]
clf.fit(data)
data = [item for sublist in data for item in sublist]
rangeMin = int(np.floor(np.min(data)))
rangeMax = int(np.ceil(np.max(data)))
h = matplotlib.pyplot.hist(data, range=(rangeMin, rangeMax), normed=True);
plt.plot(np.linspace(rangeMin, rangeMax),
         mlab.normpdf(np.linspace(rangeMin, rangeMax),
                      clf.means_, np.sqrt(clf.covariances_[0]))[0])

gives now changing data = [[x] for x in data] to data = [[x] for x in data if x <0] in order to truncate the distribution returns Any ideas how to get the truncation fitted properly?

Note：分布不一定会在中间被截断，可能会剩下完整分布的 50% 到 100% 之间的内容。

如果有人能给我指出替代方案，我也会很高兴。我只尝试过 curve_fit 但一旦涉及两个以上的峰值就无法让它做任何有用的事情。

有点英国式，但简单的解决方案是将曲线分成两半（data = [[x] for x in data if x < 0]），镜像左侧部分（data.append([-data[d][0]])）然后进行常规高斯拟合。

import numpy as np
from sklearn import mixture
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab

np.random.seed(seed=42)
n = 10000

clf = mixture.GaussianMixture(n_components=1, covariance_type='full')

#split the data and mirror it
data = np.random.randn(n)
data = [[x] for x in data if x < 0]
n = len(data)
for d in range(n):
    data.append([-data[d][0]])

clf.fit(data)
data = [item for sublist in data for item in sublist]
rangeMin = int(np.floor(np.min(data)))
rangeMax = int(np.ceil(np.max(data)))
h = plt.hist(data[0:n], bins=20, range=(rangeMin, rangeMax), normed=True);
plt.plot(np.linspace(rangeMin, rangeMax),
         mlab.normpdf(np.linspace(rangeMin, rangeMax),
                      clf.means_, np.sqrt(clf.covariances_[0]))[0] * 2)

plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

拟合部分高斯的相关文章

将数值数据更改为分类数据 - Pandas [重复]

这个问题在这里已经有答案了我有一个 pandas 数据框其中有一个数字列金额金额从 0 到 20000 不等我想将其更改为定义范围的分类变量因此分类变量将是 0 1000 之间 1000 2000 美元之间依此类推直到 1
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
在 Windows 中更新/安装 Python scikit learn 最新开发版本

我正在尝试在 Windows 中使用 0 18 dev0 最新开发版本替换安装我的 Python scikit learn 0 17 0 以便我可以尝试sklearn neural network MLPClassifier 阅读并尝试此
3D 网格之间的豪斯多夫距离

我有多个网格 numpy 数组 Nk Ny Nx 并且想使用 Hausdorff 距离作为这些网格相似性的度量 scipy 中有几个模块 scipy spatial distance cdist scipy spatial distance
使用 imblearn 管道进行交叉验证之前或之后是否发生过采样？

在对训练数据进行交叉验证以验证我的超参数之前我已将数据分为训练测试我有一个不平衡的数据集并且想要在每次迭代中执行 SMOTE 过采样因此我使用以下方法建立了一个管道imblearn 我的理解是将数据分成k折后应该进行过采样以防
Python 和 Numpy 是 nan 和 set

我在使用 Python 的 Numpy set 和 NaN 非数字时遇到了不可预测的行为 gt gt gt set np float64 nan np float64 nan set nan nan gt gt gt set np flo
如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常
最快的高斯模糊实现

如何以最快的速度实施高斯模糊 http en wikipedia org wiki Gaussian blur算法我要用Java来实现它所以GPU http en wikipedia org wiki Graphics processi
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
wavfile.read python 文件意外结束

我正在尝试通过以下代码读取 wav 音频文件 from scipy io import wavfile file PC1 20090513 050000 0010 wav rate audio wavfile read file 但它显示以
使用步幅沿轴填充每个切片上的对角线

考虑 numpy 数组a a np arange 18 reshape 2 3 3 print a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 我想沿着每个切片的对角线填充axis 0我使用以下方
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
来自 io.BytesIO 流的 numpy.load

我将 numpy 数组保存在 Azure Blob 存储中并将它们加载到如下所示的流中 stream io BytesIO store get blob to stream container cat npy stream 我知道从str
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np

随机推荐

如何忽略 Subclipse 中的构建目录？

构建后我在自动生成的构建目录中得到了大量的类文件我不想提交它们所以我尝试使用忽略它们Team gt Add to svn ignore 但它们已经变灰了我尝试删除构建目录Project gt Clean 但有趣的是当我尝试提交时
new String(char[]) 和 char[].toString 之间的区别

Java 中以下两个代码块的输出是不同的我试图理解为什么 private String sortChars String s char arr s toCharArray creating new char Arrays sort arr
Resteasy一般启用GZIP

我有一个 RestEasy Java EE 应用程序当我将 GZIP 添加到组件类时如果客户端发送 accepts gzip 则服务器答案将被压缩有没有办法为所有组件普遍启用 gzip 我不喜欢为每个类添加注释我正在使用 RestE
十六进制增量/循环直到 FFF

我有一个包含十六进制数字的字符串我想增加该十六进制数字直到达到最大数字 FFF 我如何循环才能获得起始十六进制和 FFF 之间的每个数字我尝试将字符串转换为字节数组但之后陷入困境 string stringHex 7A string
使用 BigQuery 获取 Firebase Analytics 历史数据

我已将 firebase 分析应用程序链接到 BigQuery 并在 app events 和 app events intraday 表下获取原始数据使用 BigQuery 的主要要求是获取在 Firebase 分析仪表板下获得的分析数
如何将Gitlab项目复制到另一个Gitlab存储库？

我想将 GitLab 项目复制到另一个存储库该存储库应该是完全独立来自原始项目为此我尝试将原来的项目fork到另一个项目中但在原始项目中维护者仍然可以看到分叉列表并知道其他分叉的维护位置我想要一个完整的副本没有任何到主项目的
WinSCP .NET 程序集拒绝 RSA/DSA 密钥指纹

我正在尝试使用 WinSCP NET 程序集连接到 WinSCP 服务器我遇到的问题是它会轰炸检查主机密钥指纹我已经创建了 RSA 密钥我的代码如下 var server new WinSCP SessionOptions serve
将某些指标与 Google Analytics API v4 中的会话和产品相关联

我在 GA api 中需要获取一些非常具体类型的指标站点级别使用购物车进行的站点访问添加这是会话次数的计数发生在会话中发生购物车添加的时间范围内产品视图的站点访问这是对在会话中出现产品详细信息视图的时间范围内发生的会话数量的计数
材质按钮在预览中未正确显示

这个问题与我的另一个问题相关材质按钮样式应用不正确丑陋极了 https stackoverflow com questions 53224903 material button styles not being applied cor
TFS 2010：当我可以使用 XamlReader 进行反序列化时，为什么无法使用 XamlWriter.Save 反序列化 Dictionary

public static string GetXml Dictionary
Python ctypes 可以在 x86-64 上加载 32 位 C 库吗？

我有一台安装了 32 位库的 64 位 RHEL 主机一个供应商有 32 位所以我想使用 ctypes 加载到 Python 中 from ctypes import CDLL CDLL 32bitdinosaur so OSError
运行应用程序期间的 Grails 警告/错误

目前当我尝试在 Eclipse 中运行我的 Google App Engine Grails 测试应用程序时我看到了以下警告警告目标导致名称覆盖 startLogging 警告找不到 C Users Some Person gra
如何知道子列表中某个元素的索引

如何知道子列表中元素的索引类似的问题在这里被问到 https stackoverflow com questions 176918 finding the index of an item given a list containing
UIAutomator Facebook 登录

我为我的应用程序创建了一个 UIAutomator 登录测试它适用于某些模拟器问题是它并不适用于所有人 UiObject input mDevice findObject new UiSelector instance 0 class
SPARQL 查询根据语句的顺序返回不同的结果

我有一个 SPARQL 查询它返回两个资源的最具体的常见类当我尝试运行它时https dbpedia org sparql https dbpedia org sparql 有时它什么也不返回有时它返回我想要的类我注意到它与查询中语
Spring MVC + Hibernate：数据验证策略

我们都知道 Spring MVC 通常与 Hibernate Validator 和 JSR 303 集成得很好但正如有人所说 Hibernate Validator 只是用于 Bean Validation 的东西这意味着更复杂的验证
ES6 类执行多态性的能力

我试图通过 ES6 类来模拟多态性以便能够更好地理解这个理论概念很清楚设计对象以共享行为并能够用特定行为覆盖共享行为但恐怕我上面的代码不是一个有效的多态性示例由于我缺乏经验如果您能全面地回答以下问题我将不胜感激事实上两个类
使用 swift4 在 xcode 中对单个项目使用不同的 GoogleService-Info.plist

我有一个项目但有 4 个不同的环境开发暂存质量检查生产我已经从移动设备的设置中给出了他们的环境的网络服务 URL 路径现在我想为所有这些不同的环境使用不同的 GoogleService info plist 就像当我从后端选
MEF 对象生命周期

我有一个名为 Foo 的类 using System using System ComponentModel Composition namespace MefTest Export internal class Foo public Fo
拟合部分高斯

我正在尝试使用拟合高斯总和scikit学习 http scikit learn org stable index html因为 scikit learn高斯混合 http scikit learn org stable modules ge

拟合部分高斯

拟合部分高斯 的相关文章

随机推荐

热门标签

拟合部分高斯的相关文章