基于 Python 中较小的数据集生成较大的综合数据集

2023-12-30

我有一个包含 21000 行（数据样本）和 102 列（特征）的数据集。我希望根据当前数据集生成一个更大的合成数据集，例如 100000 行，这样我就可以将其用于机器学习目的。

我在这篇文章中提到了 @Prashant 的答案https://stats.stackexchange.com/questions/215938/generate-synthetic-data-to-match-sample-data https://stats.stackexchange.com/questions/215938/generate-synthetic-data-to-match-sample-data，但我无法让它为我的数据生成更大的合成数据集。

import numpy as np
from random import randrange, choice
from sklearn.neighbors import NearestNeighbors
import pandas as pd
#referring to https://stats.stackexchange.com/questions/215938/generate-synthetic-data-to-match-sample-data


df = pd.read_pickle('df_saved.pkl')
df = df.iloc[:,:-1] # this gives me df, the final Dataframe which I would like to generate a larger dataset based on. This is the smaller Dataframe with 21000x102 dimensions.


def SMOTE(T, N, k):
# """
# Returns (N/100) * n_minority_samples synthetic minority samples.
#
# Parameters
# ----------
# T : array-like, shape = [n_minority_samples, n_features]
#     Holds the minority samples
# N : percetange of new synthetic samples:
#     n_synthetic_samples = N/100 * n_minority_samples. Can be < 100.
# k : int. Number of nearest neighbours.
#
# Returns
# -------
# S : array, shape = [(N/100) * n_minority_samples, n_features]
# """
    n_minority_samples, n_features = T.shape

    if N < 100:
       #create synthetic samples only for a subset of T.
       #TODO: select random minortiy samples
       N = 100
       pass

    if (N % 100) != 0:
       raise ValueError("N must be < 100 or multiple of 100")

    N = N/100
    n_synthetic_samples = N * n_minority_samples
    n_synthetic_samples = int(n_synthetic_samples)
    n_features = int(n_features)
    S = np.zeros(shape=(n_synthetic_samples, n_features))

    #Learn nearest neighbours
    neigh = NearestNeighbors(n_neighbors = k)
    neigh.fit(T)

    #Calculate synthetic samples
    for i in range(n_minority_samples):
       nn = neigh.kneighbors(T[i], return_distance=False)
       for n in range(N):
          nn_index = choice(nn[0])
          #NOTE: nn includes T[i], we don't want to select it
          while nn_index == i:
             nn_index = choice(nn[0])

          dif = T[nn_index] - T[i]
          gap = np.random.random()
          S[n + i * N, :] = T[i,:] + gap * dif[:]

    return S

df = df.to_numpy()
new_data = SMOTE(df,50,10) # this is where I call the function and expect new_data to be generated with larger number of samples than original df.

我得到的错误的回溯如下所述：-

Traceback (most recent call last):
  File "MyScript.py", line 66, in <module>
    new_data = SMOTE(df,50,10)
  File "MyScript.py", line 52, in SMOTE
    nn = neigh.kneighbors(T[i], return_distance=False)
  File "/trinity/clustervision/CentOS/7/apps/anaconda/4.3.31/3.6-VE/lib/python3.5/site-packages/sklearn/neighbors/base.py", line 393, in kneighbors
    X = check_array(X, accept_sparse='csr')
  File "/trinity/clustervision/CentOS/7/apps/anaconda/4.3.31/3.6-VE/lib/python3.5/site-packages/sklearn/utils/validation.py", line 547, in check_array
    "if it contains a single sample.".format(array))
ValueError: Expected 2D array, got 1D array instead:

我知道这个错误（预期的二维数组，得到一维数组）发生在线路上nn = neigh.kneighbors(T[i], return_distance=False)。准确地说，当我调用该函数时，T 是numpy形状数组 (21000x102)，我从 Pandas Dataframe 转换为numpy大批。我知道这个问题可能有一些类似的重复项，但没有一个回答我的问题。在这方面的任何帮助将不胜感激。

所以 T[i] 给出的是一个形状为 (102, ) 的数组。

该函数期望的是形状为 (1, 102) 的数组。

您可以通过调用 reshape 来获得它：

nn = neigh.kneighbors(T[i].reshape(1, -1), return_distance=False)

如果您不熟悉 np.reshape，1 表示第一个维度应为 1，而 -1 表示第二个维度应为 numpy 可以广播到的任何大小；在本例中为原始 102。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于 Python 中较小的数据集生成较大的综合数据集的相关文章

scipy 将一个稀疏矩阵的所有行附加到另一个稀疏矩阵

我有一个 numpy 矩阵想在其中附加另一个矩阵这两个矩阵的形状为 m1 shape 2777 5902 m2 shape 695 5902 我想将 m2 附加到 m1 以便新矩阵的形状为 m new shape 3472 5902 当
Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗？

我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗如果不是有什么区别你的问题的答案是Yes and No
opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
使用 python 中的公式函数使从 Excel 中提取的值的百分比相等

import xlrd numpy excel Users Bob Desktop wb1 xlrd open workbook excel assignment3 xlsx sh1 wb1 sheet by index 0 colA co
为什么删除临时文件时出现WindowsError？

我创建了一个临时文件向创建的文件添加了一些数据已保存然后尝试将其删除但我越来越WindowsError 编辑后我已关闭该文件如何检查哪个其他进程正在访问该文件 C Documents and Settings Administra
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
保留完整姓氏，在 pandas 列中获取名字的首字母（如果有的话，还有中间名）

我有一个 pandas 数据框其中有一列表示几位网球运动员的姓氏和姓名如下所示 Player 0 Roddick Andy 1 Federer Roger 2 Tsonga Jo Wilfred 我想保留完整的姓氏并获取姓名的首字母和中
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
在 Django OAuth Toolkit 中安全创建新应用程序

如何将 IsAdminUser 权限添加到 Django OAuth Toolkit 中的 o applications 视图 REST FRAMEWORK DEFAULT PERMISSION CLASSES rest framework
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
Gspread如何复制sheet

在 Stackoverflow 上进行谷歌搜索和搜索后我想我找不到有关如何复制现有工作表现有模板工作表并将其保存到另一个工作表中的指南根据文档有重复表 https gspread readthedocs io en latest
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
在系统托盘中隐藏 tkinter 窗口 [重复]

这个问题在这里已经有答案了我正在制作一个程序来提醒我朋友的生日这样我就不会忘记祝福他们为此我制作了两个 tkinter 窗口 1 First one is for entering name and birth date 2 Sec
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
使用ssl和socket的python客户端身份验证

我有一个 python 服务器需要客户端使用证书进行身份验证我如何制作一个客户端脚本使用客户端证书由 python 中的服务器使用 ssl 和套接字模块进行身份验证有没有仅使用套接字和 ssl 而不扭曲的示例 from OpenSS

随机推荐

无法理解字符串排列 Java 代码

我有这个工作代码可以打印字符串排列而无需重复但无法理解它在逻辑上是如何工作的任何建议都会非常有帮助 private static void permutation String input String sofar if input e
使用 AutoMapper 和 DI 容器实例化类型

请看下面的代码 public class Test ITest public ITest2 iTest2 public int id public string name public Test ITest2 test2 iTest2 te
JPQL avg 聚合函数是否适用于整数？

我有一个名为的 JPA 2 实体Surgery 它有一个名为输血单位那是一个Integer 数据库中有两个条目执行此 JPQL 语句 Select s transfusionUnits from Surgery s 产生预期结果 2 3
如果在多台计算机上使用 Test-Connection 和 -Quiet，我如何知道哪个结果适用于哪台计算机？

如果在多台计算机上使用 Test Connection 和 Quiet 我如何知道哪个结果适用于哪台计算机 e g computers PC1 PC2 PC3 results Test Connection ComputerName com
为什么这些错误属性不显示在键下？

看来是从Object getOwnPropertyNames 与 Object keys https stackoverflow com questions 22658488 object getownpropertynames vs ob
代码运行时的 ASP.NET 应用程序日志/进度条

我正在我的 ASP 表单 Web 应用程序中构建 OCR 扫描模块您可能知道这样的操作可能需要一些时间因此我使用后台服务应用程序来响应运行代码的消息队列因此用户甚至不必停留在同一网页上我想做的是通知用户服务运行时发生了什么如果
如何使用 CSS 反转颜色？

HTML div p inverted color p div CSS div background color f00 p color how to use inverted color here in relation with div
Rust 中的严格别名？

我的理解是由于所谓的严格别名规则以下代码在 C 中具有未定义的行为 include
C++ 中条件变量的常见用途是什么？

我正在尝试了解条件变量我想知道使用条件变量的常见情况有哪些一个示例是在阻塞队列中其中有两个线程访问队列生产者线程将一个项目推入队列而消费者线程从队列中弹出一个项目如果队列为空则消费者线程将等待直到生产者线程发送信号还有哪些
如何在Python中获取方法名称

我一直在尝试获取此方法中的方法名称我在堆栈上发现了关于获取名称的类似问题function https stackoverflow com questions 251464 how to get a function name as a s
StringBuilder 附加 vs +

这两行有什么区别 stringBuilder append Text counter more text stringBuilder append Text append counter append more text 假设 counte
我无法从 vscode 访问 github 存储库

我是 Git 新手我尝试将其与 VSCode 集成但出现此错误 git clone https github com vijaypatneedi DS git f VS Code DSA DS Cloning into f VS Cod
如何告诉 PyTorch 不使用 GPU？

我想在 CPU 和 GPU 之间进行一些时序比较以及一些分析并且想知道是否有办法区分pytorch questions tagged pytorch不使用GPU而只使用CPU 我意识到我可以安装另一个仅 CPUpytorch questi
Django 模板/视图与轮播的问题

好的交易是这样的这就是我目前正在做的事情看到顶部的两个箭头了吗这就是图片轮播应该在的地方然而这个轮播中没有图片也就是说直到我单击上传按钮所以我的目标是在我点击上传按钮之前让图片出现在第一页上我该如何解决这个问题
mongo dbname --eval 'db.collection.find()' 不起作用

为什么这有效 mongo dbname MongoDB shell version 1 8 3 connecting to nextmuni staging gt db collection find foo bar gt bye 虽然这不
--disable-web-security 在 Chrome 中工作吗？

我正在尝试做一个简单的测试而不更改任何涉及的服务器端代码跨域 https developer mozilla org en US docs Web HTTP CORS AJAX调用 https www w3schools com xml
如何使用cached_network_image预加载图像？

我刚刚实现了 Flutter包cached network image我想知道如何预加载图像以便稍后可以立即使用它们我从我们的服务器检索稍后将使用的所有图像网址我已经定义了自定义缓存管理器 getter class LocalCach
如何在 Linux 中针对分段错误生成核心转储？

我的 Linux 中有一个进程出现分段错误我怎样才能告诉它在失败时生成核心转储这取决于您使用的 shell 如果您使用的是 bash 则 ulimit 命令控制与程序执行相关的多个设置例如是否应该转储核心如果您输入 ulimit c
仅当属性为 null 时，如何从 lombok 构建器中排除该属性

我有一个用户模型类如下所示 JsonSerialize Getter Setter FieldDefaults level AccessLevel PRIVATE Builder public class User Default Str
基于 Python 中较小的数据集生成较大的综合数据集

我有一个包含 21000 行数据样本和 102 列特征的数据集我希望根据当前数据集生成一个更大的合成数据集例如 100000 行这样我就可以将其用于机器学习目的我在这篇文章中提到了 Prashant 的答案https sta

基于 Python 中较小的数据集生成较大的综合数据集

基于 Python 中较小的数据集生成较大的综合数据集 的相关文章

随机推荐

热门标签

基于 Python 中较小的数据集生成较大的综合数据集的相关文章