Tensorflow 数据集 API 中的过采样功能

2023-11-22

我想问一下目前的数据集API是否允许实现过采样算法？我处理高度不平衡的阶级问题。我认为在数据集解析（即在线生成）过程中对特定类进行过采样会很好。我已经看到了rejection_resample函数的实现，但是这会删除样本而不是复制它们，并且会减慢批次生成速度（当目标分布与初始分布有很大不同时）。我想要实现的目标是：举个例子，看看它的类概率来决定是否重复它。然后打电话dataset.shuffle(...) dataset.batch(...)并获取迭代器。最好的（在我看来）方法是对低概率类别进行过采样并对最可能的类别进行子采样。我想在网上做，因为它更灵活。

这个问题已经在issue中解决了#14451。只需在此处发布 anwser 即可使其对其他开发人员更加可见。

示例代码对低频类进行过采样，对高频类进行欠采样，其中class_target_prob在我的例子中只是均匀分布。我想检查最近手稿的一些结论卷积神经网络中类别不平衡问题的系统研究

特定类的过采样是通过调用完成的：

dataset = dataset.flat_map(
    lambda x: tf.data.Dataset.from_tensors(x).repeat(oversample_classes(x))
)

这是完成所有操作的完整代码片段：

# sampling parameters
oversampling_coef = 0.9  # if equal to 0 then oversample_classes() always returns 1
undersampling_coef = 0.5  # if equal to 0 then undersampling_filter() always returns True

def oversample_classes(example):
    """
    Returns the number of copies of given example
    """
    class_prob = example['class_prob']
    class_target_prob = example['class_target_prob']
    prob_ratio = tf.cast(class_target_prob/class_prob, dtype=tf.float32)
    # soften ratio is oversampling_coef==0 we recover original distribution
    prob_ratio = prob_ratio ** oversampling_coef 
    # for classes with probability higher than class_target_prob we
    # want to return 1
    prob_ratio = tf.maximum(prob_ratio, 1) 
    # for low probability classes this number will be very large
    repeat_count = tf.floor(prob_ratio)
    # prob_ratio can be e.g 1.9 which means that there is still 90%
    # of change that we should return 2 instead of 1
    repeat_residual = prob_ratio - repeat_count # a number between 0-1
    residual_acceptance = tf.less_equal(
                        tf.random_uniform([], dtype=tf.float32), repeat_residual
    )

    residual_acceptance = tf.cast(residual_acceptance, tf.int64)
    repeat_count = tf.cast(repeat_count, dtype=tf.int64)

    return repeat_count + residual_acceptance


def undersampling_filter(example):
    """
    Computes if given example is rejected or not.
    """
    class_prob = example['class_prob']
    class_target_prob = example['class_target_prob']
    prob_ratio = tf.cast(class_target_prob/class_prob, dtype=tf.float32)
    prob_ratio = prob_ratio ** undersampling_coef
    prob_ratio = tf.minimum(prob_ratio, 1.0)

    acceptance = tf.less_equal(tf.random_uniform([], dtype=tf.float32), prob_ratio)

    return acceptance


dataset = dataset.flat_map(
    lambda x: tf.data.Dataset.from_tensors(x).repeat(oversample_classes(x))
)

dataset = dataset.filter(undersampling_filter)

dataset = dataset.repeat(-1)
dataset = dataset.shuffle(2048)
dataset = dataset.batch(32)

sess.run(tf.global_variables_initializer())

iterator = dataset.make_one_shot_iterator()
next_element = iterator.get_next()

更新#1

这是一个简单的Jupyter笔记本它在玩具模型上实现了上述过采样/欠采样。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow 数据集 API 中的过采样功能的相关文章

管理 Tweepy API 搜索

如果这是对之前在其他地方回答过的问题的粗略重复请原谅我但我不知道如何使用 tweepy API 搜索功能是否有任何有关如何使用搜索推文的文档api search 功能有什么方法可以控制返回的推文数量结果类型等功能由于某种原因结
使用 Pillow 和 Numpy 进行图像推导

I have two images and 我想导出一个只有红色 Hello 的图像例如所以我正在运行一个简单的推导python脚本 from PIL import Image import numpy as np root root
在 Django 中获取数据库类型[重复]

这个问题在这里已经有答案了我需要能够确定 Django 运行时使用的数据库类型 MYSQL False if
xlrd 读取 xls XLRDError：不支持的格式或损坏的文件：预期的 BOF 记录；找到“\r\n”

这是代码 xls open workbook data xls 作为回报 File home woles P2 fin fin apps data container importer py line 16 in import data x
顶级棉花糖模式验证

From 棉花糖 validation http marshmallow readthedocs org en latest quickstart html validation 我知道我可以在架构中的特定字段上注册验证器如果验证器失败
如何使 Django ManyToMany “直通”查询更加高效？

我使用的是 ManyToManyField 和 through 类这会在获取事物列表时产生大量查询我想知道是否有更有效的方法例如这里有一些描述书籍及其几位作者的简化类它们通过角色类定义编辑器插画家等角色 class Per
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
Python 列表理解不适用于 itertools.groupby 解码

我正在尝试解码结果itertools groupby到一个值列表中我的来源是 x 1 2 2 1 6 3 6 5 1 3 最初的方法是使用 for 语句来实现如下所示 keyfunc itemgetter 0 groups unique
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
覆盖现有的 django-admin 命令

除了编写自定义 django admin 命令之外这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令例如ma
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节

随机推荐

Angular2 传递函数作为组件输入不起作用

我有一个以函数作为输入的组件我已经从父级传递了这个函数尽管调用了该函数但该函数无法访问声明该函数的实例的依赖项这是组件 Component selector custom element template val export cl
WCF ChannelFactory 与生成代理

只是想知道当您可以使用 ChannelFactory 调用时在什么情况下您更愿意从 WCF 服务生成代理这样你就不必生成代理并担心服务器更新时重新生成代理了 Thanks 创建 WCF 客户端有 3 种基本方法让 Visual Stu
限制ManyToManyField的最大选择

我试图限制模型记录在 ManyToManyField 中可以拥有的最大选择数量在此示例中有一个可以与区域相关的博客站点在此示例中我想将博客站点限制为只能有 3 个区域这似乎是以前被问过回答过的问题但经过几个小时的探索后我还没
Helm 图表之间的依赖关系是否应该反映微服务之间的依赖关系？

给定以下服务方案及其依赖项我想设计一组 Helm 图表 API Gateway calls Service A and Service C Service A calls Service B Service B calls Databas
ASP.NET Identity 2.0：如何重新哈希密码

我正在 ASP NET 5 0 Web 应用程序中将用户从旧用户存储迁移到 ASP NET Identity 2 0 我有一种验证旧哈希值的方法但我想在登录时将它们升级到 ASP NET Identity 2 0 哈希值我创建了一个自定
使用 MemoryStream 写入 XML

我注意到有两种不同的方法将数据写入 XML 文件为简洁起见省略了错误处理第一种方法是构建 XML 文档然后将 XML 保存到文件中 using XmlWriter writer XmlWriter Create fileName w
如何在makefile配方中设置环境变量？

这是一个简化的 Makefile all for i 0 i lt 5 i do var var i echo var done echo var 我认为 var 的值是 0 1 2 3 4 但输出是 0 0 1 0 1 2 0 1 2 3
如何实现CoreData记录的重新排序？

我在 iPhone 应用程序中使用 CoreData 但 CoreData 不提供允许您对记录重新排序的自动方法我想过使用另一列来存储订单信息但是使用连续数字作为排序索引有问题如果我正在处理大量数据重新排序记录可能涉及更新排序信息上
Play 框架如何运作？

我喜欢玩与其他企业 Java 框架相比它对于开发人员来说使用起来非常简单但是它是如何做到的呢是什么让像 Java 这样的编译语言能够实现编辑刷新循环是什么让 Play 按其工作方式工作 Play 使用 Eclipse 编译器在
在 PL/SQL 中打印记录字段

如何在 PL SQL 中打印记录变量的所有字段记录变量有很多字段那么有没有比打印每个字段更好的方法呢也尝试过动态sql但没有帮助基于 Ollies 使用 dbms output 构建但用于动态遍历光标设置用于测试 create
ASP.NET MVC 3 - 在 jquery 对话框中编辑动态添加到模型集合的项目

我是 MVC 新手所以我不确定这里最好的方法是什么我有一个视图模型其中包含几个像这样的集合 public class MainViewModel public List
iPhone Web 应用程序可以使用相机吗？

我有一个网络应用程序我想拍照然后将它们上传到服务器这可以通过网络应用程序完成吗编辑现在可以了请参阅下面的答案不可以 webapp 无法访问内部设备尝试使用 PhoneGap 来缩小您的应用程序和内部设备之间的差距但这将编译一
通过列表和数组中的索引获取结构体项目

当我使用数组时structs 例如 System Drawing Point 我可以通过索引获取项目并更改它例如此代码工作正常 Point points new Point new Point 0 0 new Point 1 1 new
寻找曲线上的最佳权衡点

假设我有一些数据我想为其拟合参数化模型我的目标是找到该模型参数的最佳值我正在使用AIC BIC MDL奖励低误差模型的标准类型但也会惩罚高复杂性的模型可以说我们正在为这些数据寻找最简单但最令人信服的解释 a la奥卡姆剃刀根据
如何在不删除 R 中存在 NA 的行的情况下执行聚类

我有一个数据其元素中包含一些 NA 值我想做的是执行聚类而不删除行NA 存在的地方我明白那个gower距离测量单位daisy允许这种情况但为什么我下面的代码不起作用我欢迎雏菊以外的其他选择 plot heat map with
Flutter Workmanager 插件在运行任务时无法与任何其他插件一起使用

初始化工作管理器并创建任一任务后如果我们在任务执行中使用任何插件它将无法被识别并抛出如下错误 MissingPluginException 在通道 lyokone location 上找不到方法 getLocation 的实现实际代码
为什么 stdafx.h 会这样工作？

像往常一样当我的大脑搞乱了我自己无法弄清楚的事情时我会向你们寻求帮助这次我一直想知道为什么 stdafx h 会这样工作据我了解它做了两件事包括我们的标准标头might 使用并且很少改变作为编译器书签代码不再预编译现在这
BOOST_CHECK_EQUAL 带有pair 和自定义运算符<<

当尝试执行 BOOST CHECK EQUAL pair pair 时尽管声明了它但 gcc 找不到pair的流运算符有趣的是 std out 找到了运算符 ostream operator lt lt ostream s const
检测类型是否是主模板的专业化或用户提供的专业化

假设我有这个 template
Tensorflow 数据集 API 中的过采样功能

我想问一下目前的数据集API是否允许实现过采样算法我处理高度不平衡的阶级问题我认为在数据集解析即在线生成过程中对特定类进行过采样会很好我已经看到了rejection resample函数的实现但是这会删除样本而不是复制它们并且

Tensorflow 数据集 API 中的过采样功能

更新#1

Tensorflow 数据集 API 中的过采样功能 的相关文章

随机推荐

热门标签

Tensorflow 数据集 API 中的过采样功能的相关文章