【论文-损失函数】Learning with Average Top-k Loss

2023-05-16

基本信息

paper: Learning with Average Top-k Loss

code: pytorch

论文思路

        该损失适用于在线难例挖掘。即在训练时选择前K个loss较大的样本进行back propagate(bp),而loss较小的样本(easy samples)则认为分类正确不用bp(loss较小可认为学会了,既然学会了就没有必要再学,也就不需要bp了),这里的前K可以是一个百分比,即前K%的hard样本,如70%,这个是MTCNN OHSM 采用的方法,注意K不能太大(论文中最佳结果是10%)否则不能达到hard sample mining的作用。训练经验而言,不用TopK loss会出现很多很难解决的误检问题; 讲道理人脑也类似,倾向于学习那些不会的问题(or novel things),对于容易解决且已经正确的问题不再去学习,也就是我们常说的有效信息变少了; 对模型而言如果全部使用分错的样本loss去bp容易按下葫芦起了瓢,topk 能有效避免这个问题。

使用评价

        Topk损失可以结合任意损失使用,论文中是结合Dice损失使用,确有难例挖掘的效果,但是要注意样本数据质量。使用中,对于分类问题可以按样本为最小单位取topk;对于语义分割问题,考虑到损失本来就是batch平均,有两种思路,一种是按样本为最小单位取topk;另一种是按像素为最小单位取topk。对于语义分割,按像素的took是更加常用的方式,也就是常说的OHEM(在线那里挖掘),其在损失函数中的添加方式具体见【损失函数】图像分割损失CELoss中添加 OHEM_there2belief的博客-CSDN博客。

论文介绍

        来自于:Learning with Average Top-k Loss 论文复现 - 知乎 (zhihu.com)        

        损失是一种非常通用的聚合损失,其可以和很多现有的定义在单个样本上的损失 结合起来,如logistic损失,hinge损失,平方损失(L2),绝对值损失(L1)等等。通过引入自由度 k,损失可以更好的拟合数据的不同分布。当数据存在多分布或类别分布不均衡的时候,最小化平均损失会牺牲掉小类样本以达到在整体样本集上的损失最小;当数据存在噪音或外点的时候,最大损失对噪音非常的敏感,学习到的分类边界跟Bayes最优边界相差很大;当采取损失最为聚合损失的时候(如k=10),可以更好的保护小类样本,并且其相对于最大损失而言对噪音更加鲁棒。所以我们可以推测:最优的k即不是k = 1(对应最大损失)也不是k = n(对应平均损失),而是在[1, n]之间存在一个比较合理的k的取值区间。

        上图结合仿真数据显示了最小化平均损失和最小化最大损失分别得到的分类结果。可以看出,当数据分布不均衡或是某类数据存在典型分布和非典型分布的时候,最小化平均损失会忽略小类分布的数据而得到次优的结果;而最大损失对样本噪音和外点(outliers)非常的敏感,即使数据中仅存在一个外点也可能导致模型学到非常糟糕的分类边界;相比于最大损失损失,第k大损失对噪音更加鲁棒,但其在k > 1时非凸非连续,优化非常困难。

        由于真实数据集非常复杂,可能存在多分布性、不平衡性以及噪音等等,为了更好的拟合数据的不同分布,我们提出了平均Top-K损失作为一种新的聚合损失。

        由于数据集复杂,所以就在想一些难例挖掘的方法。看看这个方法能否带来一个更好的模型效果。该方法的主要思想是使用数值较大的排在前面的梯度进行反向传播,可以认为是一种在线难例挖掘方法,该方法使模型讲注意力放在较难学习的样本上,以此让模型产生更好的效果。代码如下所示。

class topk_crossEntrophy(nn.Layer):

    def __init__(self, top_k=0.6):
        super(topk_crossEntrophy, self).__init__()
        self.loss = nn.NLLLoss()
        self.top_k = top_k
        self.softmax = nn.LogSoftmax()
        return

    def forward(self, inputs, target):
        softmax_result = self.softmax(inputs)

        loss1 = paddle.zeros([1])
        for idx, row in enumerate(softmax_result):
            gt = target[idx]
            pred = paddle.unsqueeze(row, 0)
            cost = self.loss(pred, gt)
            loss1 = paddle.concat((loss1, cost), 0)

        loss1 = loss1[1:]
        if self.top_k == 1:
            valid_loss1 = loss1
        index = paddle.topk(loss1, int(self.top_k * len(loss1)))
        valid_loss1 = loss1[index[1]]

        return paddle.mean(valid_loss1)
  • topk_loss的主要思想
  • topk_loss的核心思想,即通过控制损失函数的梯度反传,使模型对Loss值较大的样本更加关注。该函数即为CrossEntropyLoss函数的具体实现,只不过是在计算nllloss的时候取了前70%的梯度,
  • 数学逻辑:挖掘反向传播前 70% 梯度。

代码实战

        此部分使用比赛中的数据集,并带领大家使用Top-k Loss完成模型训练。在本例中使用前70%的Loss。

!cd 'data/data107306' && unzip -q img.zip
# 导入所需要的库
from sklearn.utils import shuffle
import os
import pandas as pd
import numpy as np
from PIL import Image

import paddle
import paddle.nn as nn
from paddle.io import Dataset
import paddle.vision.transforms as T
import paddle.nn.functional as F
from paddle.metric import Accuracy

import warnings
warnings.filterwarnings("ignore")

# 读取数据
train_images = pd.read_csv('data/data107306/img/df_all.csv')

train_images = shuffle(train_images)
# 划分训练集和校验集
all_size = len(train_images)
train_size = int(all_size * 0.9)
train_image_list = train_images[:train_size]
val_image_list = train_images[train_size:]

train_image_path_list = train_image_list['image'].values
label_list = train_image_list['label'].values
train_label_list = paddle.to_tensor(label_list, dtype='int64')

val_image_path_list = val_image_list['image'].values
val_label_list1 = val_image_list['label'].values
val_label_list = paddle.to_tensor(val_label_list1, dtype='int64')

# 定义数据预处理
data_transforms = T.Compose([
    T.Resize(size=(448, 448)),

    T.Transpose(),    # HWC -> CHW
    T.Normalize(

        mean = [0, 0, 0],
        std = [255, 255, 255],
        to_rgb=True)    
])
# 构建Dataset
class MyDataset(paddle.io.Dataset):
    """
    步骤一:继承paddle.io.Dataset类
    """
    def __init__(self, train_img_list, val_img_list,train_label_list,val_label_list, mode='train'):
        """
        步骤二:实现构造函数,定义数据读取方式,划分训练和测试数据集
        """
        super(MyDataset, self).__init__()
        self.img = []
        self.label = []
        self.valimg = []
        self.vallabel = []
        # 借助pandas读csv的库
        self.train_images = train_img_list
        self.test_images = val_img_list
        self.train_label = train_label_list
        self.test_label = val_label_list
        # self.mode = mode
        if mode == 'train':
            # 读train_images的数据
            for img,la in zip(self.train_images, self.train_label):
                self.img.append('data/data107306/img/imgV/'+img)
                self.label.append(la)
        else :
            # 读test_images的数据
            for img,la in zip(self.test_images, self.test_label):
                self.img.append('data/data107306/img/imgV/'+img)
                self.label.append(la)

    def load_img(self, image_path):
        # 实际使用时使用Pillow相关库进行图片读取即可,这里我们对数据先做个模拟
        image = Image.open(image_path).convert('RGB')
        image = np.array(image).astype('float32')
        return image

    def __getitem__(self, index):
        """
        步骤三:实现__getitem__方法,定义指定index时如何获取数据,并返回单条数据(训练数据,对应的标签)
        """
        # if self.mode == 'train':

        image = self.load_img(self.img[index])
        label = self.label[index]

        return data_transforms(image), label

    def __len__(self):
        """
        步骤四:实现__len__方法,返回数据集总数目
        """
        return len(self.img)
#train_loader
train_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='train')
train_loader = paddle.io.DataLoader(train_dataset, places=paddle.CPUPlace(), batch_size=4, shuffle=True, num_workers=0)

#val_loader
val_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='test')
val_loader = paddle.io.DataLoader(val_dataset, places=paddle.CPUPlace(), batch_size=4, shuffle=True, num_workers=0)
from res2net import Res2Net50_vd_26w_4s

# 模型封装
model_re2 = Res2Net50_vd_26w_4s(class_dim=4)
import paddle.nn.functional as F
import paddle
modelre2_state_dict = paddle.load("Res2Net50_vd_26w_4s_pretrained.pdparams")

model_re2.set_state_dict(modelre2_state_dict, use_structured_name=True)
model_re2.train()
epochs = 2

optim1 = paddle.optimizer.Adam(learning_rate=3e-4, parameters=model_re2.parameters())
class topk_crossEntrophy(nn.Layer):

    def __init__(self, top_k=0.7):
        super(topk_crossEntrophy, self).__init__()
        self.loss = nn.NLLLoss()
        self.top_k = top_k
        self.softmax = nn.LogSoftmax()
        return

    def forward(self, inputs, target):
        softmax_result = self.softmax(inputs)

        loss1 = paddle.zeros([1])
        for idx, row in enumerate(softmax_result):
            gt = target[idx]
            pred = paddle.unsqueeze(row, 0)
            cost = self.loss(pred, gt)
            loss1 = paddle.concat((loss1, cost), 0)

        loss1 = loss1[1:]
        if self.top_k == 1:
            valid_loss1 = loss1
        # print(len(loss1))
        index = paddle.topk(loss1, int(self.top_k * len(loss1)))
        valid_loss1 = loss1[index[1]]

        return paddle.mean(valid_loss1)

topk_loss = topk_crossEntrophy()
from numpy import *
# 用Adam作为优化函数
for epoch in range(epochs):

    loss1_train = []
    loss2_train = []
    loss_train = []

    acc1_train = []
    acc2_train = []
    acc_train = []
    for batch_id, data in enumerate(train_loader()):

        x_data = data[0]
        y_data = data[1]
        y_data1 = paddle.topk(y_data, 1)[1]
        predicts1 = model_re2(x_data)

        loss1 = topk_loss(predicts1, y_data1)

        # 计算损失
        acc1 = paddle.metric.accuracy(predicts1, y_data)

        loss1.backward()

        if batch_id % 1 == 0:
            print("epoch: {}, batch_id: {}, loss1 is: {}, acc1 is: {}".format(epoch, batch_id, loss1.numpy(), acc1.numpy()))



        optim1.step()
        optim1.clear_grad()


    loss1_eval = []
    loss2_eval = []
    loss_eval = []
    acc1_eval = []
    acc2_eval = []
    acc_eval = []
    for batch_id, data in enumerate(val_loader()):
        x_data = data[0]
        y_data = data[1]

        y_data1 = paddle.topk(y_data, 1)[1]

        predicts1 = model_re2(x_data)

        loss1 = topk_loss(predicts1, y_data1)
        loss1_eval.append(loss1.numpy())

        # 计算acc
        acc1 = paddle.metric.accuracy(predicts1, y_data)
        acc1_eval.append(acc1)

        if batch_id % 100 == 0:
            print('************Eval Begin!!***************')
            print("epoch: {}, batch_id: {}, loss1 is: {}, acc1 is: {}".format(epoch, batch_id, loss1.numpy(), acc1.numpy()))

            print('************Eval End!!***************')

总结

  • 在该工作中,分析了平均损失和最大损失等聚合损失的优缺点,并提出了平均Top-K损失(损失)作为一种新的聚合损失,其包含了平均损失和最大损失并能够更好的拟合不同的数据分布,特别是在多分布数据和不平衡数据中。损失降低正确分类样本带来的损失,使得模型学习的过程中可以更好的专注于解决复杂样本,并由此提供了一种保护小类数据的机制。损失仍然是原始损失的凸函数,具有很好的可优化性质。我们还分析了损失的理论性质,包括classification calibration等。
  • Top-k loss 的参数设置为1时,此损失函数将变cross_entropy损失,对其进行测试,结果与原始cross_entropy()完全一样。但是我在实际的使用中,使用此损失函数却没使模型取得一个更好的结果。需要做进一步的实验。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文-损失函数】Learning with Average Top-k Loss 的相关文章

  • 真正的非零预测的损失惩罚更高

    我正在构建一个深度回归网络 CNN 来从图像 7 11 预测 1000 1 目标向量 目标通常由大约90 为零并且只有10 非零值 目标中 非 零值的分布因样本而异 即不存在全局类别不平衡 使用均方误差损失 这导致网络仅预测零 我对此并不感
  • 计算平均值时如何避免潜在的溢出?

    我正在编写一个函数来获取调用特定的时钟的平均值void void aka void gt void运行特定次数 我担心如果样本量太大 观察值的总和会溢出并使平均值无效 是否有一种标准方法可以消除此类问题中总和溢出的可能性 注意 我知道这个例
  • 从数据库中获取高于平均水平的学生

    我创建了一个视图 其中包含 student full name subject code result Jennifer Higgins CS1234 81 Jennifer Higgins CS1235 90 Kal Penn CS123
  • 计算行总和的平均值,无需在 Excel 中创建新列

    这是我的矩阵的示例 A B C D E 1 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 2 1 您可以将每一行视为受访者 将每一列视为调查问卷上的一个项目 我的目标是取每行总和的平均值 即每个受访者的总分 无需创建新列并考虑
  • awk每列n条数据的平均值

    使用 awk 将值存储在数字列表中 提供使用 awk 对列中每组 3 个点进行平均的解决方案 如何将其扩展到保持格式的无限数量的列 例如 2457135 564106 13 249116 13 140903 0 003615 0 00344
  • 用 sum group by 计算平均成绩

    我必须显示每个用户的名字和姓氏 学习年份 年龄 平均成绩以及一般平均成绩 平均成绩 I 需要这样计算 Sum AverageGrade total number of grades userID FirstName LastName Bir
  • 如何在 Keras 中实现自适应损失?

    我正在尝试使用 Keras 来实现中完成的工作通用的自适应鲁棒损失函数 https arxiv org abs 1701 03077 作者提供了处理困难细节的张量流代码 我只是想在 Keras 中使用他的预构建函数 他的自定义损失函数正在学
  • Excel 中多列过滤器的平均值

    我想要一个公式来显示 Excel 中多个过滤值的平均值 例如 在 A 列中我有年份 在 B 列中我有月份 在 C 列中我有值 所以我想选择2011年5月 并获取C列中满足这些要求的值的平均值 我在想像这样的函数 AVERAGE IF AND
  • 计算平均值或将 ArrayList 作为函数的参数

    是否有内置方法来计算整数 ArrayList 的平均值 如果没有 我可以创建一个函数 通过获取 ArrayList 的名称并返回其平均值来实现此目的吗 这真的很简单 Better use a List It is more generic
  • 如何在mysql表中选择、平均和排序

    i have a table in mySql like in this picture 我想编写一个查询 其结果将按 LESSON 列分组 并添加新行 该新行是 LESSON 列的平均值和 CNT 列值之和 对于这个查询我使用这个 我使用
  • CNN 上的快速损失收敛意味着什么?

    我正在两个不同的深度学习库 Caffe e Tensorflow 中训练两个 CNN AlexNet e GoogLeNet 该网络由每个图书馆的开发团队实施 here https github com BVLC caffe tree ma
  • 如何在 Postgres 中获取时间间隔的平均值

    我正在使用 PostgreSQL 9 6 我有一个这样的表 mac sn loc time date vin1 vin2 vin3 1a34 4as11111111 aaaa 7 06 18 1 1 2018 447 42 472 32 6
  • 从命令行获取一组数字的平均值的最快方法是什么?

    使用您希望在 nix 系统上找到的任何工具 事实上 如果您愿意 msdos 也很好 计算一组数字的平均值的最简单 最快的方法是什么 假设您有一个流或文件中的每行 awk n 1 END print n NR 这将总和累加到n 然后除以项目数
  • 使用 Javascript 平均时间

    我正在使用 Phonegap 和 JQuery 构建一个应用程序 该应用程序以该格式存储 使用 window localStorage 一组时间 不超过 10 个 HH MM SS mm 列表中有许多 零 时间 例如 00 00 00 00
  • SQLite Exists关键字:如何查询最高平均值?

    在具有两列 mID 和 stars 的 SQLite 数据库表中 我必须返回 stars 平均值最高的 mID 有以下数据 Rating mID stars 101 2 101 4 106 4 103 2 108 4 108 2 101 3
  • 两个环绕角度的平均值[重复]

    这个问题在这里已经有答案了 可能的重复 如何计算一组循环数据的平均值 https stackoverflow com questions 491738 how do you calculate the average of a set of
  • 按分钟对索引进行分组并计算平均值

    所以我有一个名为 df 的 pandas 数据框 我想删除秒数并只使用 YYYY MM DD HH MM 格式的索引 然后还会对分钟进行分组并显示该分钟的平均值 所以我想把这个数据框 value 2015 05 03 00 00 00 61
  • R 中值的累积计数

    我希望你做得很好 我想知道如何计算特定条件下数据集的累积和 我的数据集的简化版本如下所示 t id A 22 A 22 R 22 A 41 A 98 A 98 A 98 R 98 A 46 A 46 R 46 A 46 A 46 A 46
  • 将 NA 替换为 NA 前后情况的平均值

    假设我有以下数据框 t lt c 1 1 2 4 5 4 u lt c 1 3 4 5 4 2 v lt c 2 3 4 5 NA 2 w lt c NA 3 4 5 2 3 x lt c 2 3 4 5 6 NA df lt data f
  • 如何从Python文件中查找每个工作角色的平均工资

    我想写一个python代码来查找平均工资对于每种类型的工作角色 我认为您这样做是为了学习如何使用 Python 编写此类代码的练习 那么这种仅使用基本 Python 命令和类型的方法应该会有所帮助 read file content wit

随机推荐