针对层级的训练策略

Kaggle Feedback Prize 3比赛总结：针对层级的训练策略

Last Layers Re initialization 我们不使用所有层的预训练权重 xff0c 而是使用原始的Transformer初始化来重新初始化指定的层数重新初始化的层会破坏这些特定块的预训练知识我们知道较低的预训练层学习更

kaggle Feedback Prize 比赛总结 针对层级的训练策略