经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
机械之心报道
机械之心编辑部
不必换模型、不必堆参数,靠 SUGAR 模型性能大增!
在深度学习领域中,对激活函数的探讨已成为一个独立的研究偏向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。
尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。
然而 ReLU 单位易陷入所谓的「死亡 ReLU 问题」, 一旦某个神经元在训练中输出恒为 0,其梯度也为 0,无法再恢复。 这一现象最终制约了其整体效能,也是 ReLU 网络的重大缺陷。
正是死亡 ReLU 问题催生了大宗革新的线性单位函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活,提供了差别的权衡。
本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的要领:SUGAR(Surrogate Gradient for ReLU),在不牺牲 ReLU 优势的情况下解决了 ReLU 的局限性。即前向流传仍使用标准 ReLU(坚持其稀疏性和简单性),反向流传时替换 ReLU 的导数为一个非零、连续的替代梯度函数(surrogate gradient)。
这样可以让 ReLU 在坚持原始前向行为的同时,制止梯度为零的问题,从而复生死神经元。
基于此,本文还设计了两种新型替代梯度函数:B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以无缝集成到种种模型中。
本研究的进一步孝敬如下:
本文对 VGG-16 和 ResNet-18 进行了全面的实验,标明 SUGAR 显著增强了这两种架构的泛化能力。本文在Swin Transformer和 Conv2NeXt 等现代架构上对 SUGAR 进行了评估,展示了其适应性和有效性。对 VGG-16 层激活的深入剖析标明,当应用 SUGAR 时,激活漫衍爆发了明显的变革,为其在缓解消亡 ReLU 问题中的作用提供了直观证据,同时增进了更稀疏的体现。
SUGAR 要领易于实现,并在前向流传中始终接纳 ReLU 激活函数。与所提出的 B-SiLU 替代函数结合使用时,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率划分提升了 10 个百分点和 16 个百分点,而 ResNet-18 与未使用 SUGAR 的最佳模型相比,划分提升了 9 个百分点和 7 个百分点。
论文题目: The Resurrection of the ReLU论文链接:https://arxiv.org/pdf/2505.22074
SUGAR 介绍
本文提出的要领将 FGI ( Forward gradient injection )应用于具有平滑替代函数的 ReLU 网络中。在 SUGAR 框架下, FGI 可以体现为:
该公式实现了梯度注入,并确保纵然关于负激活也能进行梯度流传。具体来说,利用 [34] 中的乘法技巧,替代梯度函数的直接注入如下:
替代函数的选择具有灵活性,可兼容目今最先进的种种激活函数,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(见图 8)。
要害区别在于,与 ReLU 差别,这些候选替代函数均具有一个配合特征:对负输入(x < 0)能爆发非零梯度。虽然这些函数为负激活提供了梯度流通路径,但前向流传及后续损失盘算仍严格依赖 x > 0 时的激活输出。
在开端研究中,本文意识到需要调解目今的激活函数以适应 SUGAR 的特定用途。因此,接下来本文提出了两个与这些设置良好匹配的新替代函数。
B-SiLU:引入了一种名为 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函数,它结合了自门控特性和可调下限参数。从数学上讲,该函数可以体现为:
B-SiLU 激活函数的导数为:
图 8 中可视化了 B-SiLU 及其导数。
NeLU:本文进一步引入了 NeLU(Negative slope Linear Unit),作为 ReLU 的平滑导数替代品。
最终的梯度如图 1 所示。
实验
总体而言,与 ReLU 基线相比,SUGAR 结合 ELU、SELU 以及特别是 B-SiLU 获得了最大的提升,而 LeakyReLU 和 NeLU 则始终体现不佳(见图 2)。在 CIFAR-10 数据集上使用 ResNet-18 作为主干网络时,B-SiLU 的性能从 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也体现出类似的效果:B-SiLU 将测试精度提高了近 10 个百分点(从 78.50% 提升到 88.35%)。
在 CIFAR-100 数据集上,SUGAR 结合 B-SiLU 的优势越创造显:ResNet-18 的准确率从 48.99% 跃升至 56.51%,VGG-16 的准确率从 48.73% 提升至 64.47%(见图 3)。同样,Leaky ReLU 和 NeLU 仅显示出微小的甚至是负的提升(例如 ResNet-18 上的 43.67% → 43.41%)。
总的来说,B-SiLU 在差别架构和数据集上均优于其他替代激活函数,ELU 和 SELU 能够提供可靠的革新,而在这种设置下,SUGAR 从 Leaky ReLU 和 NeLU 中并未获得有意义的益处。
当应用于 Conv2NeXt 时,如表 1 所示,SUGAR 在前向和反向流传历程中均始终优于使用 GELU 的基础模型。
了解更多内容,请参考原论文。
део+18一29
中国🇨🇳老太DH
二次元美女裸体❌视频
国产性猛交XX乱天美传煤
吹雪为什么叫欠雷
樱岛麻衣被❌爽到爆衣动漫
游艇宝贝HD最新版本更新内容
精品一区二区无遮挡高潮大片
动漫被❌到爽🔞流游戏
❌蜜❌桃❌黄❌片AV游戏
美女给男生脱蕾丝内裤
日本壮熊Gay无套XXXX
碧蓝航线裸乳被爆白浆的视频
3D动漫蒂法被辱奶在线观看
FreePornVideos
亚洲AV纯肉无码精品动漫樱花
面具公社网页版入口官网
巨胸大乳www视频免费观看
女校长脱👙让学生摸🐻
芙宁娜🈲️🔞黄网站3d
二年半免费观看
关小雨被❌超污网站下载
西施自慰❌❌喷水好爽
丝袜让男生❌了一夜网站
西施🌸扒腿爽出白色液体
动漫❌裸体❌女同❌2D
维度缠绕黎深凹3
小🐔🐔伸进🈲🔞🔞作文
原神丽莎又爽又黄❌
レストラント排泄脱粪
时间停止器×校花h文系列
动漫❌❌爆乳❌❌3b网站
成人🔞色情表情包
91丨九色丨❤黑色JK
未成人男女🔞高潮小说
樱桃直播
伴郎粗大让我高潮了三次
美女脱👙免费看尿囗㊙️
欧美欧美老妇人❌❌❌❌免费老师
校花脱👙让男生摸🐻公共场所
李丽莎足球杯圣光图片
成人性生交大片免费看5分钟
弄得好舒服快高潮了说说
玖辛奈和水门❌❌
131MM美女大尺度毛毛多
别揉我奶头⋯啊⋯嗯h校园体育生
白丝疯狂❌喷水自慰漫画
孟子义露出大双奶头的照片视频
亚洲人 青少年 掀裙 撒尿
欧美护士自慰❌❌❌
揉⋯啊⋯嗯~出水了震动器韩漫
e站蛋仔本子
胰岛素多少才是糖尿病
金晨裸乳被爆❌白浆
jK黑色丝袜美女被视频网站
👅奶头张开腿被❌视频
ass韩国人体裸体欣赏
女下部㊙️免费网站
国产精品亚洲AV无码一线天
用力哦高潮喷了公主
人与鲁❌❌❌❌HD
章若楠乳罩被解开玩弄小说
小兰被❌到喷水18禁视频
裸片视频大全
花火强制捆绑丨vk
泰国79表演秀完整在线观看
春丽裸体被爆❌羞羞漫画
岳洗澡后让我挺进去观看
老阿姨泻火的精神小伙
筋膜枪翻白眼小姐姐叫什么
FreePorno💋👙16
요청한마당2023-10-15
纳兰嫣然被扒开腿狂❌小说
BBW丰满大肥奶肥婆小说
白丝大胸小舞被❌出白荡
18🈲️小泬破白浆流啪啪
唐山熟女高潮45分钟
隐士把囚徒坐到合不上
露娜疯狂❌自慰爽网站
隐私丨vk全部脱丅K
动漫爆乳玻璃无尽
网友评论 检察所有评论>>