- ImageNet的top-1终于上了90%,网友质疑:用额外数据集还不公开,让人
- 来源:机器之心
选自arXiv作者:Hieu Pham、Quoc Le等机器之心编译
机器之心编辑部Quoc Le:我原本以为 ImageNet 的 top-1 准确率 85% 就到头了,现在看来,这个上限难以预测。
近日,谷歌大脑研究科学家、AutoML 鼻祖 Quoc Le 发文表示,他们提出了一种新的半监督学习方法,可以将模型在 ImageNet 上的 top-1 准确率提升到 90.2%,与之前的 SOTA 相比实现了 1.6% 的性能提升。
这一成果刷新了 Quoc Le 对于 ImageNet 的看法。2016 年左右,他认为深度学习模型在 ImageNet 上的 top-1 准确率上限是 85%,但随着这一数字被多个模型不断刷新,Quoc Le 也开始对该领域的最新研究抱有更多期待。而此次 90.2% 的新纪录更是让他相信:ImageNet 的 top-1 还有很大空间。
Quoc Le 介绍称,为了实现这一结果,他们使用了一种名为「元伪标签(Meta Pseudo Label)」的半监督学习方法来训练 EfficientNet-L2。
和伪标签(Pseudo Label)方法类似,元伪标签方法有一个用来在未标注数据上生成伪标签并教授学生网络的教师网络。然而,与教师网络固定的伪标签方法相比,元伪标签方法有一个从学生网络到教师网络的反馈循环,其教师网络可以根据学生网络在标记数据集上的表现进行调整,即教师和学生同时接受训练,并在这一过程中互相教授。
这篇有关元伪标签的论文最早提交于 2020 年 3 月,最近又放出了最新版本。
论文链接:https://arxiv.org/pdf/2003.10580.pdf代码链接:https://github.com/google-research/google-research/tree/master/meta_pseudo_labels
在新版本中,研究者针对元伪标签方法进行了实验,用 ImageNet 数据集作为标记数据,JFT-300M 作为未标记数据。他们利用元伪标签方法训练了一对 EfficientNet-L2 网络,其中一个作为教师网络,另一个作为学生网络。最终,他们得到的学生模型在 ImageNet ILSVRC 2012 验证集上实现了 90.2% 的 top-1 准确率,比之前的 SOTA 方法提升了 1.6 个百分点(此前 ImageNet 上 top-1 的 SOTA 是由谷歌提出的 EfficientNet-L2-NoisyStudent + SAM(88.6%)和 ViT(88.55%))。这个学生模型还可以泛化至 ImageNet-ReaL 测试集,如下表 1 所示。
在 CIFAR10-4K、SVHN-1K 和 ImageNet-10% 上使用标准 ResNet 模型进行的小规模半监督学习实验也表明,元伪标签方法的性能优于最近提出的一系列其他方法,如 FixMatch 和无监督数据增强。
论文作者还表示,他们之所以在方法的命名中采用「meta」这个词,是因为他们让教师网络根据学生网络反馈进行更新的方法是基于双层优化问题(bi-level optimization problem),而该问题经常出现在元学习的相关文献中。
不过,这篇论文也受到了一些质疑,比如使用的数据集 JFT-300M 是未开源的数据集(不知道该数据集中有没有和 ImageNet 测试集相似的图片),导致外部人士很难判断其真正的含金量。
为什么要改进「伪标签」方法?
伪标签或自训练方法已经成功地应用于许多计算机视觉任务,如图像分类、目标检测、语义分割等。伪标签方法有一对网络:一个教师网络,一个学生网络。教师网络基于无标签图像生成伪标签,这些被「伪标注」的图像与标注图像结合,用来训练学生网络。由于使用了大量的伪标签数据和数据增强等正则化方法,学生网络通过学习可以超越教师网络。
尽管伪标签方法性能优越,但它也有一个很大的缺陷:如果伪标签不准确,学生网络就要从不准确的数据中学习。因此,最后训练出的学生网络未必比教师网络强多少。这一缺陷也被称为伪标记的确认偏差(confirmation bias)问题。
为了解决这一问题,Quoc Le 等人设计了系统的机制,让教师网络通过观察其伪标签对学生网络的影响来纠正上述偏差。确切地说,他们提出了元伪标签方法,利用来自学生网络的反馈为教师网络提供信息,促使其生成更好的伪标签。反馈信号是学生网络在标记数据上的表现。在学生网络的学习过程中,该反馈信号被用作训练教师网络的一种奖励。
怎么改进「伪标签」方法
伪标签方法和元伪标签方法的区别如下图 1 所示。可以看出,元伪标签方法多了一个关于学生网络表现的反馈。
符号解释
在论文中,T 和 S 分别表示教师网络和学生网络,它们的参数分别记为θ_T 和 θ_S。用 (x_l , y_l) 表示一批图像和图像对应的标签,x_u 表示一批未标记数据。此外,T(x_u; θ_T )表示教师网络对于 x_u 的软预测(soft predictions),学生网络同理。CE(q, p)表示 q 和 p 两个分布之间的交叉熵损失。如果 q 是一个标签,它会被理解为一个 one-hot 分布;如果 q 和 p 有多个实例,那么 CE(q, p)就是 batch 中所有实例的平均。
把伪标签看成一个优化问题
在介绍元伪标签之前,先来回顾一下伪标签。具体来说,伪标签(PL)方法会训练学生模型来最小化其在未标记数据上的交叉熵损失:
在上面的公式中,伪目标 T(x_u; θ_T )由一个训练良好、参数θ_T 固定的教师模型生成。给定一个优秀的教师模型,伪标签方法的愿景是让最终得到的 在未标记数据上损失很低,即
在伪标签的框架下,最优学生参数 总是通过伪目标 依赖于教师参数θ_T。为了便于讨论元伪标签,我们可以将该依赖表示为 。
作为一个即时的观察,学生网络在标记数据上的最终损失 也是θ_T 的「函数」。因此,我们可以进一步优化与θ_T 相关的 L_1
直观上来看,根据学生网络在标记数据上的表现优化教师网络参数之后,我们就能对伪标签作出相应调整,从而提高学生网络的性能。但需要注意的是, 在θ_T 上的依赖非常复杂,因此计算梯度 需要展开整个学生网络训练过程(即 )。
实际近似
为了让元伪标签方法变得可行,研究者借用了前人在元学习方面的一些工作,利用θ_S 的一步梯度更新近似多步 ,
其中,η_S 是学习率。将这个近似代入式(2)的优化问题中,就得到了元伪标签中的实际教师网络目标:
注意,如果软伪标签得到了应用,即 T(x_u; θ_T )是教师网络预测出的完整分布(full distribution),上述目标就是关于θ_T 完全可微的(fully differentiable),我们就能通过标准反向传播得到梯度。然而,在这篇论文中,研究者从教师网络分布中采样硬伪标签。因此,他们用了一个略作修改的 REINFORCE 版本来得到式(3)中 L_1 关于θ_T 的梯度。
另一方面,学生网络的训练还依赖于式(1)中的目标,只是教师网络的参数不再是固定的。相反,由于教师网络的优化,θ_T 一直在发生变化。更加有趣的是,学生网络参数的更新可以在教师网络目标的一步近似中重用,这自然会在学生网络更新和教师网络更新之间产生一个交替的优化过程。
学生网络:吸收一批未标记数据 x_u,然后从教师网络的预测中采样 T(x_u; θ_T ),接下来用 SGD 优化目标 1
教师网络:吸收一批标记数据(x_l , y_l),「重用」学生网络的更新,从而用 SGD 优化目标 3:
教师网络的辅助损失(auxiliary losses)
通过实验,研究者发现,元伪标签方法自己就能运行良好。当然,如果教师网络与其他辅助目标(auxiliary objective)联合训练,效果会更好。因此,在实现过程中,研究者用一个监督学习目标和一个半监督学习目标增强了教师网络的训练。对于监督学习目标,他们在标记数据上训练教师网络。对于半监督学习目标,他们使用 UDA 在未标记数据上训练教师网络。
最后,由于元伪标签方法中的学生网络只从带有伪标签的未标记数据中学习,我们可以在学生网络训练至收敛后借助标记数据对其进行微调,以提高其准略率。
实验结果
小规模实验
这部分展示了小规模实验的结果。首先,研究者借助简单的 TwoMoon 数据集测了一下「反馈」在元伪标签方法中的重要性,结果如下图 2 所示。从中可以看出,在 TwoMoon 数据集上,元伪标签方法(右)比监督学习方法(左)和伪标签方法(中)的表现都要好。
接下来,他们又将元伪标签方法与之前的 SOTA 半监督学习方法进行了对比,使用的基准包括 CIFAR-10-4K、SVHN-1K、ImageNet-10% 等,结果如下表 2 所示:
最后,他们使用完整的 ImageNet 数据集在标准的 ResNet-50 架构上进行了实验,结果如下表3所示:
大规模实验
这部分展示了大规模实验(大模型、大数据集)的结果。研究者使用了 EfficientNet-L2 架构,因为该架构的容量比 ResNet 大。Noisy Student 也用到了 EfficientNet-L2,在 ImageNet 上达到了 88.4% 的 top-1 准确率。
这部分的实验结果如下表 4 所示。从中可以看出,元伪标签方法以 90.2% 的准确率成为了 ImageNet top-1 的新 SOTA。
AAAI 2021线上分享 | 基于带约束深度强化学习实现无序混合码垛机器人在国防科技大学被AAAI 2021接收的论文《Online 3D Bin Packing with Constrained Deep Reinforcement Learning 》中,研究者提出基于深度强化学习(DRL)算法求解 Online 3D-BPP 问题,不仅提出了一种基于同策略 Actor-Critic 框架的「预测 - 投影」带约束策略学习方法,而且设计了一个性能远超同类型机器人的高效能无序混合码垛机器人。
今晚20:00,论文通讯作者、国防科技大学教授徐凯为大家详细解读此前沿研究。添加机器之心小助手(syncedai5),备注「AAAI」,进群一起看直播。 © THE END 转载请联系本公众号获得授权投稿或寻求报道:content@jiqizhixin.com
机器之心编辑部Quoc Le:我原本以为 ImageNet 的 top-1 准确率 85% 就到头了,现在看来,这个上限难以预测。
近日,谷歌大脑研究科学家、AutoML 鼻祖 Quoc Le 发文表示,他们提出了一种新的半监督学习方法,可以将模型在 ImageNet 上的 top-1 准确率提升到 90.2%,与之前的 SOTA 相比实现了 1.6% 的性能提升。
这一成果刷新了 Quoc Le 对于 ImageNet 的看法。2016 年左右,他认为深度学习模型在 ImageNet 上的 top-1 准确率上限是 85%,但随着这一数字被多个模型不断刷新,Quoc Le 也开始对该领域的最新研究抱有更多期待。而此次 90.2% 的新纪录更是让他相信:ImageNet 的 top-1 还有很大空间。
Quoc Le 介绍称,为了实现这一结果,他们使用了一种名为「元伪标签(Meta Pseudo Label)」的半监督学习方法来训练 EfficientNet-L2。
和伪标签(Pseudo Label)方法类似,元伪标签方法有一个用来在未标注数据上生成伪标签并教授学生网络的教师网络。然而,与教师网络固定的伪标签方法相比,元伪标签方法有一个从学生网络到教师网络的反馈循环,其教师网络可以根据学生网络在标记数据集上的表现进行调整,即教师和学生同时接受训练,并在这一过程中互相教授。
这篇有关元伪标签的论文最早提交于 2020 年 3 月,最近又放出了最新版本。
论文链接:https://arxiv.org/pdf/2003.10580.pdf代码链接:https://github.com/google-research/google-research/tree/master/meta_pseudo_labels
在新版本中,研究者针对元伪标签方法进行了实验,用 ImageNet 数据集作为标记数据,JFT-300M 作为未标记数据。他们利用元伪标签方法训练了一对 EfficientNet-L2 网络,其中一个作为教师网络,另一个作为学生网络。最终,他们得到的学生模型在 ImageNet ILSVRC 2012 验证集上实现了 90.2% 的 top-1 准确率,比之前的 SOTA 方法提升了 1.6 个百分点(此前 ImageNet 上 top-1 的 SOTA 是由谷歌提出的 EfficientNet-L2-NoisyStudent + SAM(88.6%)和 ViT(88.55%))。这个学生模型还可以泛化至 ImageNet-ReaL 测试集,如下表 1 所示。
在 CIFAR10-4K、SVHN-1K 和 ImageNet-10% 上使用标准 ResNet 模型进行的小规模半监督学习实验也表明,元伪标签方法的性能优于最近提出的一系列其他方法,如 FixMatch 和无监督数据增强。
论文作者还表示,他们之所以在方法的命名中采用「meta」这个词,是因为他们让教师网络根据学生网络反馈进行更新的方法是基于双层优化问题(bi-level optimization problem),而该问题经常出现在元学习的相关文献中。
不过,这篇论文也受到了一些质疑,比如使用的数据集 JFT-300M 是未开源的数据集(不知道该数据集中有没有和 ImageNet 测试集相似的图片),导致外部人士很难判断其真正的含金量。
为什么要改进「伪标签」方法?
伪标签或自训练方法已经成功地应用于许多计算机视觉任务,如图像分类、目标检测、语义分割等。伪标签方法有一对网络:一个教师网络,一个学生网络。教师网络基于无标签图像生成伪标签,这些被「伪标注」的图像与标注图像结合,用来训练学生网络。由于使用了大量的伪标签数据和数据增强等正则化方法,学生网络通过学习可以超越教师网络。
尽管伪标签方法性能优越,但它也有一个很大的缺陷:如果伪标签不准确,学生网络就要从不准确的数据中学习。因此,最后训练出的学生网络未必比教师网络强多少。这一缺陷也被称为伪标记的确认偏差(confirmation bias)问题。
为了解决这一问题,Quoc Le 等人设计了系统的机制,让教师网络通过观察其伪标签对学生网络的影响来纠正上述偏差。确切地说,他们提出了元伪标签方法,利用来自学生网络的反馈为教师网络提供信息,促使其生成更好的伪标签。反馈信号是学生网络在标记数据上的表现。在学生网络的学习过程中,该反馈信号被用作训练教师网络的一种奖励。
怎么改进「伪标签」方法
伪标签方法和元伪标签方法的区别如下图 1 所示。可以看出,元伪标签方法多了一个关于学生网络表现的反馈。
符号解释
在论文中,T 和 S 分别表示教师网络和学生网络,它们的参数分别记为θ_T 和 θ_S。用 (x_l , y_l) 表示一批图像和图像对应的标签,x_u 表示一批未标记数据。此外,T(x_u; θ_T )表示教师网络对于 x_u 的软预测(soft predictions),学生网络同理。CE(q, p)表示 q 和 p 两个分布之间的交叉熵损失。如果 q 是一个标签,它会被理解为一个 one-hot 分布;如果 q 和 p 有多个实例,那么 CE(q, p)就是 batch 中所有实例的平均。
把伪标签看成一个优化问题
在介绍元伪标签之前,先来回顾一下伪标签。具体来说,伪标签(PL)方法会训练学生模型来最小化其在未标记数据上的交叉熵损失:
在上面的公式中,伪目标 T(x_u; θ_T )由一个训练良好、参数θ_T 固定的教师模型生成。给定一个优秀的教师模型,伪标签方法的愿景是让最终得到的
在伪标签的框架下,最优学生参数
作为一个即时的观察,学生网络在标记数据上的最终损失
直观上来看,根据学生网络在标记数据上的表现优化教师网络参数之后,我们就能对伪标签作出相应调整,从而提高学生网络的性能。但需要注意的是,
实际近似
为了让元伪标签方法变得可行,研究者借用了前人在元学习方面的一些工作,利用θ_S 的一步梯度更新近似多步
其中,η_S 是学习率。将这个近似代入式(2)的优化问题中,就得到了元伪标签中的实际教师网络目标:
注意,如果软伪标签得到了应用,即 T(x_u; θ_T )是教师网络预测出的完整分布(full distribution),上述目标就是关于θ_T 完全可微的(fully differentiable),我们就能通过标准反向传播得到梯度。然而,在这篇论文中,研究者从教师网络分布中采样硬伪标签。因此,他们用了一个略作修改的 REINFORCE 版本来得到式(3)中 L_1 关于θ_T 的梯度。
另一方面,学生网络的训练还依赖于式(1)中的目标,只是教师网络的参数不再是固定的。相反,由于教师网络的优化,θ_T 一直在发生变化。更加有趣的是,学生网络参数的更新可以在教师网络目标的一步近似中重用,这自然会在学生网络更新和教师网络更新之间产生一个交替的优化过程。
学生网络:吸收一批未标记数据 x_u,然后从教师网络的预测中采样 T(x_u; θ_T ),接下来用 SGD 优化目标 1
教师网络:吸收一批标记数据(x_l , y_l),「重用」学生网络的更新,从而用 SGD 优化目标 3:
教师网络的辅助损失(auxiliary losses)
通过实验,研究者发现,元伪标签方法自己就能运行良好。当然,如果教师网络与其他辅助目标(auxiliary objective)联合训练,效果会更好。因此,在实现过程中,研究者用一个监督学习目标和一个半监督学习目标增强了教师网络的训练。对于监督学习目标,他们在标记数据上训练教师网络。对于半监督学习目标,他们使用 UDA 在未标记数据上训练教师网络。
最后,由于元伪标签方法中的学生网络只从带有伪标签的未标记数据中学习,我们可以在学生网络训练至收敛后借助标记数据对其进行微调,以提高其准略率。
实验结果
小规模实验
这部分展示了小规模实验的结果。首先,研究者借助简单的 TwoMoon 数据集测了一下「反馈」在元伪标签方法中的重要性,结果如下图 2 所示。从中可以看出,在 TwoMoon 数据集上,元伪标签方法(右)比监督学习方法(左)和伪标签方法(中)的表现都要好。
接下来,他们又将元伪标签方法与之前的 SOTA 半监督学习方法进行了对比,使用的基准包括 CIFAR-10-4K、SVHN-1K、ImageNet-10% 等,结果如下表 2 所示:
最后,他们使用完整的 ImageNet 数据集在标准的 ResNet-50 架构上进行了实验,结果如下表3所示:
大规模实验
这部分展示了大规模实验(大模型、大数据集)的结果。研究者使用了 EfficientNet-L2 架构,因为该架构的容量比 ResNet 大。Noisy Student 也用到了 EfficientNet-L2,在 ImageNet 上达到了 88.4% 的 top-1 准确率。
这部分的实验结果如下表 4 所示。从中可以看出,元伪标签方法以 90.2% 的准确率成为了 ImageNet top-1 的新 SOTA。
AAAI 2021线上分享 | 基于带约束深度强化学习实现无序混合码垛机器人在国防科技大学被AAAI 2021接收的论文《Online 3D Bin Packing with Constrained Deep Reinforcement Learning 》中,研究者提出基于深度强化学习(DRL)算法求解 Online 3D-BPP 问题,不仅提出了一种基于同策略 Actor-Critic 框架的「预测 - 投影」带约束策略学习方法,而且设计了一个性能远超同类型机器人的高效能无序混合码垛机器人。
今晚20:00,论文通讯作者、国防科技大学教授徐凯为大家详细解读此前沿研究。添加机器之心小助手(syncedai5),备注「AAAI」,进群一起看直播。
科技
-
-
- 线下展会,市民畅享科技大餐
- 5月28日,是2021中国国际大数据产业博览会线下展最后一天,也是免费向市民开放的公众日。趁此机会,记者继续带您探秘国际综合馆(W1馆)、数字应用馆(W2馆)、前沿技术馆(E1馆)、智慧产业馆(E2馆)4...
- 贵阳晚报
-
-
-
- 为何新药研发、基因测序、卫星遥感的发展提速都需要它?
- 人类第一次完整全基因组的测序花了13年,在新技术的加持下,这个时间已经降低到1天以内;没有这项新技术加持,电影《阿凡达》的渲染可能需要上万年;这项新技术还让新药的研发周期大幅缩短,让卫星遥感定位精度...
- 华为
-
-
-
- 大型金属3D打印厂商钢研极光亮相TCT,展示强大的生产服务能力
- 2021亚洲3D打印、增材制造展览会 (TCT Asia)于2021年5月26日-28日在国家会展中心(上海)7.1馆隆重举办。作为官方战略合作媒体,南极熊将会全程现场报道(地址https://www.nanjixiong.com/foru
- 南极熊3D打印
-
-
-
- 美国国家情报委员会《全球趋势2040——竞争更激烈的世界》报告摘译
- 2021年3月,美国国家情报委员会(NIC)发布了每四年一度的全球趋势预测报告《全球趋势2040——竞争更激烈的世界》。NIC是美国最高层级的战略情报机构,该委员会的成员均为来自政府、学术界和私营部门的高级专家...
- 全球技术地图
-
-
-
- 数字让监管更加智慧 上交所成功举办首届全行业技术大会
- 5月28日,上交所成功举办主题为“数字赋能,守正创新”的首届全行业技术大会。中国证监会副主席赵争平出席大会并致辞指出,证监会高度重视资本市场科技化转型与发展,确定了“数字让监管更加智慧”的愿景。...
- 上海证券报
-
-
-
- 湾区智行||中科创达赵鸿飞:汽车“新物种”需要共通的操作系统|中国汽车报
- “我是谁?我来自哪里?我要到哪里去?”这是哲学史上永恒的三大命题,同样也是我们甚至是企业需要不断思考的问题。此次采访对象——中科创达软件股份有限公司就是一家勤于思考、擅于思考的企业。这家企业在不断...
- 中国汽车报
-
-
-
- 广电总局表彰虚拟现实视频、超高清视频等5类96个优秀项目!
- 广电总局共评选出互动视频、沉浸式视频、虚拟现实视频、云游戏、超高清视频等5类96个优秀项目,分获一、二、三等奖和优秀奖,包括《中央广播电视总台5G+VR融合制播系统——春节联欢晚会 (2017- 2021)节目VR制作...
- 广电头条
-
-
-
- 占据市场最新赛道,“中国制造”机器人迎来爆发期
- 【环球时报记者 邢晓婧 杨沙沙】配餐机器人、迎宾机器人、扫地机器人……不知不觉间,中国老百姓对出现在餐馆、医院、火车站、养老院等场景的机器人逐渐习以为常,甚至家中也出现扫地、娱乐等家用机器人。有统计...
- 环球网
-
-
-
- 最受关注展项出炉,2021年北京科技周闭幕不落幕!
- 5月28日下午,2021年北京科技周闭幕式在中关村国家自主创新示范区展示中心举行。北京市科委、中关村管委会相关负责人介绍了本届北京科技周举办情况以及最受关注的展项。市科委、中关村管委会二级巡视员王建新出...
- 科普北京
-
-
-
- 魔高一尺,道高一丈:上交所VPN攻防札记
- 本文选自《交易技术前沿》总第四十二期文章(2020年12月)谢毅 / 上海证券交易所 yxie@sse.com.cn相晓辉 / 上海证券交易所 xhxiang@sse.com.cn虚拟专用网络(以下简称“VPN”)系统、互联网业务系统、外网
- Android编程精选
-
-
-
- 绿色召集令——聚力创赢,共赴绿色能源新征程!
- 申耀的科技观察读懂科技,赢取未来!申耀的科技观察,由科技与汽车跨界自媒体人申斯基创办,18年企业级科技媒体工作经验,专注企业数字化、产业智能化、智慧城市、汽车科技内容的观察和思考。
- 申耀的科技观察
-
-
-
- 汉朔科技和微软(中国)联合推动 IoT+AI 赋能全球零售
- (本文阅读时间:4分钟)2021年5月20日,全球领先的零售数字化解决方案供应商汉朔与微软(中国)在北京举行战略合作备忘录签约仪式,以进一步推动其在零售行业的全球布局和数字化战略。根据战略合作备忘录,汉朔...
- 微软科技
-
-
-
- 关于安全访问服务边缘(SASE),你需要知道的事情
- 在企业纷纷拥抱数字业务的过程中,由于边缘计算、云服务、混合网络的逐渐兴起,使得本就漏洞百出的传统网络安全架构更加岌岌可危,而且远远无法满足企业数字业务的需要。为了应对这种情况,一个全新的模型——安...
- FreeBuf
-
-
-
- [报告]2021年中国新能源汽车行业洞察(附44页PDF文件下载)
- 新能源车大势将至,造车新势力差异化突围。以下为报告节选:......文│Mob研究院本报告共计:44页。如欲获取完整版PDF文件,请扫描下方二维码加入“车友圈”获取。#重磅推荐#需要批量下载和及时更新最新汽车行业...
- 汽车之地
-