如何评价ILSVRC 2015 结果
发布网友
发布时间:2022-03-27 13:50
我来回答
共1个回答
热心网友
时间:2022-03-27 15:19
第一次回答此类问题,有不准确的地方敬请见谅。关于ILSVRC的背景知识, Filestorm 有一篇很好的文章,值得一读,我就不再赘叙了,免得我的文笔相形见绌:
从Clarifai的估值聊聊深度学习 - 机器视觉x模式识别
今年我们在Google提交的结果与去年相比有了很大的提高,并且在classification和detection两个方向都获得了最好的结果。不过,话说回来,大家也应该都估计到了今年的结果会比去年好:)个人觉得,更有意思的是“how to get the number"而不是“what the number is”。我从classification和detection两个track分别聊一下个人的拙见。
Classification:与Alex在2012年提出的AlexNet不同的一点是,我们这次的结果大大增加的网络的深度,并且去掉了最顶层的全连接层:因为全连接层(Fully Connected)几乎占据了CNN大概90%的参数,但是同时又可能带来过拟合(overfitting)的效果。这样的结果是,我们的模型比以前AlexNet的模型大大缩小,并且减轻了过拟合带来的副作用。另外,我们在每一个单独的卷积层上也作了一些工作(“with intuitions gained from the Hebbian principle”),使得在增加网络深度的情况下,依然可以控制参数的数量和计算量,这都是一些很有趣的方向。
Detection:个人觉得,在detection上最有意思的工作应该是ILSVRC2013以后,Jeff Donahue和Ross Girshick(和我在Berkeley同一个实验室的Phd学生和Postdoc)所发表的R-CNN方法。R-CNN的具体想法是,将detection分为寻找object(不管具体类别,只管“那儿好像有个东西”)和识别object(识别每个“东西”到底是狗还是猫)两个过程。在第一步,我们可以用很多底层特征,比如说图像中的色块,图像中的边界信息,等等。第二步就可以祭出CNN来做识别,网络越好,识别率也就越高。今年很多参与detection的组都借鉴了R-CNN的想法。