AI的图像识别能力已超越了你？_上海汽车报-20170806期-第10版：海外|Global

都说“眼见为实”，人类对自己看到事物后产生的判断力深信不疑。但如今计算机的图像识别能力在特定目标识别上已经超越了人类。

近日，第7届ImageNet国际计算机视觉挑战赛（ILSVRC）公布了今年的比赛结果：27支参赛团队中有超过半数的队伍来自中国。其中，WMW团队以2.25%的错误率赢得了图像分类竞赛，团队中有三人来自北京初创公司Momenta，一人来自牛津大学；物体识别比赛中，DBAT团队的识别精确度为73.1%，比去年的66.3%更进一步，团队成员有8人来自南京大学，两人来自伦敦帝国学院。

从识别库到挑战赛

ImageNet是什么？简单地说，ImageNet是一个给人工智能用的视觉识别库，里面都是包含定义和分类的图片。比如，哺乳动物这个词条包含猫、狗等所有哺乳动物，下一级分类就细分为猫、狗等分类，其中单独包含这些分类的图片。

普林斯顿大学副教授、华裔科学家李飞飞是ImageNet的创始人之一。这个数据库一开始并不包含“竞赛”的性质。2007年到2009年，ImageNet利用人工、互联网分时雇佣平台等传统方法收集了超过320万个被标记的图像，并将它们分为12个大类别、5247个小类别，比如哺乳动物、汽车和家具等。

现在的计算机图像识别基本上都是在一个算法的基础上，用大量分类图片来训练，以达到识别特定物体的效果。举例来说，如果想让一个AI认识猫，就必须给它看很多很多猫的照片，从不同角度、花色、姿态去看，最终AI可以判断任意一张图片里是不是有猫。

所以，作为一个定义图片库，ImageNet不仅可以用来训练AI，还能够验证AI是否准确认出了图片里的内容。从2010年开始，ImageNet设立了竞赛规则，开始邀请全世界的计算机科学研究者参加竞赛，比赛内容是比较算法识别特定图像的错误率。

这一挑战赛吸引了无数团队的加入。2014年，Google获得了比赛的胜利，但之后就没有再参加比赛。2015年，百度也参加了这一挑战赛，一开始成绩优异，但最后被发现存在作弊行为。百度随后承认了违规行为，并开除了参赛的异构计算团队负责人吴韧。

新的竞赛，智能不止

2012年的ImageNet比赛是一个里程碑。那一年，来自多伦多大学的3位教授提交了名为“AlexNet”的深度卷积神经网络算法，这种算法的图形识别错误率低至16%，比第二名低40%以上。可以这么说，人工智能在“看特定的图”这件事上第一次接近了人类。

从此，深度卷积神经网络算法成了主流的研究方向，图形识别的错误率也一再降低。2015年的比赛中，计算机看图的错误率已经低至小数点后两位——百分之几。研究者认为，计算机在这种特殊的任务中已经超越了人类。

2015年之后，由中国政府资助，中国人参与的团队开始在ImageNet中获得更好的成绩。2016年，公安部第三研究所资助的Trimps-Soushen获得“图像目标定位”单项第一名；南京信息工程大学团队NUIST获得“视频中物体探测”子项目的第一名；监控摄像机厂商海康威视HikVision获得“场景分类”单项第一名。

简单地说，近两年来获奖的项目主要致力于特殊的任务，比如视频监控和识别。2014年，Google组建的团队GoogLeNet把物体识别的准确度从前一年的22.6%一下提高到43.9%之后就不再参加ImageNet。

而今年之后，ImageNet将停止挑战赛论文的提交，今年举办的是最后一届挑战赛。因为基于分类图片的图像识别已经非常准确，没有太大的发展空间了。未来图像识别人工智能的研究将转向没有标注的图片和视频。

未来，由苏黎世联邦理工大学、谷歌搜索引擎、卡耐基梅隆大学等共同组织的WebVision竞赛将接替ImageNet的地位。WebVision的数据直接从网络中抓取，没有经过标注，可能本身就包含很多错误的信息，而且分类也更多。从另一个角度来说，这种数据训练出的人工智能在模糊识别的能力上将更接近人类。

未来，更先进的计算机图形人工智能或许会在城市监控、罪案侦破方面替代人类，在自动驾驶等领域创造新的生活和工业模式。