近日,第十五届亚洲计算机视觉学术会议ACCV 2020(Asian Conference on Computer Vision)国际细粒度网络图像识别赛公布最终成绩,网易AI Lab以71.4%的准确率击败了来自全球的569个顶尖计算机视觉团队,从超过1000份方案中脱颖而出,一举斩获大赛冠军。这是网易AI Lab继语音、自然语言处理(NLP)等领域大赛夺冠之后,在计算机视觉领域的又一突破,彰显了网易AI Lab在人工智能领域的综合技术实力。
ACCV是国际计算机视觉领域的重要学术会议之一,每两年举办一次,吸引来自全球的一流学者、研究者和开发者参与,共同探讨计算机视觉领域的前瞻学术研究与应用。本次ACCV2020国际细粒度网络图像识别赛,主要目的在于使用网络数据训练细粒度识别模型,减轻细粒度识别任务对大规模有标签训练数据的依赖,以增强模型算法的实用性和扩展性。
此次竞赛的数据集规模巨大,训练数据集包含557169张图片,测试数据集包含100000张图片,涵盖各类动植物,共计5000个类别。所有数据来自网络,未经人工标注,因此包含大量噪声和错误数据,且数据存在长尾分布现象,导致不同类别样本可能同时存在欠拟合和过拟合等问题,对参赛选手提出了巨大挑战。而网易AILab提出了一种基于类别平衡的去噪方法,配合基于BBN的原创模型训练方案,无需过度依赖高质量的标注数据,能够直接从网络数据中获得更好的模型表达能力。比赛采用准确率(accuracy)作为评测指标,网易AI Lab解决方案的accuracy达到71.4%,远超过比赛方所提供的基线模型(accuracy=41.905%)。
细粒度图像识别不同于通用图像分析任务,需要对属于同一基础类别的图像进行更加细致的子类划分,因此对模型的要求更高、难度更大。而现有深度学习方法通常需要依赖大规模高质量标注数据,其获取难度较高且成本高昂,一定程度上限制了现实场景下的应用。网易AILab在此次竞赛中使用的原创模型,能够在面对大量低质量样本的情况下,快速找到适用于特定场景的解决方案,降低了图像识别对于人工标注的依赖,为通用物品识别、图像或视频标签等应用场景落地带来了更多可能性。
成立于2017年的网易AILab,目前在计算机视觉研究领域有着丰富的技术累积,在落地应用上也拥有着诸多的实践经验。此前,网易AILab图像识别技术已成功应用于敏感内容审核、游戏反外挂、人脸属性识别、手势识别等场景。