在2022年3月公布的场景解析及语义分割技术国际榜单ADE20K上,网商银行以0.6730的新高排名总分第一,这是继去年斩获并保持cityscapes语义分割榜冠军后,在又一个计算机视觉领域权威榜单上取得的佳绩。
ADE20K 是麻省理工学院(MIT)于2017年发布的一个可用于场景感知、分割和多物体识别等多种任务的数据集, 包含150多种室内外不同场景的2万张多张照片,参赛者需要通过算法准确分割和标记其中诸如建筑、树、人、玻璃窗等物件,准确率越高则得分越高。相比于同类型的cityscapes,ADE 20K设置的环境和场景更为复杂,对算法适应性的挑战也更大,是世界计算机视觉三大顶级会议(CVPR、ICCV和ECCV)语义分割论文权威基准数据集。
针对ADE20K数据集的特点,网商提出BKSeg算法,在优化网络结构、改进训练策略后,测试集上 Pixel Accuracy 达到 0.8158,mIoU 达到 0.5301,最终得分为0.6730,排名第一。
BKSeg算法基于Mask2Former算法框架进行优化。具体来说,首先采用了基于CNN与Transformer结合的骨干神经网络进行特征学习;其次结合Multi-scale FAPN策略,以提升不同大小物体的分割效果;此外,BKSeg算法还增加了OHEM模块以提升难识别物体的分割效果;最后,结合Semi-SupervisedLearning技术完成对模型效果的进一步优化
据了解,网商银行是目前唯一一家同时在两个国际榜单上均保持领先的机构,同时在榜的还有华为、商汤科技、微软、谷歌、亚马逊等全球科技企业和研究机构。
场景解析和语义分割是计算机视觉的重要技术,能够帮助计算机准确感知和理解平面照片上的物体,从而将非结构化的图像转化为可以被计算的数据,为还原和理解真实世界场景提供基础。大多数场景中的物体多样且复杂,同一类物体在不同场景中的颜色、形状、大小、姿态也不尽相同,因此如何通过优化算法对不同物体进行分割和准确识别,是此类技术的难点。
计算机视觉的不断发展也为金融服务带来了新的方法和模式。作为蚂蚁集团成立发起的专注于服务小微的科技银行,网商银行已经在农村金融和小微金融风控等领域广泛应用了此类技术。
在农村金融领域,网商银行率先引入了卫星遥感图像识别技术,在中低分辨率卫星图像上通过计算机视觉进行10X10米的像素级作物识别,实现了对于玉米、水稻、小麦等20多种主粮作物和苹果、猕猴桃、柑橘等十多种经济作物的识别,并达到了以往用高分辨率卫星图像才能实现的93%识别准确率。基于这项技术,网商银行“大山雀”卫星遥感风控系统,目前已覆盖全国超过1000个县域,服务几十万种植大户。
同时,通过视觉图像识别分割算法的持续优化,也可以对农房、大棚等设施进行自动提取,快速识别设施分布类型、数量、面积等信息,从而可以获取农村经济活动区域分布信息,指导信贷层面提供更好的区域服务。
如下图所示,底图是天地图区域公开影像,红色(农房)、绿色(大棚)分别标记识别出的设施。
此外,在线下实体店的场景中,图像感知技术也能用于对店铺的行业和经营行为的识别、理解和刻画。例如,通过识别用户拍摄上传的店铺门头照,货架甚至进销获合同和发票,并结合多维度交叉验真技术,网商银行便能够更准确刻画小微经营者所处的行业、上下游关系和真实经营面貌,从而为经营性贷款授信提供依据。
图例:通过解析照片,可以准确识别商超货架的货品情况,从而为分析销售情况提供参照