主页 > 科技 >

慧科讯业荣获欧洲计算机视觉大会鲁棒视觉挑战赛亚军

时间:2021-03-10 15:35       来源: 网络

近日,欧洲计算机视觉大会2020-鲁棒视觉挑战赛-目标检测赛道正式公布竞赛结果,慧科讯业AI实验室(Wisers AI Lab)在此次比赛中脱颖而出,凭借先进的人工智能技术取得了亚军的好成绩。鲁棒视觉挑战2020 ( Robust Vision Challenge,简称RVC) 是2020年计算机视觉界顶级学术会议ECCV( the European Conference on Computer Vision )下属的一个学术交流会(ECCV Workshop: Robust Vision Challenge 2020),作为业内知名学术会议,此次大会吸引了谷歌、英特尔、苹果等知名企业的合作与参与。

此次RVC挑战的目标检测赛道,整合了三个各具特色且差异较大的评测集。其中Google主办的开放图像竞赛(Open Image Competition) 在2020年选择加入RVC,成为该赛道的其评测项目之一。除此之外RVC还选取了目标识别(object detection) 领域常用的COCO(Common Object in Context)数据集,以及针对户外高清街景的MVD(Mapillary Vista Dataset)数据集作为其余两项评测项目。参赛者需要在RVC官方提供的整合数据标注空间提出一个统一的目标识别AI算法模型并提交到全部三个评测项目中获得最后的综合打分。对于多个评测集的适配则成为了这次比赛最大的挑战。通常情况下,各个数据集上的标签会因为语义重叠而发生混淆,如果直接训练模型,那结果一定会大打折扣。同时由于各数据集普遍存在的数据不平衡性,在整合多个数据集的时候这一问题显得更为严重。最后由于此次比赛选择了差异较大的评测集,数据特性的差异性(分辨率,场景)也成为了一个非常棘手的问题。

对于以上难点,慧科讯业AI Lab团队基于多年在图像识别模型扩展以及通用化方面的经验提出了标签融合等一系列的解决方法,最终取得了满意的评测结果。其中标签融合(label merge)能够将相似度较大的标签进行合并,在后处理的时候再通过反向映射恢复原来的标签。从而在根本上杜绝了标签混淆对训练的影响。

而对于解决数据不平衡性问题,团队将自然语言处理中的TF-IDF(词频-逆文本频率指数,term frequency–inverse document frequency)技术引入到图像识别,首先提出了基于TF-IDF方法的离线数据抽样(offline data sampling) 来对所有的训练数据依据其训练中的重要性进行筛选。在此基础上,团队使用了软平衡抽样(soft-balanced sampling)技术对训练数据进行分类感知抽样(class-aware sampling), 并通过一个综合型训练规划器(hybrid training scheduler)将不同的抽样方法加以统一,从而保证了每个样本类别的最佳使用率。 通过使用这些方法,最终在很大程度上缓和了数据不平衡带来的影响。

本次竞赛的数据特性存在大量差异性,在三个数据集中, MVD采用了大量的来自手机或相机的高分辨率街景图。,而另外两个数据集则大多是由网络上爬取的图片构成的。所以在完整数据集中,图片的分辨率,识别框的大小,比例相差都非常大。为了应对这个问题,慧科讯业AI Lab 团队采用了较深的网络架构并赋以全面的训练图像增强手段(如random crop随机切割, multi-scale augmentation多级增强 和 test- time augmentation在线增强等),最后再加上对特殊样本的专家模型(expert model), 很好地解决了数据差异性带来的问题。

慧科讯业人工智能实验室成立于2014年,经过多年的发展,凭借扎实的数据实力和前沿的人工智能自然语言理解技术为行业智能数据服务和AI解决方案的拓展与开发打下了坚实的基础。AI Lab将持续研发各种新的算法和工具技术解决方案,以解决更多文本理解,计算机视觉,多模态数据挖掘和多维相关分析等基本技术挑战,也将继续深入探索人工智能和大数据的结合应用,不断拓展AI应用的边界,完善AI功能,力争帮助更多行业、更多领域的企业实现智能数字化转型,拥抱AI时代的到来。

« 上一篇:慧科讯业与香港科大商学院签署合作备忘录
» 下一篇:慧科讯业大数据受邀出席中国金融科技产业峰会