速途网讯 近日,2018 全国“视觉与学习青年学者研讨会”(简称“VALSE 2018”)在大连举行。
VALSE发起于2011年,是国内计算机视觉、图像处理、模式识别与机器学习等研究领域的盛会,名称是取意华尔兹的优雅与和谐,秉承自由、平等之学术精神,为青年学者和学生提供一个强互动的学术交流舞台。本届VALSE大会吸引了全民短视频平台快手、阿里人工智能实验室、滴滴等多家科技公司与研究机构参与,展示交流这一领域前沿技术与产品的最新进展。
图:快手多媒体内容理解团队负责人在大会上做分享
大会上,快手科技展示了人脸识别、语音识别、三维人脸重建、视频搜索,多媒体内容理解等一系列炫酷十足的应用,其中很多尖端技术已经在快手产品上进行了广泛的应用。快手多媒体内容理解部(MultiMedia
Understanding,简称MMU)负责人李岩,介绍了快手在计算机视觉、图像处理、模式识别与机器学习研究领域内的技术探索和人才积累。
快手CEO宿华曾指出,快手的公司愿景是实现每个人独特的幸福感,希望每个人都能记录自己的生活,希望每个人都有机会被世界看到,快手通过短视频、图片、直播的形式把人与人连接起来,帮助他们消除一点点孤独感,增加一点点幸福感。这个愿景的实现正是靠着快手技术团队的不懈努力,才得以一步步接近。
李岩进一步介绍说,要实现以上愿景,理解好每一段视频是基础。快手平台每天有海量的短视频作品上传,日播放量达到150亿次,这些记录生活的短视频千姿百态、包罗万象。如何分层有序的提取视频信息,理解视频内容,并且有效把这些内容分发到对它们感兴趣的用户,把人和内容精准对接,背后需要极其强大的计算能力和技术支持,这也是学术界和产业界共同的课题。快手已经在人工智能、大数据等领域有了7年的积累。针对该问题,快手多媒体内容理解部利用AI技术,通过感知和推理两个阶段来解读每一个视频,先感知获取视频的客观内容信息,进而推理获取视频的高层语义信息。
在感知阶段,快手主要从四个维度来分析理解视频内容:人脸、图像、语音、音乐。人脸信息在社交视频中占据重要地位,需要对视频中的人脸进行检测、跟踪、识别,并分析出视频中人物的年龄/性别等属性,挖掘其中的3d形状、表情等信息;在图像维度,通过分类、物体检测等算法分析场景、物体,通过图像质量分析算法对图像的主观质量进行评估,通过OCR分析图像中包含的文字信息等;在语音方面,不仅进行语音识别,而且进行说话人识别、情绪年龄等语音属性信息分析;在音乐方面,进行音乐识别、歌声/伴奏分离、歌声美化打分等分析,对音乐信息进行结构化。基于上述四个维度,完成对视频低级语义信息的感知。
在推理阶段,基于感知阶段的输出,可以将视频看做一个整体,进行分类、描述、检索;
此外,像人把学到的知识存到大脑一样,把快手的视频内容整理并存储到快手知识图谱中,这样融合感知内容和知识图谱,使得理解视频高层语义及情感成为可能。
据介绍,快手的多媒体智能分析团队拥有近百名资深算法研究员和研发工程师,大部分研发人员具有多年BAT工作经历,核心算法研究员具有十年的研发经验。团队成员绝大多数来自于清华大学,中科院,香港科技大学,南京大学,上海交通大学和日本京都大学等国内外顶尖高校。目前快手该部门仍在面向全社会和各大高校诚聘大量计算机视觉,语音识别,视频内容理解,人脸识别&3D重建等相关领域的人才。
李岩最后向参会者发出诚挚邀请,欢迎志在多媒体理解领域做一些深入有影响力工作的同学加入快手,一起完成“实现每个人独特幸福感”的美好使命。