技术解读为什么百度智能视频云让视频变得更聪明？

人工智能与5G的飞速发展，让各行各业对视频的应用、体验提出了更高的要求。5月13日，百度智能云“2021云智技术论坛-智能视频专场”活动在京举办，百度智能云重磅发布了智能视频云3.0全景图，融合百度前沿的视频云和AI技术能力矩阵，从云智技术一体化、产品平台化、应用场景化三个层面全面赋能多场景的视频应用。作为国内AI公有云服务市场第一的百度智能云，正以“云智一体”独家优势持续渗透市场中。

视频具有“重”数据的特点，在海量数据的情况下，一方面对采集、存储、传输和分发提出了极高的诉求，另一方面需要强大的智能化分析与处理能力。基于此，百度智能云“云智一体”的全场景视频技术中，“云”的部分以云边端一体、异构融合的基础架构提供先进的云计算能力，“智”则以业界领先且全面的AI能力实现了对视频语音、图像、文字等多种信息的多模态智能分析、理解、生成等处理。

依托“云智一体”推出了视频创作分发平台和视联网感知平台。在消费类视频方面，将采集到的各种结构化信息、知识信息通过智能视频云的手段，转化成多媒体的信息进行高效分发和传播；而在产业类视频方面，将采集到的视频转变为结构化信息，通过提取获得的信息，来帮助业务进行高效的感知和决策。

“云智一体”的百度智能视频云3.0究竟在技术上有什么独到之处？

（智能视频云3.0全景图）

云：高效稳定的基础技术架构，打造强有力的输出载体

为了更好地应对已经来到的海量视频业务需求，智能视频云3.0以云边端一体的基础技术架构作为核心依托，进一步拓展算力边界，端到端、强稳定、高性能的视频云能力，帮助客户快速实现应用的落地与交付。

百度智能视频云3.0的云能力主要表现在智能编码、智感超清、实时音视频通讯、低延时直播、视频分发加速CDN等五大方面：

智能编码：基于百度AI深度学习技术，通过深度学习网络来提取视频的特征，结合BD265生成智能编码技术。

算法方面，依靠百度多年积累的技术优势，通过60+算法的优化，在质量和效率、速度上取得最优解。

效率方面，相比业界开源的X265编码器，在编码速度有2-4倍的提升，同时节省30%的编码码率。

（智能编码）

智感超清：视频体验的优化是一项精细求精、永无止境的工作。百度智能视频云3.0通过智能超分、智能画质增强、智能插帧、智能修复、智能HDR生成等技术，在老片修复、真4K生成等典型应用场景上大幅提升画质体验、弥补超高清内容缺失，加速了超高清产业发展，相关技术在国际权威比赛中屡次夺冠，具体优势体现在：

超分辨率：通过多层级联的U型神经网络架构，对视频空间的分辨率进行从粗到细的提升。

画面去噪：基于无监督去噪声算法，摆脱了有监督神经网络训练对于成对的噪声与干净图像的依赖；设计了可交互控制参数，支持用户调节，增加了系统灵活性。

画质增强：通过深度残差神经网络，将内容特征提取与重建，不仅可以优化画质饱和度、还原压缩视频导致的失真，还能对ROI区域进行区域增强和码率分配优化。

高帧率重制：依靠MEMC高帧率提升技术能力，通过对运动方向预判，据此进行插帧，提升画面流畅度与观屏舒适度。

超高清编码：采用CPU+GPU+ASIC的异构加速计算框架，支持国产昆仑K200芯片，提升AI推理效率和超高清编码效率，降低用户成本，提升总体的生成效率。

（智感超清）

实时音视频通讯：依靠核心自研的多个算法，实现通讯顺畅的超低延时互动体验，并分为如下几个方面：

抗弱网支持方面：基于上/下行链路智能探测器，根据上下行网络链路恶化程度因子，调整FEC、NACK、码控、超清权重，选择因子进行抗弱网抖动算法，使视频抗弱网可达到60%，音频80%。

AI能力方面：通过百度多年的AI技术积累，支持实时美颜、滤镜、贴纸、AR特效，更多娱乐场景玩法，并提供人脸识别、语音识别等能力，适用于用于身份核验、学生状态监测等更多场景。

高质量音视频通话方面：通过大量音视频场景数据AI模型训练，对音频进行3A优化的同时，并能通过智感超清支撑超高清画质，自动适配多分辨率，实现高质量音视频消息聊天。

性能指标方面：为针对通信节点路由的选择，优化混沌神经网络算法规划最短路径、实现动态平衡路由选择，可使端到端延时稳定收敛到200ms左右，并在单个节点故障时，能自动重建路由，保障server的可用性。依靠WHIP协议转换装置解决了传统RTC通信server由于信令交互复杂、房间管理业务量大、数据库操作频繁等影响性能及大规模搞并发问题，可支撑每个房间在线人数达百万级别。

端到端性能监控方面：通过各端大量数据收集，依托百度智能云大数据分析，能精准的定位问题，对潜在的不可靠服务提前预警，让潜在风险在萌芽状态被解决，保障音视频实时通信服务的高可用。

（实时音视频通讯）

低延时直播：采用了全链路SRT协议，可稳定支撑千万级直播并发。关键特性包括：

卓越抗弱网：自研mpegts数据格式封装、支持SRT协议推拉流，将网络丢包的可能性降到最低，有效改善弱网环境下的推流及观看体验。

首屏秒开：CDN边缘先将编码参数信息发给播放器，播放器解析到编码信息，待下个关键帧到达后即可快速播放。

协议兼容：实现多种视频流协议的输入与输出，基于SRT低延迟直播协议的上下行，能无缝接入LSS低延迟直播系统，与主流直播分发协议HTTP-FLV/RTMP/HLS结合，视频转发场景更加灵活。

规模并发：与HTTP-FLV支持的并发规模一致，支持千万级规模并发。

（低延时直播）

视频分发基础设施CDN：拥有遍布全球1000+节点、100T带宽储备，以强大网络基础设施带来极致视频分发体验和效率。其中具有这几大能力：

资源储备的扩展能力：通过云边端一体，将资源的使用能力持续下沉，与边缘计算的资源深度结合，做到流量加速的同时，也能做到算力的加速。

近似实时的智能调度能力：具备全网流量与质量的感知系统，能实现近似实时的智能调度。

分场景的协议调优能力：通过质量感知系统Bcats、节点多级缓存优化、分场景协议栈优化满足客户多场景的质量要求，节点间使用私有协议加速，提升加速体验并保证数据安全。

快速便捷的可编程能力：通过易用的可编程边缘运行环境EJS，用户可自主实现个性化业务控制逻辑，应对业务变化的敏捷效率挑战。

（视频分发基础设施CDN）

此外在全民拍摄、泛直播时代背景下，针对轻量化美颜、智能剪辑、低码率高品质推流、沉浸式播放体验等音视频终端业务的基础需求。百度智能云的视频云终端能力矩阵，面向不同业务，提供丰富的SDK解决方案。

受益于终端工程化技术演进，视频云终端框架正在经历从模块化向智能化演进，平台接入层重点解决多SDK的复用和数据管线组合，提高内部协同效率同时，提升产品按需交付的灵活度。辅以横贯模块间的数据监控，运行质量一目了然。跨平台层重点解决多终端数据处理一致性体验，基于生产消费模型，在终端算力的不断释放的情况下，将自研算法抽象成独立算子（例如PaddleLite的人脸算法），经过管线中不同处理节点，最终将数据消费成业务效果（如美颜等）。终端数据高效率的处理，离不开平台引擎层提供的持续动力。终端并行计算技术让CPU与GPU在时间和空间上得到更好的协同。

（All In One能力矩阵）

智：AI能力让视频变得更加“聪明”

伴随着视频智能化的大潮，AI技术在视频行业转型升级中作用日益凸显。依托百度云智一体的独特优势，为满足产业对场景的定制化应用需求，百度智能视频云3.0全景图的AI技术能力，基于百度自研业界最大包含了5500亿海量知识的多元异构知识图谱，在视频的智能理解分析、视频智能生产与智能交互生成等方面充当了平台化与场景化的创新应用的技术基石，助力智能视频从“刀耕火种”走向“精耕细作”。

（智能视频云3.0全景图的AI技术能力）

智能理解分析

通过图像、声音、场景、人物、文本描述等信息，进行视频智能分析、内容智能审核、智能检索。

视觉模态理解框架的升级：提出了一个“预训练+小型化+定制化”新的框架。该框架基于飞桨提供的大规模分类框架、PaddleSlim等组件，有效应对理解任务的复杂性，解决场景数据的稀缺性。在人脸任务上，全场景下识别相对错误率下降40%。在其他一些垂类任务上，训练的标注量可以减少40%以上。

知识增强的视频理解：基于知识的视频语义理解技术，充分利用丰富而全面的知识图谱提升视频理解效果。该技术通过对视觉、语音、文本的多模态内容进行解析与融合，再利用知识关联技术建立与视频理解知识图谱的连接，并根据背景知识以及知识计算与推理技术，实现对视频的深度语义理解。这项技术打破了在传统技术中，视频内容分析基于感知的局限性，实现对视频的深度结构化语义理解，大幅提升视频理解的效果。

（智能理解分析）

视频智能生产

通过图文资讯、数据、图集等多种内容载体，进行智能编辑与智能创作。

视觉模态创新丰富的能力：可将多种内容载体向视频形式进行自动转换，提升传播效率。目前百度智能云支持多种视频生产方式，包括图文，数据，图集等转视频，长视频拆短视频及Video-in等生产形式。

知识增强的视频生产：基于知识图谱的视频生产技术是百度智能云视频生产的亮点技术。

其中，借助知识图谱的海量事实，可生产关于实体属性、关系的各种知识类、趣味性的盘点视频；通过对影视剧的多模语义理解，可将某一类场景镜头进行聚合，呈现作品的精彩片段。

（脉络视频生产）

事件脉络生成则是基于知识图谱中一项核心技术能力。基于多轮问答技术，可达到事件监测和事件论元抽取的能力；再通过事件识别、聚类、归一等技术总体构建事件脉络生成技术，可以实现对客观事件的动态理解。基于事件脉络能力，可生成关于热点事件来龙去脉的报道视频。

视频交互与生成

智能视频云拥有丰富的技术能力，全新构建了交互与生成AI能力矩阵，从AR特效等技术到新型的驱动特效，风格特效等，再到多模态生成，支持各种各样的泛娱乐场景的视频交互与生成需求。

（视频交互与生成）

视觉模态的任意风格化：基于元学习、多风格Adaptation技术、Few-shot Learning等技术，可根据需求快速定制不同风格的高质量视频。

多模态生成的数字人：通过多模态技术，结合虚拟数字人形象与语音合成、唇动等生成技术，可低成本制作形象丰富灵动、线上线下多端覆盖的的数字人，不仅交互自然、声音动听，还能够适配多种业务场景需求。

目前数字人的应用载体较为广泛，除了PC端以及手持移动设备以外，百度智能云自研了智能云屏、智能云席等数字人的新载体。为了更好的模拟真人交互，在云屏、云席等数字人载体上集成定制摄像头以检测面部动态，设置了的扇形拾音区域采集实音，这样可以更好的识别主说话人，从而解决“鸡尾酒会问题”。

今年两会期间百度智能云与央视网合作推出虚拟数字人小C，进行“两会C+真探”的虚拟记者采访项目，一时收到市场广泛关注。

（虚拟数字人小C）

双平台：便捷、高效、面向全场景的应用平台

基于云智一体，百度智能视频云3.0的视频创作分发平台和视联网感知平台面向不同场景应用提供一站式服务和平台化支撑。

视频创作分发平台面向泛互联网、泛媒体行业，聚焦工作流和媒介资源管理，覆盖视频接入、生产、处理、审核分析和个性化推荐分发全流程。核心是媒资管理和工作流，通过媒资结构化处理和多摸精准搜索，媒资利用率可提升40%，盘活媒资，最大发挥内容价值。与传统采编发管理软件的区别在于，利用AI能力对数据进行分析和理解，实现盘活数据，加快数据流动，提高媒资数据的利用率；工作流则提供了可视化控制台，用户可以通过简单灵活的配置编排视频的处理流程，更灵活的应对个性化业务需求，并适配移动化、多终端、多形态业务场景。

（视频创作分发平台）

视联网感知平台面向传统产业，对视频端设备和泛视频数据流进行统一连接、分析和管理，实现通用的面向生产、控制和治理等场景的链接、链感、链管的基础平台。核心是对泛视频设备和泛视频数据流的统一连接、分析和管理，在企业生产、园区管理、城市和社会治理方面能发挥重要价值。

（视联网感知平台）

三大场景：云智一体智能视频云的诉求

为了更好聚焦产业应用中的痛点与难点，为技术深入产业智能化转型升级发挥更大价值。在百度智能视频云的这张全景图3.0，通过基于云智一体的两大平台，打造泛互联网、泛媒体和泛产业方向的智能视频方案与应用案例，覆盖互动娱乐、内容生产、智能分析、远程实时通讯、生产管理、安全管理等场景。

泛媒体场景：百度智能视频技术通过媒体大脑平台，赋能产业三大升级，打造智媒产业互联网生态圈。智能视频云将云智一体的视频技术和媒介中台里的媒体AI中台、媒体知识中台、媒体经营中台相结合，从智能媒资管理、智能内容生产、智慧媒体经营三个层面解决智能视频云技术在多种场景下的需求。

媒体AI中台：通过智能内容汇聚、智能内容生产、智能媒资一体，全面覆盖媒体内容产出的测、采、编、审、发全流程。

媒体知识中台：通过多元知识图谱，把内容资产知识化、资产化。将媒体自研和采购产生大量媒体资源，做标签索引，形成一种资源。

媒体经营中台：所有内容生产都是为了消费，都是为了触达用户，实现传播的效果，或者商业的变现，百度有多元的媒体内容经营分发这样的经验，我们也形成媒体的智能经营的一套中台体系。

（百度智能云泛媒体产品和解决方案全景图）

泛互联网场景：内容和用户是互联网企业增长核心要素，百度智能视频技术助力优秀内容创作者，深入垂类赛道，用AI技术帮助客户降低码率提升画质，以低成本分发的方式，精准触达到目标受众群，形成裂变增长。

智能小视频一站式解决方案：提供全套智能视频拍摄工具，在拍摄器上提供100+的AR技术拍摄编辑玩法；通过一站式工作流，直接将拍摄到的视频传输至存储系统，后台流式处理视频、审核发布并做分发加速；开放APP样本及服务端部分代码给客户，用户可通过自身需求定制开发，实现快速打造视频应用。

全链路编解码优化解决方案：基于采集端的BD265方案，支持兼容软硬编码的能力，相比硬编265，节省了50%码率。在服务端，结合BD265以及智感超清AI能力，提升画质降低码率，节省用户的传输的带宽和存储的成本。在分发端，提供实时视频增强的SDK技术，只需下发低码率视频，就可以将整个视频的画质优化提升。

新零售的直播SaaS解决方案：通过一键式的导购直播能力，提升客户的触达率，实现线上的营销变现，裂变引流，得到更多的转化；并提供了分销系统，实现订单的追踪，保证用户的归属和转化；同时具有数据分析能力，帮助客户做出直播决策。

在线社交解决方案：支持IM聊天，实时音视频通话，以及虚拟AI技术，通过三位一体的技术支撑，帮助用户打造文字、语音、视频内容等社交的属性。并且可以使用动画制作功能，让用户去打造独一无二的虚拟形象，通过真人实时驱动，构造定制化IP。

（百度智能云泛互联网产品和解决方案全景图）

泛产业场景：百度智能视频云以云边端一体为基础架构，平台+数据主导，解决业务对接系统和数据平台化的需求。

智能技术：通过百度全栈式自主人工智能平台，提供多场景的智能视觉应用，核心为识别常见的人脸、人体、车辆等具有丰富的特征值信息，同时提供丰富的库内的查询能力。在各类业务场景中，覆盖比如交通、政府、能源、城市治理和农林等场景，此外还具有视频修复能力，对提升整个视频的理解能力有着极大的帮助。

云边端架构：在端侧，为快捷获取数据，部署了主要的算力和算子。边侧，通过闭环的能力，可以实现快速的边缘的业务场景的整个闭环。云侧，通过关键信息、关键数据传送到云端，通过数据汇集，加强云计算和平台的能力，为业务提供服务，实现更多的业务场景的应用。

开放能力：在端侧，开放端云协同的SDK和AI的SDK，实现统一管理，同时在公网环境下，实现低延时效果；平台侧，开放所有模块，实现SaaS和PaaS的结构，用户可以更快捷的利用业务需求，利用PaaS能力快速迭代，提升整个SaaS的开发效率。应用方面，推出智能全感知系统，利用云边端一体的技术架构，可以快速实现业务层的开发。

凭借“云智一体”的独特优势，除智能视频方向以外，百度智能云已在智能制造、智慧金融、智慧城市、智慧能源、智慧医疗等领域拥有领先产品、技术和解决方案，与多家行业翘楚合作推进企业数字化、智能化升级。百度将持续以深耕多年的AI技术能力深入各行各业，夯实智能化基础，助力产业智能化升级实现新突破。