多模态大模型进一步强化模型潜力和预期通用人工智能更进一步

人工智能正在从文本、语音、视觉等单模态智能，向着多种模态融合的通用人工智能方向发展。“基于多模态的预训练大模型将成为人工智能基础设施”，这一观点已成为业内共识。建立统一的、跨场景、多任务的多模态基础模型正在成为人工智能研究的一个关键课题。未来，大模型作为基础设施，将实现图像、文本、音频统一知识表示，并朝着能推理、能回答问题、能总结、做创作的认知智能方向演进。

业内普遍认为，这得益于CLIP和BEiT-3的技术突破和广泛应用。

CLIP是OpenAI在2021年提出的跨模态模型，该模型专注于从文本特征映射到图像特征。通过在互联网上抓取大量图片文本，学习一段时间过后，CLIP能够实现用自然语言解释对图片的理解，也能通过文字描述来生成图片，这便是一种跨模态的生成和转换。之后火出圈的文生图大模型DALL-E 2，能够通过用户给的一段文字描述生成图片，其背后的技术基础正是CLIP模型。Stable Diffusion也使用了CLIP，实现通过文本提示调整模型，并借助扩散模型改善图像质量的目的。

图：CLIP 流程的三个阶段

BEiT-3是微软亚洲研究院联合微软图灵团队在2022推出的多模态基础模型，该模型在视觉-语言任务处理上具备出色表现，包括目标检测、实例分割、语义分割、图像分类、视觉推理、视觉问答、图片描述生成和跨模态检索等。BEiT-3通过统一的模型框架和骨干网络建模，能够更加轻松地完成多模态编码和处理不同的下游任务，为多模态研究打开了新思路。

图：截至2022年8月，BEiT-3 在广泛的视觉及视觉-语言任务上都实现了 SOTA 的迁移性能

此外，引发科技界军备竞赛的ChatGPT大家已不陌生，它是在GPT-3.5上改进得来，据最新消息，其升级版GPT-4也已推出，特点是支持多模态应用，带来与之前完全不同的可能性。这意味着GPT-4有可能不仅可以管理不同语言数据的输入和输出，也能够做到输出图像甚至视频。

科技巨头和明星科技企业逐步强化其大模型对多模态的支持，使得外界对模型潜力的预期进一步强化，原因在于多模态感知是建立通用人工智能（AGI）的重要一步，建立多模态大模型则成为迈向通用人工智能的重要途径，也是解决人工智能应用落地所面临的需求碎片化、多样化等长尾问题的有效解决方式。

在国内，不久前，中科院自动化所宣布发布全球首个三模态大模型——紫东.太初，能够实现图文音语义的统一表达，将视觉、文本、语音三种模态统一起来，实现图文音跨模态理解与生成能力，可轻松完成以文搜图、以图生音、智能问答、图片生成、视频理解与等任务，这些能力将在工业质检、影视创作、互联网推荐、智能驾驶等领域得到应用。

图：紫东太初图片、语音跨模态生成演示

专注于智能视觉生产的技术企业影谱科技，近期对其多模态模型“苍穹”进行全面升级，从早前支持“图片-视频”、“文本-视频”、“语音-视频”的基础模型架构，升级为覆盖文本、图像、音频、视频、3D模型、触觉等跨越更多模态的内容理解和转换生成的产业级大模型。据悉，升级后的“苍穹3.0”大模型拥有丰富的视觉物料库、高效的视觉融合能力、精准的特征提取能力、多业务场景适应能力，在多模态预训练、平台服务、落地应用等方面实现突破。其图文音视频等多种跨模态开放任务处理能力可为元宇宙会展、智慧媒体、智慧科教、智慧文娱、数字商业等通用场景任务提供AI感知、理解和数字内容生成能力支持，助力产业对其存量市场进行全面盘活，催生孵化数字新业态、新模式，实现提质降本增效，同时拓展数字增量市场。

图：影谱科技“苍穹3.0”支持的AI作画产品

事实上，在早期对于 AI 和深度学习算法的探索中，科研人员大多专注于研究单模态模型，并利用单一模态数据来训练模型。例如，基于文本数据训练自然语言处理(NLP)模型，基于图像数据训练计算机视觉 (CV) 模型，使用音频数据训练语音模型等等。然而，在现实世界中，文本、图像、语音、视频等形式很多情况下都不是独立存在的，而是以更复杂的方式融合呈现，因此在人工智能的探索中，跨模态、多模态也成了近几年业界研究的重点。

业内人士分析称，多模态预训练模型集成语音、文本、图像、视频等各个模态信息的处理模式，更加贴近人类感知，也具有更高的社会价值和商业前景。

多模态预训练模型的发展将重塑人工智能商业模式，并为人们的生产生活方式带来积极影响。对个人而言，类似CLIP的多模态模型，将使更多非技术出身的人能够表达自己的创造力，无需再借助工具和编程专业能力。对企业来说，多模态预训练模型将成为企业生产效率提升的关键。商业模式上，具备大数据、算力资源和模型开发能力的科技企业，将会成为模型服务的提供方，帮助企业将基础模型的能力与生产流程融合起来，实现效率和成本最优。

多模态大模型进一步强化模型潜力和预期 通用人工智能更进一步

多模态大模型进一步强化模型潜力和预期通用人工智能更进一步