速途网消息,在近日举行的2023 世界人工智能大会上,联汇科技发布了基于大模型能力的自主智能体(Auto AI Agent)——OmBot欧姆智能体,并首次发布针对智能体的 OmBot OS操作系统,同时并针对典型场景需求,推出了首批应用—— 视频小欧、文档小欧和AIGC小欧,其自主研发的欧姆大模型也升级至3.0版本。
联汇科技发布OmBot欧姆智能体
何为自主智能体?联汇科技给出了明确的回答——智能体是能够感知环境、自主决策并且具备短期与长期记忆的计算机模型,它能够模仿人类大脑工作机制,根据任务目标,主动完成任务。
联汇自主智能体包含了认知、记忆、思考、行动四大核心能力,作为一种自动、自主的智能体,它以最简单的形式中在循环中运行,每次迭代时,它们都会生成自我导向的指令和操作。因此,它不依赖人类来指导命令,具备高度可扩展性。
自主智能体核心能力
据了解,视频小欧可以成为新零售场景中的智慧店长。通过与摄像头视觉信息结合,利用欧姆大模型智能识别店内发生的一切,形成机器人记忆,并自主决策提示交互信息。
文档小欧可以成为个人和企业的学习助理。面对电力、石油、医学等行业专业知识学习成本高、查询困难的痛点,文档问答机器人可以将专业知识有效集成到向量数据库,并存储记忆,形成专业机器人,通过多模态内容理解与内容生成,智能回复用户问题,并给出专业的回答。
AIGC小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片,针对视频主题,语言模块完成视频内容文案生成,随后拆分为更加细节的视频镜头描述,依托语言理解能力,对素材库视频进行搜索、剪辑和生成,最终大幅降低视频制作门槛。
现场,联汇科技行还发布了基于 OmBot 欧姆智能体与大模型技术的行业级智慧文旅底座,为文旅全行业提供包含元宇宙、AIGC、智慧助手等典型场景快速赋能。
正式推出欧姆大模型 3.0
值得一提的是,联汇科技正式推出欧姆大模型 3.0。欧姆大模型支持对视觉图像、视频进行标签全开放识别。预训练中已经包含了数十亿的高质量图文匹配数据,包含大量的环境背景,目标类型,目标属性与行为特征,叠加全图细粒度级别的理解,图文的语义匹配,图文问答等多任务的训练,使欧姆大模型 3.0 具备了能力涌现的保障。
可以说,欧姆大模型 3.0 不再局限于固定的目标类型清单,而是通过语义理解去理解视觉中的任意目标,甚至是描述的方式去定义目标。
OmModel V3 正式发布
视觉问答方面,构建了私有的十亿级媒体数据和物联网数据,包括无人机视角,监控视角等,通过多任务训练,欧姆大模型 3.0 将包括自然语言解析、逻辑推理、图像理解以及自然语言生成等 AI 能力进行深度融合。将视觉模型和语言模型进行细粒度的对齐,让其可以理解人类指令,并合理作答。
另外,欧姆大模型可以在针对图片进行问答之后进行多轮对话推理,并扩充视觉之外的信息。
认知推理方面,通过不断提升欧模大模型的内容理解与多模态的语义对齐的能力,结合语言模型的能力,欧模大模型能够做到基于视觉认知的推理,并由此支撑智能体所需要的认知与推理能力。
在开放识别、视觉问答的基础上,认知推理的能力能够赋能智能体从被动的识别转为主动推理,进行思考与决策,并提出相应的智能解决方案。
高效微调方面,针对传统全参数微调消耗大量 GPU 计算与存储资源的情况,联汇从模型训练和模型推理两方面入手,使得欧姆大模型能够好用、易用。
在模型训练上,联汇自主设计 PEFT 羽量微调技术,与标准全参数微调相比,仅微调模型参数的一小部分,训练参数量小于 1%,在大幅降低计算和存储成本的同时,实现媲美全参数微调的性能表现。这样的做法能够真实降低大模型的微调训练门槛,快速适配用户长尾场景的训练需求。
训练参数量小于 1%
在模型推理上,联汇推出针对多模态大模型的推理运行系统 ——Hydra 九头蛇部署架构,通过多卡集群部署蛇身,由多个公用的底座模型组成,而各个算法任务只需要部署羽量级的蛇头模型,实现 MaaS 架构。在推理时,蛇头模型可与任意公用蛇身模型结合产生识别结果,且新增算法任务只需增加羽量级蛇头模型。从而实现了 GPU 集群资源的高效利用,并突破算法任务部署显存资源的上限。
基于由效果评估、升级策略、数据回流、优化升级构成的人在环路指令学习进化体系,欧姆大模型可以对底座模型进行有效的指令学习、迭代升级,从而在现有的算法任务上有更好的表现。这也意味着每隔几个月,欧姆大模型都会迭代进化得更加强大。
此外,为了帮助用户更好、更快的使用大模型技术与产品,联汇正式发布欧姆大模型工具软件集合,并首次发布针对智能体的 OmBot OS 操作系统。开发者可以基于灵活的模块配置,将多模态大模型、向量数据库、人机交互认知架构进行深度融合,为构建基于多模态数据感知、认知、思考与行动的智能体奠定基础。