安防进入大模型时代,依图「求索」新十年

自2016年始,中国的AI视觉创业俯拾皆是。

他们因AI而齐聚,从最顶尖的学术象牙塔中走出,希望用AI之钥,革新传统产业尘封已久的商业模式。

然而,回看这场探梦之旅,绝大部分高调入场者,最终都黯然收场,只有寥寥数家企业冲破封锁,其中佼佼者成为人们口中的“AI四小龙”。

最初的高光过后,外界对AI公司高融资、高研发、高亏损的质疑不断升温。

在有关四小龙失速的讨论中,技术光环褪去,资本热情消散,政策风险提高,是最人尽皆知的原因。

从同一CV战线,到分头走向不同道路,事到如今又面对同样一个问题——哪里才有新的生机?

市场的转机,往往发生在技术演进的刹那。

在被定义为中国“大模型元年”的2023年,命运的齿轮又开始重新转动。

藉由AIGC的风口,AI赛道一改颓势,重新占据各类热门话题的榜首。

在重新拉开的新赛事中,AI的老玩家们必然不会缺席。

说“安防+AI”过时,言之尚早

2016年,当阿尔法狗在棋盘游戏上夺走人类最后的荣光,AI赛道的投融资开始热得发烫。

起初几年,初创公司们备受风险投资的宠爱,资本争抢着上前买单,企业只需醉心实验室研发,便能坐看估值升高。

然而几年过去,眼看着企业在融资、研发、亏损的泥沼中没完没了,商业化落地又迟迟难以大规模铺开,资本逐渐板起面孔,不再愿意听着故事为亏损买单。

理想中,技术带来的馈赠之下,这是一场“众人拾柴火焰高”的合作共赢,但事实上,大家合力助推的不仅仅是浪涌,同时还有盛大的泡沫。

随之而来的,是市场关于AI商业模式的探讨,能否验证自身商业化能力,成为评判一家AI企业新的考核标准。

短短几年,风向急速扭转,原因在于AI这一极具颠覆性技术带来的畅想,掩盖了新技术在价值转化过程中会遇到的困难。

安防是AI最早落地的场景之一,通过人脸识别、行为分析等技术,监控系统得以提高效能。但同时,安防行业的碎片化特点,让标准化、通用化难以实现,导致AI企业在追求算法和精度的过程中,陷入高度定制化的盈利困局。

尤其随着雪亮工程建设尾期结束,安防行业也遇到发展瓶颈,于是有人问,问题是不是出在安防行业,换一个行业,问题是不是会迎刃而解?

一个事实是:AI确实遇到了商业化落地难题,但安防是AI应用落地的起点,大模型时代的开启,安防仍然是一个不错的起点。

在智能化的视角下,智能本质上解决机器学习人类的认知、视觉、运动、意识、记忆五个方面。人工智能的核心技术包括语言智能、视觉智能、运动智能。

而视觉智能最大的应用场景就在公安,也即狭义的安防市场。

一直以来,AI视觉的落地都在经历同一个过程,从公安起步,到政府,再到企业,大模型的落地也不会例外。

在依图科技副总裁许焰看来,智能化的每一次进展,都脱离不了以安防为起点,“在政府各部门中,公安部门的信息化一直做得非常超前,对视频数据的利用在业务上存在刚需,对技术理解最深刻,最愿意用新技术解决面临的问题。”

以往问题的症结在于,AI原有技术路线始终难以突破成本瓶颈;如今以大模型为代表的新一轮AI风口的出现,相当于为价值和成本的兼顾难题提供一个极佳的解法。

大模型的到来,也为处在转型迷茫期,重新思考自身价值和出路的AI企业,带来了新的生机。

早期成立的AI公司有客户基础,拿依图来说,公安行业大部分都是其老客户,一旦依图有新技术,落地转化将非常快。

更重要的,上一波AI公司在商业化上吃过苦,早已不再只谈技术领先,他们明白,只有将领先的技术与业务场景相结合,并做到低成本,才是真正解决用户痛点。

大模型时代,安防行业做好准备了吗?

大模型时代到来,安防行业做好准备了吗?

如果用一句话总结,可以说是:安防市场的需求与技术浪潮撞了个满怀。

在这一轮新的AI风口上,四小龙都纷纷赶考多模态大模型:商汤发布了“日日新大模型”,云从发布了“从容大模型”,旷视也发布了轻量级LLM模型推理框架…今天,依图的“天问”多模态大模型虽正式发布较晚,但事实上已经得到了客户的积极认可,目前在已在30多个项目中部署应用,落地进程更进一步。

这些AI的老玩家们,从上一轮厮杀中,顽强活了下来,如今藉由此前积累的数据和行业认知,从视觉切入多模态大模型,是一次水到渠成的向外拓展。

近两年,安防行业发展进入瓶颈期,增长乏力,放眼安防行业的主要参与者们,无人不渴望变化,纷纷在广度、深度两个方向寻求破局之道。

广度上,狭义上的安防市场,从以抓逃布控为主体的公共安全业务,走向更综合的城市治理类业务;与此同时,泛安防市场借助视觉智能化技术,向前进入更大的ToB企业市场,同时增加非视频投入,通过扩充产品线,寻求更大的增长空间。

深度上,企业仍以视频为核心,在智能技术上进一步投入感知智能、认知智能,部属大模型能力。

这两个方向的开掘,都与视频的智能化紧密结合。

从早期“看得见”,到“看得清”,再到今天大模型赋能下的“看得懂”,视频智能化经历了L1-L5五个阶段的进化:

–从图片的结构化标签到视频的语义理解;

–从众多的判别式任务模型到视觉为基础的多模态大模型;

–从端侧摄像头AI算力到云边侧集中式服务器AI算力;

–从人、车的识别到长尾物体的识别;

–从标签式筛选交互到基于语义的人机多模态交互。

在L5阶段,大家基本达成一个重要共识:以Transformer为基础的大模型统一了视频和大数据的底层框架,也开启了视频智能化情境理解的新时代。

意味着面对同一个指令,整个流程将从割裂的两个步骤简化成一个步骤,并且由于省略了中间过程,预测准确性将极大提升。

以统计A路口过去十天的拥堵状况为例,以往的做法是,先通过摄像头做解析产生大量结构化数据,再到数据库环节匹配结果;而视觉和大数据的融合,将非结构化的视频和结构化的数据库做了融合,变成用一个模型统一解决,具体到操作,只需语音指挥即可,“过去10天A路口特别拥堵,请将该路口的摄像头调取出来”。

换言之,大模型时代,当数据从一端流入,结果就会从另一端直接流出。

于公安行业,将是一场警务信息化系统的大改造。

首先,大模型将带来视频智能化建设的重大转变。

视频智能化建设分两种模式:一是图片流,前端相机直接做智能化,然后把图片回传后端做进一步分析,缺点是大量信息被丢失;一是视频流,前端摄像头负责捕捉,后端进行视频分析,虽然保留了视频中的所有语义,行为能被完整刻画,但由于没有大模型的加持,视频完整语义的价值并没有被完全挖掘和使用。

走视频流的智能化路线,是对客户更加负责的选择,“图片流只能做人脸识别,随着业务需求增长,图片流建设模式就会变成断头路,只能换新相机;而视频流对前端建设有利旧保护,只需后端升级算法即可。”

考虑到大模型只能部署在后端,未来视频流智能化或将成为主流。

其次,是IT基础设施的重大变化。

前面已经提到,传统的信息化技术,通过前端摄像机会产生大量结构化数据,结构化数据存在数据库里,数据库则存在硬盘里。

大模型时代,所有数据经过模型处理,会生成蕴含对视频语义完整理解的特征向量,特征向量存在向量数据库里,向量数据库存在显存里。

在从传统数据库变到向量数据库的过程中,基础设施层面,也将从过去建CPU为主的数据库系统,到建设GPU为主的向量搜索系统。

基于这一认知,依图在2022年发布了求实服务器。

对于这款服务器的诞生,许焰如此解释:“进入到向量时代,超融合架构的服务器威力非常大,依图求实服务器有一个最大的特点,内存即显存,因为即便英伟达的A100也只有40G的显存,但求实服务器内存可以到512G,甚至1T。”

再者,从生产过程讲,有了预训练大模型,用户需求端到端的时间以及成本会被极大压缩。

一方面,用大模型技术替代过去小模型,可以极大压缩生产过程周期,降低算法研发成本,让客户更快享受到技术的红利。

比如,当用户要做一个“骑电瓶车不戴头盔”的需求时,AI公司需要先收集数据做训练,需求提出到满足,至少一到两个月。

有了预训练大模型后,只需输入“骑电瓶车不带头盔”的指令,就能生成算法,一周时间即可达到之前一两个月才有的效果,并且时间越长,模型精度越高。

另一方面,通过算法和算力的端到端的整合,也会带来成本最小化。

许焰对雷峰网举例,“过去做1万路视频智能化,得用16个机柜,现在算法和算力实现端到端整合后,只用一个机柜就可以解决所有问题,但整体成本下降了80%。”

最后,从业务层面讲,传统的指挥中心、移动警务、侦查破案等都会发生重大变化。

比如指挥中心可以直接通过语音调取摄像头,如“帮我调取所有公园的视频”、“帮我调取所有现在拥堵路段的视频”;移动警务也将变成,民警在路上巡逻上时,不再需要在执法仪上打字,而可以高效率地通过语音输入指令,如“请查询前方戴黑色帽子的人的身份。”

“新安防、真智能”,安防的下一个十年属于智能

“依图一直坚信安防市场会从监控走向智能。”

如果说依图有什么明显区别于其他公司的地方,就在于其始终认可安防市场的价值,并用十年时间坚守安防市场。

谈到依图对安防市场的贡献,许焰满是自豪:

“自2012年成立至今,在安防智能化发展的各个阶段,依图都代表业界最前沿水平。依图之所以坚信安防是个好市场,一个原因也在于依图在安防市场做到了盈利,持续为客户创造价值。”

这种价值具体表现为,时至今日,依图是安防行业第一个推出可实战可商用的多模态大模型的公司。

“第一个”写起来虽然简单,但对于依图而言,背后是沉甸甸的付出。

2018年,依图提出“新安防,真智能”的口号,至今未变。

彼时,视觉智能化快速发展,人脸识别开始进入规模化落地阶段。依图的“新安防”口号,为公安业务流程的变革而发;“真智能”口号的提出,则强调了“真正的智能”给安防行业带来的差异化的用户价值。

进入大模型时代,公安的业务流程、智能化程度跃迁到了新的阶段,但依图这句口号的内核依然没有变化。

真正让人动容之处在于,依图并没有沦为“口号专家”,而是将口号挂在了实际行动上。

一直以来,客户看似不合理的追求六个字:高价值、低成本。

满足这个需求并不容易,尤其在AI这一有着极高技术和渠道门槛的赛道。

但依图对这句话的信奉和践行,是AI公司中难得一见的扎实。

支撑依图“安防是好市场”背后的商业逻辑正是,追求价值最大化、成本最小化。

依图2017年开始布局芯片板块,2019年5月9日发布首款云端AI芯片“求索”,用于视觉推理领域。

当时的发布会现场,依图通过四块“求索”芯片,实时比对现场观众,演示十分钟内,无一起误报。

依图之所以向上做芯片,在于看到了算法性能高速发展和机器算力提升缓慢的矛盾,这一矛盾导致AI公司们要么牺牲算法性能,削足适履;要么没有先进算法,空耗资源。

而随着中美科技竞争的加剧,美国对中国芯片的封锁制裁力度持续升级,国产化具有高性价比的芯片产品在此刻显得尤为重要,依图的选择似乎又更具有前瞻性:做硬件和算法的端到端的整合,可以给用户最高性价比的后端智能化产品。

如果说,以前因为缺乏统一的模型结构导致芯片和算法公司难以匹配,在一定程度上说明人工智能芯片还不太成立,那么到今天,这个阻碍已经消失了。

2019年,依图开始投入以Transformer为基础的大模型技术,如今回看这一决定,其意义在于,选对了公司未来几年的发展路径。

当企业选择的方向更准确,研发的效率就会更高效,成本更低,对客户而言就是更高的性价比,最终实现双赢。

“到今天,依图的多模态大模型已经在全国30多个项目中部署应用。”据许焰向雷峰网介绍,依图“天问”多模态大模型,有以下三大特点:

其一,视频语义搜索能力,支持用自然语言搜索各类视频。

类似“堵塞消防通道的车”、”积水的路面“、”无人看管的红色行李箱“等表达都可以快速找出对应的视频。

其二,零样本、冷启动。

比如要创建一个骑车不戴头盔的算法,只需输入“骑车不戴头盔”,就能生成算法,并且算法一旦上线,便能在线上做分钟级的训练,越用精度越高。

其三,内置了大量凝结依图对行业认知的算法。

通过针对性的将特定数据放入训练模型中,如大客流、重点区域防控等典型算法,来提高模型性能。

今年以来,依图的天问大模型收到不少令许焰印象深刻的反馈。

某城市交通事故频发,该市客户找到依图做城市路口的常规违章和不文明行为判定,要求用天问大模型赋能利旧的前端摄像头。

依图做了闯红灯、超速、不礼让行人、骑车不戴安全帽、违法掉头、压实线等各种各样的算法,系统上线第一天,准确度只有60%-70%,一周结束后精度基本达到100%,并且成本比以往的建设成本下降了 60% – 70%。

在许焰的回忆中,“当时这个客户特别兴奋,因为依图用一周时间,解决了该城市交通治理极大的痛点。”

除了大型项目,多模态大模型的意义还在于解锁长尾算法。

以往,大量中小型客户,由于支付能力不强,此前对AI没有刚需,未来借助大模型的迁移和通用能力,可以降低成本门槛,这些用户也能用上用好大模型。

结语

路漫漫其修远兮,吾将上下而求索。

2019年,依图发布第一款AI芯片,从屈原的《楚辞》中找到“求索”一名,表达了对人工智能技术、人工智能产业落地探索的热情。

与此同时,依图也开启了将Transformer技术用于视觉领域的研究,并同样从《楚辞》中找到“天问”一名,赋予彼时还尚出世的视觉多模态大模型。

时至今日,依图在国产化算力上有了“求索”和“求实”,在大模型算法上有了“天问”。十年AI路,依图所打造的“全栈AI技术”和”一站式AI解决方案提供商“的形象也越发清晰,完整。

在大模型时代,依图对安防智能化依然信心满满,秉持着为”价值最大化,成本最低化“的运营理念,投入坚决。随着视觉多模态大模型产品的商用推出和规模化部署,依图又一次站在了AI新时代的浪尖。

大模型时代必然会产生新的商业模式和应用场景,在依图的第二个十年,我们期待它能再一次引领行业,再一次把“新安防,真智能”的口号变成现实。