“我想,AI之所以被称为产业革命级的机会,就是因为它对于社会经济,带来了生产力的无限扩张。”百度创始人李彦宏在百度世界2024上这样说道,并给征战“AI时代”的开发者们递上了两把“神兵”。
11月12日,百度世界2024在上海正式举办,大会期间,既展示与分享百度在AI技术领域的创新与应用进展,也深度探讨AI时代的前沿洞见。期间,百度发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)以及无代码工具“秒哒”。
本届大会以“应用来了”为主题,不仅要展示近年来AI应用的蓬勃发展的现状,更要用技术为AI应用的发展勾勒出新的轮廓。李彦宏指出,“百度不是要推出一个‘超级应用’,是要帮助更多人、更多企业打造出数百万‘超级有用’的应用”。
事实上,早在一年之前,李彦宏就曾提出“AI原生时代,我们需要100万量级的AI原生应用,但是不需要100个大模型。”
其中首先要解决的,便是AI应用“怎么来”的问题。
一年前,李彦宏抛出了这个问题,而一年之后的今天,他带着解决问题的方法,来了。
“秒哒”无代码,AI应用迎来“群星闪耀”时刻
在2024年百度世界大会上,哪项发布最令人印象深刻?毋庸置疑,多数人会将票投给大会的压轴之作——“秒哒”。
在传统的应用开发模式下,构建一款AI应用对于非专业人士而言仍是一项艰巨的任务。复杂的编码和繁琐的开发流程,往往使许多创新想法受限于技术门槛。为解决这一痛点,百度推出了无代码工具“秒哒”,其目标是让每个人都能轻松创建属于自己的应用。
据官方介绍,“秒哒”具备三大核心特性:
1.无代码编程:由大模型直接生成代码,不需要人写一行代码。门槛很低,人人可上手;
2.多智能体协作:基于文心大模型的思考和规划能力,实现对不同智能体的调度和编排
3.多工具调用:通过文心大模型的工具调用能力,可调用网页检索、iRAG、地图API等各类型工具。
基于具备无代码编程、多智能体协作和多工具调用三大特性,用户只需通过自然语言指令即可完成应用的创建。
现场,李彦宏以萝卜快跑新技术发布会为例,演示了只需要简单几句话,只见0号智能体作为“小组长”,很快给1-4号智能体进行分工,分配策划、小编、程序员和质检员的任务。只要3分钟的时间,这个“智能体TEAM”便生成了一个简单发布会的邀请系统。超低的使用门槛与超高的效率,也引得台下观众无不啧啧称奇。
“秒哒”的问世,意味着每个人都将具备程序员的能力,只需会说话即可开发应用,这极大地降低了AI应用开发的门槛。这一创新极大地拓宽了AI应用开发的边界,使得个人无需再依赖庞大的开发团队,仅凭一己之力便能指挥多个智能体协同作战,实现“一人成军”。
技术的0门槛,将进一步加速智能体的爆发。“秒哒”可以帮助更多人、更多企业打造出数百万“超级有用”的应用。
技术的零门槛,无疑将加速智能体的普及与爆发,助力更多个人与企业打造出数百万“超级有用”的应用,为各行各业带来前所未有的变革。目前,文心智能体平台已吸引15万家企业及80万名开发者参与,覆盖众多应用场景。未来,“秒哒”将打通多智能体协同的链路,让Creativity(创造力)转化为Productivity(生产力)。
目前,文心智能体平台上,用自然语言就能创建智能体,已经吸引了15万家企业和80万名开发者参与,覆盖众多应用场景;未来,“秒哒”将打通多智能体协同的链路,让创造力落地,转化成生产力。
这意味着,“秒哒”不仅是一个无代码开发平台,更是一个让创意落地的工具。只要有想法,就能用“秒哒”将其变成现实,“只靠想法就能赚钱”或许不再是天方夜谭。
李彦宏表示,“秒哒”是“迄今为止人类历史上最复杂的多智能体协作工具”。这种创新性的协作不仅使得AI应用开发更加高效,还带来了前所未有的灵活性,使得AI成为用户日常工作中的得力助手。“
当下,全球所有顶尖科技公司都很关注智能体,但像百度这样把智能体作为最重要战略方向的并不多。而李彦宏则认为,智能体是AI应用的最主流形态,即将迎来它的爆发点,会变成AI原生时代,内容、信息和服务的新载体。
回顾2021年百度港股上市之时,李彦宏重申:“从过去到现在,我们的信仰从未改变,我们坚信技术可以改变世界。我们有决心,也有耐心。我们能够忍受万丈孤独,也能够拥抱星辰大海。”
展望未来,随着2025年第一季度“秒哒”的正式上线,李彦宏所言的“AI应用的群星闪耀时刻”或许真的即将到来。
文心iRAG——产业价值是百度固有的坚持
而从百度世界2024上的另一项重磅发布——文心iRAG,则能够看到百度对于技术价值的特殊的坚持。
在人工智能技术的发展进程中,可靠性是至关重要的。李彦宏指出,若大模型总是“一本正经地胡说八道”,就无法赢得人们的信任,更不会有实际的应用场景。
因此,攻克大模型幻觉问题,成为了AI发展必须越过的难关。为此,百度提出检索增强(RAG),研发了「理解-检索-生成」的大模型检索增强技术架构,对搜索和大模型进行联合优化,显著提升了大模型的效果。
作为以搜索起家的百度而言,昔日自己的老本行,逐步成为了行业的共识,各家纷纷开始尝试利用RAG来优化自家的模型。
过去24个月的大模型狂热中,行业的最大变化正是大模型基本消除了幻觉。如今,文字层面的检索增强生成(RAG)技术已取得显著成效,但图像等多模态内容与RAG的结合仍有待加强。
如何在RAG领域迈出下一步?行业内却突然出现了变数。
今年2月,OpenAI发布了Sora视频生成模型。突如其来的新技术思潮,是机遇,也是诱惑,考验着企业对于技术投入的“定力”。不少模型企业似乎看到了未来的方向,纷纷将研究方向转为视频大模型。
而百度则选择了坚持要对多模态“幻觉”下手,这个问题看起来更简单,甚至更枯燥,但是只有解决了这个问题,多模态模型的产业应用才能够真正的规模化出现。如此,才有了今天百度发布的检索增强的文生图技术iRAG(image based RAG)。
传统的AI生成图像常常会在特定的场景中产生认知错误,例如生成历史人物或标志性建筑时,AI可能会出现物体拼接错位、细节模糊等问题,极大影响了内容的真实性。
提示词:帮我画一张马斯克和孙悟空一起参观水族馆的图
而iRAG通过将百度搜索的亿级图片资源与文心大模型的生成能力结合,通过“理解-检索-生成”三步流程,首先理解用户的图像需求,随后通过多模态协同检索最符合需求的素材,让AI生成的图像在精准度和细节还原度上达到了前所未有的水准。这一创新,极大提升了AI生成图像的真实性,使生成的内容接近照片效果,消除了幻觉问题带来的不信任感。
在相同的提示词“画一张正在玩手机的包青天”的需求下,大模型之家使用搭载文心iRAG的文心一言进行图片生成,可以看到文心一言生成的“包公”黑色的面容之下,一副威严的神情,展现出了他铁面无私、公正刚直的形象,在衣着和皮肤质感方面也更加逼真和写实。相比DALL·E生成的包公,一张外国面孔,与角色设定相去甚远,显然对于中华文化的理解还有提升空间。
在给出提示词“生成一张比萨斜塔和自由女神像同框出现的图”的需求下,搭载文心iRAG的文心一言(左)生成的图像中,我们可以清晰地看到石砖纹理、光影效果以及游人参观等细腻之处,更重要的是,比萨斜塔和自由女神像被自然地置于同一地平线上,形成了和谐统一的视觉效果,而非DALL·E(右)那样简单的素材拼凑。
多模态模型幻觉的消除不仅仅是技术的突破,更为AI生成内容的实际应用铺平了道路。在如今AI产业加速发展的背景下,iRAG为众多应用场景提供了一个更加真实、可靠的图像生成方式,彻底改变了传统AI生成内容的局限性。
李彦宏用四个词,精准概括了文心iRAG的价值在于“无幻觉、超真实、没成本、立等可取”。iRAG为品牌宣传和创意制作带来了巨大的商业价值。以前制作一组广告海报需要几万元的预算,而iRAG则让这种图像生成几乎零成本。
也许,正是这股追求技术的纯粹,让百度能够静下心来,在同行都在追随Sora的时候,选择“死磕”人工智能行业最为顽固的痛点,才有了今天文心iRAG的惊艳登场。
作为中国人工智能的“扛旗者”,既要与谷歌、OpenAI这样的国际人工智能巨头抢攀技术的高峰,更要发挥自己的能力,推动AI技术的普惠。而百度也确实在不遗余力地,通过iRAG、“秒哒”这样的AI工具,让更多人可以加入到这场智能变革的浪潮之中。
作为中国人工智能行业发展的一个缩影,截至11月初,百度文心大模型的日均调用量超15亿,相较5月披露的2亿,增长7.5倍,相较一年前首次披露的5000万次,更是增长约30倍。数字“陡峭”增长的背后,是过去18个月中国大模型应用爆发缩影。大模型技术的广泛运用,正深刻改变着各行各业的生产方式和商业模式。
正如同李彦宏所言:“百度不是要推出一个‘超级应用’,是要帮助更多人、更多企业打造出数百万‘超级有用’的应用”。这种理念不仅体现了百度对AI技术的深刻理解,也展示了百度在全球AI产业中的战略格局。
写在最后
在发布环节,有这样一个细节,李彦宏在展示工具类智能体“自由画布”时,特别强调了这款激发人们的无限灵感和创造力的智能体,“不是期货,而是立即可用的现货”,言语中带着些许激动。这份激动,想必是出于那些我们所期待的世界,正在被AI应用所创造。
而在百度世界2024的AI应用小镇上,大模型之家看到了展出的上百家大模型应用中,有很多已经走进家庭、入驻工厂、踏入农田……遍及我们衣食住行的方方面面。
当我们留意观察,才发现,AI应用的时代,其实已经来了。