编辑部 发自 凹非寺
量子位 | 公众号 QbitAI
不包含大厂在内,中美相加最后将有五、六家大模型公司笑到最后。
真正有野心的开发者该去做AI-First/AI-Native这类应用。
最快两年,自动驾驶将迎来「ChatGPT」时刻。
端侧推理会造真正的杀手级应用。AI下一个阶段更像是“扫雷”游戏。
大模型元年,在MEET2024智能未来大会上,20位行业大咖给出了这样的年终总结。
ChatGPT给予了高度的评价:看到AI技术在不同领域的应用,真是让人激动不已。
数百位线下以及近三百万线上的人类观众们也直呼干货满满。
不知道是不是因为科技浓度过高,以至于有网友怀疑嘉宾到底是真人还是数字人……😂
嗯或许明年就是了。
围绕着「新起点·再出发」这一主题,本次大会主要分为了大模型时代下的「新思考」、以及给行业玩家带来的「新应用」、「新终端」以及「新模式」的变革变化。
来,跟着ChatGPT、Claude2等大模型一起来划重点。
新思考新趋势
李开复:真正有野心的开发者该去做AI-First/AI-Native这类应用
首先出场的,是创新工场董事长、零一万物CEO李开复博士,他在今年被《时代》杂志评选为2023年度全球25位“AI领袖”。今年,创新工场塔尖孵化了AI 2.0公司零一万物,其Yi系列大模型已经交出了业界领先的成绩。
40多年前,李开复先后求学于哥伦比亚大学、卡内基梅隆大学,从而入行AI并成为这个领域国际著名专家和投资人。他坦言,40多年来,一直期盼亲历AGI的发生,曾经一度踌躇于“我这一生看不到AGI了”。
但现在,通向AGI的道路正在逐渐清晰。
李开复认为,AI 2.0是有史以来最伟大的技术革命和平台革命,不仅改写所有的用户界面和APP,更会穿透各行各业创造巨大的价值。“AI 2.0带来的平台型的机会比PC、移动互联网时代大十倍。”
当前,中国大模型赛道已经进入到了“百模大战”阶段,竞争白热化。从创业机会看,虽然大型预训练模型的创业窗口正在逐渐关闭,但在其他方面,如AI 2.0基础设施和应用方面,仍有很多机遇。
AI 2.0时代的APP将被注入超级智能,带来全新的界面和用户体验,成长速度将会洗刷新的记录,会比移动互联网来得更凶猛,创造更多的价值,带来更多的用户。
真正有梦想、有野心的开发者应该去做AI-First、AI-Native这类应用,这些应用将能充分利用AI技术,从而成为最伟大和最具商业价值的公司。
其次,面对现在开闭源模型的激烈战况,在李开复看来,二者的成长是一个延续的、你追我赶的事情,但是,“最终不会只有一家闭源的、伟大的GPT或大模型公司”。
他预判,不包含大厂在内,中美相加最后将有五、六家大模型公司笑到最后。
在收尾的快问快答环节,李开复表示,并不是擅长所有人类做的事情才叫AGI,只要在某些领域能比人类聪明100倍,这就是一个有价值的AGI。虽然无法评判AI什么时候能够具有真正的情感比如爱和同理心等,但它在一些领域已经比人类聪明100倍。面对AI 带来的风险和挑战,但他认为,技术带来的问题可以用技术来解决,同时辅以合理完善的法律法规来进行AI治理,让AI造福更多的人类。
他还表示,传统的图灵测试已经不适用于当前快速发展的AI 2.0时代,Agent进入快速落地阶段,我们需要更高级的技术来区分AI和真人。
最后,李开复留下一个彩蛋:明年的量子位活动,将由他的数字化身来参会。
李培根院士:机器很难具有像人类那样的不可名状的意识流
“制造业需要站在AI巨人的肩上实现突破”,这一点在李培根院士的演讲中得以充分阐述。
李培根院士认为AI是一个既知道已知知识又可能生成新知识的“知识巨人”,而制造业要考虑的问题是如何充分利用AI进行创新设计,站在AI的肩上去洞察复杂的关联。
比如传统的工业自动化主要处理固定模式、确定性、有因果关系的问题。
然而,工程中实际上也存在大量不确定性、没有固定模式、并非基于因果关系的但存在复杂关联的问题:
知识可以看作是数据在时空中的关系。人类通常只能理解和认知一些简单的、线性的、低阶关系,而高阶关联往往认识不到,这就会掉入所谓“暗知识”的大海。
但现在,有大数据、AI技术加持,我们可以站在AI巨人的肩上洞察复杂的关联。
需要特别注意的是,李培根院士表示虽然机器在很多方面可以超越人类思维,但很难具有像人类那样不可名状的意识流。
“意识流”这一概念由美国心理学家威廉·詹姆斯提出:
意识流像一条绵延不断、不可分割的河流,人的意识由两方面组成,一些是理性的、自觉的意识,有一些是无逻辑的、非理性的无意识。
李培根院士表示,正是意识流使人类不至于被AI所役使,反而能够利用AI增强自己的创造能力。
欧阳万里:AI For Science能让科学家“多快好省”地端出“美味佳肴”
上海人工智能实验室领军科学家欧阳万里分享了他们实验室在AI For Science的科研探索。
他将AI For Science形容为美食烹饪,需要AI学者同自然科学家一起合作。
如果把科学研究比作美食烹饪,实验数据相当于优质食材,而AI for Science则让科学家们能够“多、快、好、省”地端出美味佳肴。
于他个人而言,为何从计算机视觉转型做AI For Science,有两方面原因:第一、问题本身很重要;第二、问题本身很有趣。
关于问题重要性上,在欧阳万里看来,自然科学领域面临着AI领域同样的问题,甚至还更为严峻。
一方面是少标注、少样本的问题。例如获得一个蛋白质结构所需的投入时间和资源巨大,可能一位学者投入一年时间才能获取一个蛋白质的结构,即一个样本标注。
另一方面还会面临数据表现形式多样。自然科学从物理到生物到地球科学,有不同的表现形式,从非常底层的原子表示,分子表示,有基因蛋白表示方式,如果来到地球科学又有大气的表示。
表现形式本身多样的形式下,怎么把数据处理好就是一个问题。
既然如此那应该如何解决呢?随后欧阳万里结合自己研究团队成果做了进一步解释:
在气象方面,他们推出的全球中期天气预报大模型风乌,首次实现了在高分辨率上对核心大气变量进行超过10天的有效预报。风乌提出将大气变量视作多模态输入,从而使其得以运用多模态和多任务深度学习方法。风乌突破了传统预报方法瓶颈并获得对气象数据关系的强大拟合能力,仅需30秒即可生成未来10天全球高精度预报结果,在效率上大幅优于传统模型。
新应用新场景
昆仑万维方汉:端侧推理会造就真正的杀手级应用
昆仑万维董事长兼CEO方汉分享了《昆仑万维AGI与AIGC探索之路,从大模型到AI Agent开发平台》。
首先,方汉分享了昆仑万维关于AGI的探索历程。目前昆仑万维已经构建出自己的六大AI业务矩阵,包括AI大模型、AI搜索、AI音乐、AI游戏、AI动漫、AI社交。他认为,拥有自己的模型生成能力和专有模型对于企业在AI领域的发展至关重要。目前公司已经在国内推出了面向C端的AI搜索产品,此外还计划面向海外市场推出游戏、音乐、动漫和社交方向的AI产品。
随后他详细谈到了AI搜索、Agent以及端侧推理这三大机遇。
比如AI搜索,他认为能大幅缩短用户搜索时间并提高信息获取质量。
他还谈到了Agent的重要性,AGI的真正表现形式是Agent,但目前像不少大模型API还是需要一定的门槛。方汉认为,这时候需要Agent,这种低代码的、大模型的二次开发接口,让所有用户都能够通过Agent让大模型替自己做实际的工作以及更好地落地。
他还提到了降低AI训练和推断成本的途径,包括技术迭代、内容革命和端侧推理。
谈及端侧推理 ,方汉认为这是个面向所有企业的机遇。只有“端侧推理”才是最终的解决方案,才会造就真正杀手级应用的产生。
他认为,目前大模型付费模式只是过渡阶段,随着技术迭代、内容革命和端侧推理的实现,AI大模型最终会真正实现免费模式,也只有实现了免费模式,C端应用才会迎来真正的大爆发。
这一波AI一定是大潮将起,落地为王。
商汤王晓刚:未来1-2年智能汽车处在关键时间点
商汤联合创始人、首席科学家王晓刚则是分享了通用人工智能和大模型给智能汽车带来的技术突破和发展的机遇。
王晓刚认为,ChatGPT改变了人工智能新范式,给AI规模化产业应用打开新道路。这过程最明显感知到的是算力需求激增,2018年商汤花50亿建AI大装置,很多人不理解。但今天所有谈到的大模型,都建立在强大软硬件基础设施系统能力基础之上。
那么现在大模型时代,又有什么样的趋势值得关注。王晓刚主要从智能座舱、智能驾驶两个方面谈了谈。
在智能座舱方面,他谈到了未来可基于大语言模型能力构建座舱大脑,控制舱内各种软硬件,并借助舱内外传感器去全方位感知环境和乘客,包括驾驶员的需求。从应用层面来说,目前已经可以看到的趋势,比如内容生成、AI说明书、健康问诊、旅游规划等等,这些都将座舱内的智能化体验提升到新层次。
在智能驾驶方面,他主要谈到了纯视觉方向的发展趋势。目前智能驾驶系统只有感知这部分用的是AI,其他很多都是基于手写规则。但要想真正解决各种Corner Case更多还是需要依赖数据驱动,通过大模型去做感知、融合、定位、决策、规控,将所有模块串联起来,然后覆盖尽可能多的场景。
比如像特斯拉端到端自动驾驶解决方案,还有像今年商汤CVPR最佳论文实现多模块连通的大模型,都是这种思路。
最后,王晓刚做了对智能汽车未来的展望:未来一到两年,我们智能汽车其实处在一个关键突破的时间点。
实际上有三件事,一是端到端数据驱动的自动驾驶,二是以大模型为核心、为基础的座舱大脑的出现,三是驾舱融合,所有座舱和驾驶的体验在同一颗芯片,同一个用户上实现,大幅降低成本和算力,在产品级实现更好的融合,实现更好的智能驾驶和座舱的智能化的体验。
而所有这些都是以大模型为基础的。
百度马艳军:AI原生应用发展正迎来最好的时代
百度AI技术生态总经理马艳军以文心一言为例,全面介绍了知识增强大语言模型,还介绍了围绕大模型建设的生态以及未来发展趋势。
马艳军指出,要提升大模型的效果,数据和对齐技术尤为重要:
如何使用数据,如何挖掘分析、合成、标注、评估数据,整个闭环非常关键。
此外,马艳军还从三个方面总结了大模型和此前AI领域其它技术突破的不同之处。
首先是交互方式,“这次真正有了一个颠覆式变化”,未来的应用是通过自然语言的提示词来调动原生AI应用实现的。交互效果行不行,直接影响了技术的普及。
第二是大幅降低了AI开发门槛,在这之前“要开发一个AI应用要写非常多的代码”,基于大模型的应用开发几乎可以零代码。
最后大模型不仅对产业应用有影响,也推动了科研的AI for Science新趋势。
在这几点突破的驱动下,马艳军表示AI原生应用发展正迎来最好的时代,以大模型插件接入为基础进一步衍生出更强大的Agent智能体,基于这些能力将会催生更多的AI原生应用,数字技术和实体世界加速连接与融合。
马艳军也提到,训练大模型的挑战很大,这其中包括模型体积大,训练难度高;算力规模大,性能要求高;数据规模大,质量参差不齐等等。这些问题的存在,目前也对基础软硬件提出了更高的要求。
面壁智能李大海:大模型让人和机器更加平等
面壁智能联合创始人、CEO李大海分享主题为《智周万物:让AI智能体释放大模型生产力》。
面壁智能是国内最早做大模型的团队,李大海认为大模型要用在真实生产环境里,最关键的能力是逻辑推理。而面壁智能也着重在模型的逻辑推理能力方面进行了攻关和提升。
据他介绍,面壁智能最新推出的千亿多模态大模型CPM-Cricket可以对标GPT-3.5的水平,同时逻辑推理能力十分突出。为了测试模型的逻辑推理表现,面壁智能还给大模型做了公考行测考试,结果显示其总正确率达到63.76%,甚至超过GPT-4的61.88%。在英文的GMAT测试中,面壁智能大模型的分数是GPT-4的93%,已经非常趋近。
当下大模型的技术路线在整个产业界已经形成了共识,但大模型变革到底是像web3这样的技术浪潮还是十年为期的产业革命?
李大海认为,大模型是第四次技术革命,可以和工业革命、信息革命相提并论,这场革命将至少持续20-30年。
除了大模型之外,李大海还谈到了智能体(AI Agent)的发展,他认为智能体需要这样几个特性:人设、智商、情商、感知、价值观和成长性等。对于成长性,李大海认为目前还是基于数据闭环类似T+1或T+2的模式,未来希望能实现更为实时的成长性。
李大海打了个比方,大模型像是汽车引擎,但还需要转向系统、汽车底盘、内饰等各种配件组装起来,才能真正提供一个完整的汽车产品。所以智能体需要在大模型基础上叠加更多能力才能实现更多应用和想象空间。
另外,当更多单体智能开始协作之后,它们将能发挥出更大的生产力。这时候就形成了更高级的智能——群体智能。自然界中就有很多类似案例,比如蚁群、蜂群、鱼群等,它们带来比个体更高的智能表现。
基于这种思考,过去几个月,面壁智能共发布了三个智能体框架:AgentVerse,内部包含非常多专家的智能体通用平台;ChatDev,多智能体智协作开发平台;XAgent,综合能力全面超越AutoGPT的超强单体智能应用框架。目前,面壁智能的“大模型+Agent”技术已在金融、法律等场景都有落地。
未来是否会存在基于大模型的超级应用呢?李大海认为大模型技术带来的最根本变化,是人与机器之间关系的变化:机器变得更像人,人和机器会更加平等。
演讲最后,他还分享了面壁智能提出的“Internet of Agents”概念,他们认为未来世界将会是一个由智能体所连接的万物智联的世界。
小冰李笛:AI下一阶段更像“扫雷”游戏
小冰公司首席执行官李笛的分享,从人们热议的“人工智能著作权第一案”开始说起。
乙某在文章中使用了一张图片,而图片由甲某用开源AI绘画软件生成。最后,法院判定乙某侵犯了甲某的知识产权,支付了500元赔偿费用。
“500元的赔偿费,可能是这张图片目前为止在商业世界中,所能够获得最大的一笔回报了。”这就引出一个话题点——AI在创造巨大的价值,但并不会收获同等高的价值回报。
李笛表示,其实这就是今天AI领域商业模式的困局之一。
过去一年,AI技术取得了巨大进展,针对AI产品的偏见在迅速消融,李笛眼中,过去的一年是这个行业的黄金一年。
具体来看:
生成式AI模型效率提升巨大。几年前,想要创造能够一个能评价文章的AI-being时,需要针对82类知识图谱构建它的三观,要花费约6个月时间。现在只需极短时间就可实现。
社会对AI的偏见正在消解,给予AI更大容错空间,有利于技术快速发展。
但是,李笛观察到,目前AI应用普遍面临商业化难题:
一方面,现有API调用付费模式难以体现AI系统的创造力价值。以文章写作为例,AI完全取代撰稿员后获得的市场规模非常有限。
另一方面,多数垂直领域AI系统替代人工作后获得的收入,与替代的商业价值严重不匹配。
李笛认为需要找到新的商业模式,让AI系统能够直接从内容创造中获得收益份额。
他还在分享中强调,AI仍处于技术创新高速迭代的阶段,未来在他眼中不像是枪响后赛道确定的赛跑,更像是不知AI能力上限的“扫雷”游戏。
这一阶段,需要多样化探索和宽容心态,才能抓住近两年巨大机遇,真正实现技术向应用场景的转化,改变人类生活。
蚂蚁杨铭:从业务和应用纬度拥抱多模态大模型
科技是创造未来的核心动力——蚂蚁集团研究员、百灵多模态大模型研发负责人杨铭一上台,就抛出了这句话。他表示,这是蚂蚁集团一直所坚信的。
在这句话的引领下,在过去一年,蚂蚁集团集中力量技术攻坚交出了答卷:百灵语言大模型和多模态大模型。
蚂蚁为什么需要多模态大模型?
杨铭介绍,蚂蚁具备丰富的多模态理解应用场景,可以分为两个纬度来看。从业务纬度来看,有数字支付和数字金融;从应用纬度来看,有图文理解、视频分析、和图像视频内容生成。
为此,蚂蚁集团从无到有,收集了数十亿张中英文图文对,通过无监督学习,训练出一个百亿参数级别的图文理解基础大模型。
从零开始训练会面临许多难题,比如缺乏开源初始化权重,train from scratch不收敛;比如训练成本高昂,迭代周期长;再比如训练集群调度和稳定性问题。
最终,通过分阶段训练策略,蚂蚁解决了收敛问题;高昂的训练成本则通过优化训练算法、IO与存储、高效并行训练平台解决。
杨铭在现场介绍,在这个图文模型的基础上,蚂蚁衍生出了很多下游的垂类模型,包括将图文理解模型应用到图文对话、视频理解,以及文生图、图生图等。
有了图文对话的能力,从应用角度,蚂蚁开始逐渐落地到业务领域。譬如,广告内容审核就是业务领域的典型场景。在图文理解的基础上,蚂蚁引入了时序的建模,分析帧与帧之间的关系,理解运动,从而能将图文模型扩展成视频任务模型,支持视频到文本的检索、文本到视频的检索以及视频内容生成跟理解。
此外,杨铭表示针对图像生成模型难以直接投入产品应用的问题,蚂蚁开发了若干可控生成技术,通过自参考图提取目标风格实现可控风格泛化,只需要输入单张图像即可实现风格迁移、人脸特效等效果,大大加快了技术到产品的节奏。
360梁志辉:大模型时代让所有人可被增强而非被取代
360集团副总裁、360大模型应用负责人梁志辉则分享了他们大模型应用在企业生产的落地心得和案例。
首先梁志辉认为大模型时代,模型跟人的关系不是取代而是增强。所有人无论在日常办公、企业营销上,大模型能将人的阅读、写作、查找的速度大大提升起来。
但生成式AI或生成式大模型并非万能,很多大模型现在还存在幻觉、缺乏行业知识、需要提示词工程等挑战。
以提示词工程这一点为例,首先,提示词模版非常复杂,只有AI发烧友才有可能精通,这样不有利于大模型的推广。其次,高质量内容很难靠大模型生成,要想推广大模型就要扬长避短。
基于这种思考,他们选择以一种全新的人机协同方式落地——让大模型变成每个人的助手。
大模型的长处在于内容生成和内容理解。过去很长一时间,看到很多聊天机器人的诞生。但这种机器人就像是小学生对大模型进行催眠,告诉大模型现在是某个角色,并按套路提供答案;但它并不了解产品、公司以及协作方式。
梁志辉表示,我们希望让大模型能够像一个掌握多种技能、具备行业知识,会使用多种工具的自主智能体Agent。这个Agent以整个互联网做它的知识背景,能够被训练,可以帮你查汇率、查天气,甚至订机票。
基于千亿大模型和Agent架构,梁志辉分享了他们现在关注的三大场景的应用:智能营销、智能办公以及智能客服。
尤其像这个诸葛亮数字人做文旅,会上备受观众和网友们好评。
新终端新交互
Rokid祝铭明:明年XR技术热度可能超过AI
未来5年,希望把所有人的眼镜换成智能眼镜。
上述这句话,就是Rokid创始人&CEO Misa对不久的未来的坚定展望。
在演讲中,Misa分享了他对AI与AR技术融合的看法,以及Rokid如何将这两项技术结合在一起,打造新一代人机交互平台。
2014年,Misa离开阿里巴巴,创立了Rokid。在他看来,AI和AR技术分别代表了对物理世界和数字世界的理解和交互能力,而他本人背负的使命,就是把AI和AR融合在一起,“融合成一件事情”。
大家更容易被硬件抓住眼球,但实际上,Rokid(不仅仅是一家眼镜公司,而)是一家致力于AI和AR人机交互的公司。
现场,Misa将Rokid的打法进行了拆解:通过在硬件、软件、算法等方面的持续打磨,逐步将产品推向消费者市场。
今年,Rokid发布了消费级OST(Optical See Through光学透视)个人空间计算平台Rokid AR Studio。
空间计算是什么?Misa给出的解释,是其本质是物理世界和数字世界的融合,以及在这种融合下如何用自然、易用的方式进行信息的展示和交流。
他进一步补充道,行业目前有两条路线——
一条是以Apple为代表的VST(Video See Through),是把用户包裹在一个纯粹的数字世界里,通过传感器把物理世界数字化、在虚拟世界里重建。
一条则是Rokid选择的OST,更轻量化,在数字世界叠加真实世界,让用户用肉眼去感知。
Misa给出了自己的判断:短期内,两条路线没有对错,并将长期共存。
“谁是更好,谁不好,还是交给时间去解决。”Misa最后表示,他相信明年XR技术将取得更大的突破,热度甚至可能超过AI。
vivo周围:大模型目前最能完成体验闭环和商业闭环的场景就是手机
2023年下半年开始,全球手机厂商纷纷加速,把大模型“塞”进手机。
以vivo为例,该公司的大模型战略可总结为5点:大而全、算法强、真安全、自进化、广开源。
具体做法围绕两步走,一是大模型开发,一是大模型落地。
大模型开发方面,该公司正式发布自研AI大模型矩阵蓝心大模型,以及全新手机操作系统OriginOS 4。
vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围在MEET2024大会现场分享,蓝心大模型包含十亿/百亿/千亿三个参数量级,共5款大模型。如今,70亿参数版本对外开源,130亿版本在端侧跑通。
大模型如此神奇,是因为它将人类数千年的文明知识进行了高纬度的抽象,并压缩成每个人都可以获取的知识和信息。
再来看大模型落地应用方面,vivo的软硬结合路线。
硬件方面,和芯片厂商深度合作,加速大模型上手机;软件方面,推出多种应用形式、并和底层系统深度融合,让消费者能更快上手体验。
但脚步不应该在这里停滞。
周围透露道手机厂商更加关注大模型应用给人带来的实际体验如何,因此他认为,大模型还要有像人类一样的逻辑思维、情感和价值观。
在这一点上,最能完成体验闭环和商业闭环的场景就是落地在手机上,打造智能体。
周围说道:“未来,我们希望利用AI的能力,进一步重构系统,并通过智能手机的普及,携手迈向智能体时代。”
小米栾剑:大模型从技术参数上秀肌肉,没什么意义了
在小米看来,大模型有三要素:大数据、大参数、大任务。这里面哪个才是大模型产生泛化能力的关键?
小米集团技术委员会AI实验室大模型团队负责人栾剑给出了他的观点:
我们觉得参数量并不是一个最关键的因素,小一点的模型也能产生泛化能力。
这一观点,也体现在了小米对大模型研发的全过程中。
2016年,小米就已开始在AI领域布局,近几年对AI的投入更是持续增长。据透露今年技术研发总投入预超200亿,预计最近5年(2022-2026)会投入1000亿。
小米大模型的突破点不是“大”,而是轻量化和本地部署。
栾剑表示,这和小米的特色有关,小米有各种各样的硬件设备,是全球最大的消费级IoT平台,截止今年第三季度,联网设备总量近7亿,拥有5台以上小米IoT设备的用户数达到1370万。
小米的想法是把大模型当作大脑,搭载到硬件设备中。
就像有一台扫地机器人,它可以不会聊天,也可以不用写小作文,但它需要会路径规划、躲避障碍物等。
栾剑谈到,“小米特别关注的,并不是行业所说的通用大模型,也不是垂类大模型,而是场景大模型”。
从技术参数上来秀肌肉我觉得没有什么意义了,接下来我们回归到怎么把大模型用好。
接下来小米还要探索同场景多设备协同、跨场景设备。栾剑表示云边端结合是将来发展很重要的一条路径。
最后栾剑就“大模型应用成败关键是什么?”这一问题,给出了自己的看法:
所有应用都有两个关键点,一个是流量入口在哪里?另一个是用户粘性靠什么?
栾剑认为大模型本身是一个入口,而跟操作系统深度融合,操作系统就是入口,归根结底操作系统需要一个硬件。至于用户粘性,要探索如何让大模型无处不在地融入日常生活。
即“入口在硬件,粘性靠生态”。
新模式新机遇
高通颜辰巍:只有当生成式AI在端侧广泛部署,才能实现真正大爆发
当前,生成式AI模型复杂度持续上升,围绕基础模型的新应用在不断涌现,并且用户数量也在不断增加。
基于此,高通技术公司产品管理高级副总裁颜辰巍带来的思考是:AI最终要落地在端侧,才能实现真正大爆发。
为什么要在端侧支持生成式AI,高通有三点考量。
一是云端AI模型推理成本高昂,当数十亿用户都在使用越加复杂的模型时,云计算推理综合成本会急剧增加,云经济难以支持生成式AI规模化扩展。
二是大量数据本身就发生在端侧,在终端侧处理AI是最经济的,也能够更好的保护用户隐私。
三是有些应用场景可能没有5G数据连接,比如在野外,车座舱里的司机与车交互的应用。这时候就必须有本地计算能力。
所以只有当终端就能运行基于AI大模型的用例时,端侧与云侧能很好的结合,生成式AI才能大规模普及,发挥出所有的潜力。
此外,大语言模型的性能正在变得愈发强大,随着基础模型的创新,很多用例可以完全在终端上运行。而这将实实在在的改变人们互动的方式。
为实现端侧AI算力突破,颜辰巍介绍到高通近期发布了两款专为生成式AI而打造的全新平台,面向PC的骁龙X Elite和面向智能手机的第三代骁龙8。颜辰巍指出,第三代骁龙8能够支持在终端侧运行高达100亿参数的生成式AI模型,并以20 token/秒的速度运行大语言模型,而骁龙X Elite是高通公司迄今为止面向PC打造的最强计算处理器,支持在终端侧运行超过130亿参数的生成式AI模型,凭借快达竞品4.5倍的AI处理速度,将继续扩大高通在AI领域的领先优势。
浪潮信息吴韶华:从GPT-3到GPT-4训练模式的变化需要算法与数据的同步改进
浪潮信息AI软件研发总监吴韶华,在MEET大会的舞台和大家一起回顾了GPT-3到GPT-4/ChatGPT发生的重要变化。
GPT-3是一种预训练大模型,直接通过提示词来使用;而GPT-4则在预训练之外,引入了微调和强化学习等技术,极大提升了模型的能力。
“OpenAI和DeepMind等都在大模型的扩展率上做了很多工作。”吴韶华补充了目前业界的一种共识,他举例说,“比如说在给定模型结构的情况下(即Transformer结构),随着模型参数量增大、投入算力规模和数据规模越大,模型的精度往往会更高。以往这些扩展率的研究是在预训练的范式下开展的。在预训练+微调的范式下,尤其在微调的重要性越来越高的情况下,如何改进算法、数据以适应预训练与微调不同阶段的特性,值得我们重新思考。”
吴韶华分析认为,从GPT-3到GPT-4训练模式的变化需要算法与数据的同步改进。
他拿实践经验来证明浪潮信息在这方面的思考:
2021年9月,2457亿参数的经典Transformer结构大模型源1.0发布,2023年9月,浪潮信息又新发布了源2.0。两个版本的迭代的最主要改进,体现在三个方面——
第一是算法的改进。浪潮信息提出了一种新型注意力机制LFA(Localized Filtering-based Attention),针对自然语言的局部依赖关系进行了建模,通过考虑单词之间的局部依赖关系,相比LLaMA结构模型精度提高4.4%。
第二是数据的改进。源2.0与源1.0相比,在训练数据来源、数据增强和合成方法方面进行了创新。与一味提升数据的体量相比,源2.0更注重提升数据的质量。由于中文数学、代码数据资源有限,源2.0的训练数据来源除了互联网,还采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时也在每一个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。
第三是计算的改进。针对多元异构芯片间P2P带宽的极大差异,浪潮信息提出了一种非均匀流水并行的分布式训练方法,大幅减少对芯片间互联带宽的需求。
吴韶华介绍,源2.0发布后,浪潮信息发布了“源2.0大模型共训计划”。开发者可以将模型在应用场景中的能力缺陷进行反馈,浪潮信息研发团队将收集、清洗相关数据进行模型增强训练,训练后的模型将持续开源。
潞晨卞正达:分布式算法降低大模型部署门槛和训练成本
潞晨科技联合创始人兼CTO卞正达带来的主题是“Colossal-AI:AI大模型的挑战与系统优化”。
他首先介绍了大模型的时代背景,AI模型训练成本日益增长的趋势。由此引入Colossal-AI框架,通过分布式算法来降低大模型的部署门槛和训练成本。
卞正达具体介绍整个框架的设计思路,主要包括三大核心技术。
一是N维并行系统。卞正达团队发现此前市面上已有众多并行技术,但更多普通用户拿到实际需求以后,很难选择真正合适的并行方案,来转化成实际落地的解决方案。
由此,Colossal-AI框架的核心思路是把目前最高效的并行技术整合到一套系统里,根据不同用户的需求选择合适的并行方案,同时提供最高效的落地实现。
第二点是高效的内存管理系统。卞正达表示,在深度学习训练中,计算较重的板块集中于存储开销比较少的部分,反而存储开销比较大的部分都集中在优化器的参数更新上。
所以他们的思路是把冗余的存储开销放在比较便宜的存储设备上,反映到Colossal-AI框架中,他们通过自适应的管理系统实现更高效的管理参数的存放。
除此以外,Colossal-AI还实现了Chunk的管理系统,为异构的存储也提供灵活管理。
通过上述系统优化,Colossal-AI框架大幅降低了部署AI大型模型的门槛,模型训练和推理速度都得到了提升。
最后,卞正达分享了Colossal-AI框架的实际应用效果,只用了不到1000美元,就把LLaMA-2模型成功迁移到了中文模型上。
圆桌对话:最快两年,自动驾驶将迎来「ChatGPT」时刻
最后,还有每年MEET大会的保留节目自动驾驶圆桌对话。今年讨论的话题是「自动驾驶的ChatGPT时刻,还有多远?」
ChatGPT掀起的浪潮让所有人都看到了生成式AI带来的颠覆性影响,那一直备受关注的自动驾驶,什么时候才会迎来自己的ChatGPT时刻?本次大会邀请到新一波自动驾驶创业代表前来分享。他们是:
DeepWay深向联合创始人兼CTO田山,也曾是百度Apollo商用车项目负责人。
千挂科技联合创始人廖若雪,他是曾在李彦宏和张一鸣身边被称为“技术天花板”的男人。
还有“自动驾驶领域天才少年”、零一汽车创始人兼CEO黄泽铧,之前是图森的联合创始人。
对于这个话题,田山从两个角度来看,技术本身,通常完全自动驾驶一定是需要的,但还需要一段时间的突破。但从需求看,目前很多限定场景里面自动驾驶不需要使用大模型就能完成的很好,但要实现通用场景,大模型不可或缺。
廖若雪就谈到实现「ChatGPT时刻」的关键标志,则是自动驾驶能不能被广泛认知到和看到。从他们商用车角度,就是越来越多客户意识到自动驾驶能带来明显的降本增效。
黄泽铧的观点则更为乐观一些,他认为现在ChatGPT展现出来的能力已超过了自动驾驶本身所需的知识能力。
「ChatGPT时刻」的关键要素
那么具体如何实现呢?黄泽铧谈到了背后一个关键要素,就是将分模块融合起来,在路径上实现端到端。以往去做感知需要人为去定义,但如果以数据驱动、基于大模型就可以解决更多长尾场景。
廖若雪则提到了闭环的重要性,他认为自动驾驶相关数据还是低数量级,那么如何获取并使用好数据,大模型是很好的路径,但数据从何而来,只有有足够多的客户能够用起来,才能获取大量的数据。这样技术生产与商业落地形成一个相互促进的闭环。
田山则谈到了三个方面的挑战,第一是公认的数据挑战,且各家都不一样导致复用很困难;第二是算力的限制,端到端自动驾驶需要足够大的数据量和算力;第三,安全性问题。建议在端到端的学习过程中,能够加入一些人工干预来确保安全性。
什么时候能到ChatGPT时刻?
今年还有个很大的因素在于政策。创始人们谈到政策给整个行业,包括客户、投资人很强的信心,是一个很好的推动方式。⻩泽铧还补充道,但这并不是终极的政策。只有足够多的数据做支撑,才能有进一步探索。
既然如此,什么时候能到ChatGPT时刻呢?
廖若雪认为是2025年。
⻩泽铧认为也是两年时间。
而田山则保守估计在三到五年时间。
后续还将有大会嘉宾更详细版内容分享,敬请关注!