来源:机器之能 作者:四月
「迈出象牙塔,踏进商业场,科学家如何自证价值?」
过去五年,阿里在全球人工智能的激烈赛道上悄然跑进了第一梯队,背后一群以达摩院称号对外示人的科学家群体愈发神秘撩人。
这是一群野心勃勃的科学家,亲手打破旁人艳羡的舒适区,踏入充满禁忌的未知地,只为寻觅更广阔的舞台。他们一生都致力「求证」,或于学术理论,或于技术价值,并愿意承担随之而来的冒险和境遇窘迫。
这五年,阿里经历了人工智能技术长征的发端与突围,而他们,也经历了一场巨大的冒险与自证。
初见之时,你或许会讶异他们滔滔不绝地谈起「买单」、「落地」、「规模化」等商业味浓厚的字眼,全然没了学究气,仿若一位身居一线的创业者心心念念……
直到你听说过那段既艰难又幸运的岁月,一切便了然于心——唯有越了解真相,才会变得越务实。
人生的绝妙之处也在于此,改变他们的不是早年风光的求学路,也并非当下所拥有的物质地位,而是源于一次又一次被质疑和误解后的绝地「自证」——不同于象牙塔里、试验台前的公示推理和仿真验证,商业场上的「自证」需要拿出实实在在的业务指标和实际效果,正如阿里办公区里那句随处可见的标语——「NO DATA,NO BB」。
强压之下的「自证」氛围造就了科学家们近乎苛刻现实的技术价值观。
待繁务卸下,他们重拾赤子之心,沉浸于算法公式和理论推理的乐趣。但人生并不总有自由浪漫的时刻,更漫长的是披荆斩棘的孤独与煎熬。
通过和近十位阿里巴巴人工智能科学家的对话与交流,本文试图还原阿里打造人工智能技术体系的荆棘路,以及路途中科学家们的内心征途。
1 . 既艰难又幸运
多年以后,遇上北京的雾霾天,漆远没准依然会想起那个加班的春节——西大望路的阿里妈妈会议室里,一桌人戴着口罩开着会,工位上的空气净化器呼呼作响,窗外是望不到对面楼的雾霾天。
回国前,漆远已经在脑海中罗列过一连串的适应清单,以备回国后的各种挑战,而「迷雾危机」大概是被遗漏的最重要的一条,它不仅来自于北京的天气,还包括那个大胆的决定。
漆远曾走过一条无数理工男梦想的坦途:31 岁麻省理工大学博士毕业,39 岁成为一流大学终身教授,定居美国,拥有宽敞明亮的实验室和独栋别墅,一位美丽的太太以及两个可爱的孩子,一年两次固定的长假足以让他兼顾工作和生活的完美平衡。
直到一次大胆的决定,漆远亲手打破了这种平衡。在拒绝谷歌、Facebook、百度等公司的邀约后,漆远决定归国到杭州工作,选择了当时看起来「最没有技术范儿」的阿里。
2014 年 9 月 19 日,时任阿里巴巴合伙人的王坚带着漆远来到纽交所,共同见证了阿里巴巴的上市,7 位敲钟人全是阿里电商的买家和卖家,却没有一位是科学家。
面向华尔街,这家彼时市值 2400 亿美金的公司并不满足被定义为一家「电商公司」。他正在谋划一个崭新而宏伟的「想象力故事」,以便让公司在未来获得更强劲的增长动力。
他明白,前沿技术会是这个故事的主角,紧接着 iDST(数据科学与技术研究院 Institute of Data Science & Technologies)宣布成立,漆远和金榕成为早期创始人。
但彼时彼地,故事听起来不免有些冒险主义——中国互联网市场仍处在模式创新的初级阶段,一家以商业利益为本的企业凭什么打造技术驱动的研究院?国内几乎没有任何成功的营运模式可以参考。
未知的挑战首先降临到了早期创始人和研究机制身上。
漆远,现达摩院金融智能实验室 负责人
加入阿里后,漆远接到的首个任务是打造一套大规模机器学习平台,落地到淘宝的广告平台阿里妈妈。他清楚地记得,当时手里攥着两千万特征,14 天的数据。由于数据量太少,他计划积累到半年数据后再启动。
同时,他还提交了一份申请数千台服务器的计划。这并不是一笔小数目,直到现在一块英伟达的计算卡仍然要价 2000 美金,计划讨论后就被否决了。
等了半年,服务器仍没有拨下来,巧妇也难为无米之炊。「当时没有 CPU 集群,整个集团都没有」,漆远说道,「同事们认为,『你们这帮教授老师过来,基本不懂业务,也不懂技术』」。
秀才遇到兵,有理说不清。漆远的团队陷入了不能「自证」的悖论里:没有 CPU 集群,如何证明自己的算法和技术高效?不能证明自己的算法和技术高效,如何争取到 CPU 集群?
漆远曾试图据理力争,僵持状态几近半年,「团队一度走在解散的边缘」。
金榕是 iDST 的另一位创始人,美国密歇根州立大学终身教授,曾获得过美国国家科学基金会奖(漆远也获得过该奖)——有超过 200 位诺贝尔奖得主都获得过这个奖金的资助。
金榕,现达摩院机器智能研究领域 负责人
金榕带领团队为「聚划算」提供流量分发的技术优化,团队很自然地把低价商品排列在搜索和推荐结果的前列以提升成交量,却忽视了对业务本质的理解——低价虽可刺激购买,却让目标用户群从二三城市转移到三四线城市。
「虽然 GMV 上去了,但产品的价值都变了」,金榕说道。
业务为技术开路,科学家们却在无意中篡改了产品的内核,「短板暴露得非常明显」,金榕谈道。当时团队多为研究背景,精通基础理论,却缺少业务理解和工程实践经验,所以看不到技术到产品中间的巨大鸿沟。
「你们要想在阿里发挥出真正的价值,就必须克服这些困难」,当时的阿里 COO 张勇找到金榕和几个骨干说道。
既然不够熟悉业务,那就去到第一现场吧!
于是,iDST 的早期科学家们兵分多路,以电商和金融两大核心业务为首,深入到产品和工程里。金榕带着团队进入到淘宝和天猫的搜索事业部,漆远和几位同事去了蚂蚁金服,做语音的团队则留在了阿里云。后来这被称为阿里科学家们的「上山下乡」运动。
技术的觉醒并不止于高层,更早些,一股从下至上的创新力量就窜上了头,内部创新的文化开始流行——「只要你的老大不反对,就是对你最大的支持」。
2013 年的十一国庆,李昊印象尤其深刻。他没有旅游计划,也不用回老家走街串巷,而是一人闷头在办公室里捣鼓。一连七天,他都在工位上敲打着键盘,像是着了魔。
终于,赶在假期结束前,他长舒一口气——Demo 跑通了,由一块 GPU 搭上一台主机,纯手写的用于图像搜索的深度学习算法。再简陋不过的装置,但结果令人欣慰——比传统算法的准确度有了明显提升。
正值第三次人工智能浪潮起势,ImageNet 大赛进入到第三届,深度学习教父 Geoff Hinton 和他学生设计的 AlexNet 在赛事中大放异彩,基于深度神经网络的思路一举解决了图像分类的棘手难题,至此开启神经网络百家争鸣的盛况,更深、更宽的网络层出不穷。
李昊从外文网站上读到这些消息时备受鼓舞,他博士毕业于中科院光电技术研究所,来阿里不到一年,满腔学以致用的迫切。
李昊,阿里巴巴资深算法专家
早在 2010 年,谷歌豪掷 1 亿美金收购图像购物搜索网站 Like.COM,掀起全球图像搜索的风口。文字搜索场景有限,图片描述更为加精确,微软、亚马逊、百度纷纷出手,阿里也顺势投资了一家图搜购物网站(现名为「淘淘搜」),通过识别图片上的实体物品来索引网络上对应的店铺链接。
遗憾的是,随着移动互联网时代的到来,图搜风口很快熄火,手机实拍图的普及,让搜索结果越来越不可控,图搜应用体验大幅受挫,不少创业公司濒临倒闭。
「实拍图的比对相比 PC 的原图难得不是一星半点,已经不是传统图搜技术能应付过来的」,李昊说道。
既然传统图搜技术已经无以为继,那在视觉领域技惊四座的深度神经网络能否奏效?为此,李昊花了整个国庆假期来验证这个想法。
「他很兴奋,一直给这个看,给那个看,非常大力地推广」,李昊回忆起将Demo交给主管时的场景。就这样,团队争取到一次向时任淘宝 CEO 展示的机会,这次是直接在手机端演示——手机拍照,实拍图和库里已有图片做比对检索,找到和相似的照片显示——相比传统算法提升了一倍。
很快,「图像搜索」项目在 2014 年正式启动,目标是落地到手淘(手机淘宝应用)平台。刚来阿里三个月的潘攀被任命为负责人,兼顾算法、工程、产品的统筹,团队力量充沛。潘攀毕业于美国伊利诺伊大学芝加哥分校博士,此前在美国三菱波士顿研究院、北京富士通研发中心从事视觉领域的研发工作。
潘攀,现达摩院视觉智能研究领域 资深算法专家
延续此前团队推动的技术路径,「图搜」采用深度学习技术,随之成为阿里历史上最早采用深度学习技术并上线的 C 端应用产品。
和大多数互联网公司战略先行的思路不同,阿里在技术探索的早期并没有大刀阔斧地批项目,而是从现有的核心业务盘子上找切口,克制而谨慎地实验性验证,然后才推动落地。
「当组织里的算法和研发比较少,更多是由业务和产品构成时,就决定了大家对于技术不确定性的理解会非常有限」,潘攀说道,「对于一家互联网公司,做项目就一定要做出来,看得到结果」。
这是一个又艰难又幸运的过程,当行动早于认知,缺少资源、无人信任、无法施展等困境便接踵而来,这既是商业公司的盈利性质所决定的,也是新生事物萌芽期所必经的考验。
但幸运的是,无论是自上而下的理想主义,还是自下而上的创新力量都得以保留,幸免于昙花一现的口号和想法。
火种尚存便可以燎原。
2. 坐在金山上啃馒头
「坐在金山上啃馒头」,这是漆远加入 iDST 时听马云说过的话。金山就是阿里巴巴拥有的丰富数据。但是即便坐拥金山啃馒头,也难以一口吃成个大胖子,「如果数据的价值不能被挖掘出来,那不过就是普通的土壤」。
随着深度学习算法与模型的普及应用,「调参」工作成为大部分算法工程师的日常,淘宝和天猫的搜索团队一开始也不例外。
因为深度学习算法的不可解释性,很多基于该技术的方案就像是一个「黑盒」,模型中的参数选择和调整成了一件难捉摸的事,往往意味着繁琐而毫无头绪,没有技术含量。
在漆远看来,光是调参远不能建立起技术体系,「虽然属于工程层面的工作,但仍需要科学的思想指导——最好的工程指导就是科学,否则你就只能是一名调参工程师」。
与漆远秉持同一观点的还有金榕。「原来我们都是做些调参工作,直到金榕老师来了之后才把我们带上正轨」,李昊谈道,「他常反问我们,深度学习为什么能奏效?你能从理论上解释吗?」
「图搜」项目之后,李昊便来到了搜索技术部——阿里最为核心的算法部门之一。在这里,李昊遇到了前来深入业务第一线的金榕。
李昊当时的主要工作是为深度学习模型进行压缩与加速优化,一般做法是套用现有模型,但金榕通常会提供新的思路,「他给了我们一堆的公式,让我们去试」,但这一试就是三个月,也没出结果。
当李昊和同事怀着忐忑的心情找到金榕,他并没有因此责备,反而给予鼓励,「如果三个月就能做出来,那就是太简单了,继续去做吧!」直到第四个月算法总算跑通。这套算法将Embedding 技术结合深度学习引入到搜索业务中,明显提升了淘宝主搜索的 GMV。
李昊回忆,当时金榕还做了一套非常长的理论证明,证明算法是可收敛的,并在内部分享,「他当时给予我们的理论指导,正是我们所稀缺的」,李昊对此十分感激。
来到蚂蚁金服的漆远则接到了智能客服的项目,通过智能交互机器人来解决支付宝的客服问题。这一次,他顺利很多,获得当时集团客户服务部负责人戴珊的支持后(戴珊是阿里巴巴早期创始的十八罗汉之一),很快争取到了资金和资源进行技术的验证。
在阿里科技发展早期,以阿里合伙人为代表,形成了一股来自理想主义的推动力量。
2015 年的双十一,首次采用深度学习技术的支付宝客服实现了 94% 语音自助,这意味着有 94% 打来的电话不再需要转接到人工服务,次年,这个数字提升到 97%。去除掉人工智能团队的人员工资和计算资源成本,智能客服项目为公司节省了一个多亿。
所谓「知人善用,人尽其才」,技术工具同样如此,唯有了解 AI,才能用好 AI。
要在一家互联网公司里树立起对于新技术的认知和信仰并非易事,这为科学家们设置了一道又一道的障碍栏,甚至不可避免地造成了人员流失。
但回过头来看,或许正是有了「上山下山」的共事经历,才算是真正打通了「研发」和「业务」的对话体系,让阳春白雪和下里巴人从此互融。
技术之后,便是产品工程化的进阶挑战。
哪怕有高层支持,也不意味着就此被保驾护航,伴随而来的反而是更大的压力。图搜立项的第一年就设定了明确目标——日活过百万,「打从立项之初就不再是实验性的了」。
与初期的深度学习算法探索不同,后期的挑战就像无底洞一样填不满。
「问题的关键在于,我们不是在做一个独立的 APP,而是让它落在手淘上」,潘攀说道,「而且还是阿里最为核心的业务平台」。落地手淘,意味着图搜需要调用手淘的底层接口,需要针对淘宝内部的链路架构做额外定制和调配,而淌通这些链路就是最大挑战。
在视觉领域,大规模图片的压缩极其消耗算力,这为大规模的图搜访问埋下了隐患,一次意外报警让潘攀记忆犹新。
一天,图搜的服务器突然被拖垮,后台出现报警。
经过紧急排查,团队才发现,原来是淘系后台针对图像上传的默认压缩功能拖垮了服务器。默认压缩主要针对低频、小访问量的媒体上传需求,但并没有考虑到图搜的特殊情况——数据规模大,且需要实时识别,所以已经在前端预设压缩功能。换句话说,淘系的图片默认压缩对于图搜反而是一种负担。
在发生警报之前,大家都忽略了这么细微的接口。潘攀谈道,「很多时候就是这样,即使我们自己考虑到位了,但如果要连接到更大的系统上,还是会出问题」。
上线并不意味着挑战结束,比如,还有深不可测的入口。潘攀清楚地记得,图搜第一次上线的位置是手淘的一个四级菜单里。「四级」,则意味着你首先要在首页里找到「发现」,然后点开「特色服务」,点击「更多」,再……
作为阿里最为核心的业务战场,手淘的态度显而易见——「愿意给技术机会,但也要求风险可控」。
机会需要争取,更需要「自证」其价值。
从最初上线的数千日活,过百万,过千万,一直到突破 2000 万,图搜应用一路跃升为淘宝首页导购类目的第一。但与此同时,外界的质疑声不断,「我印象特别深,每一年大家都在问,数据还能增长吗?……你还在做呀?做啥呢?」潘攀说道。
不被理解似乎成为开拓者的宿命,漆远回忆早期的探索时期,「当时对我最大的锻炼就是,不被理解是正常的」。
这或许可以称之为某种乐观主义,但毋庸置疑,对于技术的信仰正是面对困境和误解时不可或缺的坚实力量。
经历过焦灼而艰难的资源「抗争」后,漆远手中的分布式机器学习平台终于启动,为了尽早让平台上线,团队放弃年底休假,春节期间留守奋战,骨干密集开会头脑风暴。「当时切身地感受到了团队的战斗力,大家真的是非常相信,只要上线效果一定能好」,漆远回忆。
双十一期间,平台首次实现淘宝、天猫个性化推荐的大规模应用。那一年的阿里巴巴集团算法大奖上,漆远带领 80 人的团队包揽了 16 项奖中的 6 项。现在,漆远作为达摩院金融智能方向的负责人,带领团队构建面向金融经济场景的智能分析与决策技术。
另一边,在经历了搜索类目扩增、数据优化、算法迭代等多方面的升级后,「图搜」项目完成三次入口跃迁,终于在 2015 年双十一期间进入首页。让潘攀颇为自豪的是,图搜的数据一直依靠自然增长,几乎没有调用过手淘的商业推广资源。
入口升级的本质是一个不断「自证」的过程,由技术和技术背后的推动者们在一次又一次的挑战中完成,继而固化下来成为阿里技术产品的迭代传统。
不同于象牙塔里、试验台前的公示推理和仿真验证,商业场上的「自证」需要实实在在的业务指标和实际效果,正如阿里办公区里那句随处可见的标语——「NO DATA,NO BB」。
高速增长的背后是两年一次的系统大改,「阿里其实非常讲究创新,我们一般都不炒冷饭」,潘攀说道,他将图搜系统的发展分为三个时期,「每一次升级不仅是算法进步,而是整体思路的提升」。
「数据、系统、算法三个互为一体。对数据认知和处理方法的不同视角,催生了与之匹配的算法和工程系统,所以升级是整个系统层面的」。
项目早期,数据量少,还需要人工标注,所以研究为之匹配的小模型的系统和算法;随后训练数据解放,团队尝试通过用户行为的三类数据(查询数据、点击数据、未点击数据)分析出数据与排序间的逻辑关系,三元组的 Deep Ranking 框架生成,与之对应的训练框架、系统升级迭代;去年,图搜开始接入超大规模并行处理平台,释放数十亿级数据的训练能力。
与百度识图、微信扫一扫、京东拍照购等市面上的其他图搜应用不同,阿里更强调「通用化」能力,比如不仅能支持手淘所有的实体商品检索,还包括二维码、植物、垃圾等非商品的识别与分类。这些功能统统集成在图搜一个窗口里,不用再二次跳转,平均日活达到 2000 万以上。
在研究员的成长道路上,经历一次完整的技术工程化落地的意义重大,它不仅锤炼了实战能力,更为其提供了深入了解业务所想、业务所需的窗口。
「这段经历让我们明白了应该创造和推动什么样的技术,知道哪些技术更有可能落地成为产品,以及如何让一个产品能够有效地支撑业务」,金榕谈道。
可以说,从研发到业务的实战积累正是阿里打造AI 技术落地体系的基石。
如今,这套思想贯彻到阿里大大小小的技术思路中。比如,在语音技术团队今年推出的语音合成技术 KAN-TTS(Knowledge-Aware Neural TTS)中,团队就事先考虑到了不同环境下的模型部署环境,并进行框架设计和效率优化,综合各项需求的关键算法改进多达20余项,最终实现了无论是在云端还是终端,甚至是 CPU 存储有限情况下的最快速度部署。
一项技术能否在设计之初就考虑到项目部署阶段遇到的各种实际问题,正是技术落地体系成熟的重要标志。
3. 中国研究院没有Benchmark
「它是阿里巴巴国际化业务的技术生命线,如果没有这些能力,阿里巴巴很难称之为一家国际化公司」,这段底气十足的话出自司罗。
他是阿里达摩院语言技术实验室负责人,带领百余人的队伍进行自然语言理解、机器翻译、认知智能等底层技术的开发,这些技术被誉为人工智能皇冠上的明珠。
司罗,现达摩院语言技术实验室 负责人
司罗专注于机器学习、NLP 等领域的研究,2012 年成为普渡大学计算机系终身教授后,一举奠定了其在学术圈的地位。同金榕、漆远一批,司罗在 2014 年加入 iDST,是阿里建立人工智能技术体系的早期成员。
相较于视觉、语音更贴近前端用户的技术,语言则更偏向底层,以原子化能力的形式起作用,扮演着赋能和支撑的角色。正因为这个特点,它对于大型互联网技术公司而言往往不可或缺,但技术团队却又是极其分散的。
既然如此,为何不集中力量打通?
于是,语言技术恰好成为了技术平台化的最佳试验场。
2016 年 10 月,对于司罗和 NLP 团队而言是一个重要的时间节点。此前,他们忙于承接一个个「项目」,先后参与过「聚划算」、「AIios」「淘宝头条」等项目。
在这之后,司罗领到任务——将 NLP 的「大中台」建立起来,换句话说,阿里各业务线的 NLP 不再各自为营。
为了让其他业务线接入平台,司罗采取了「品牌效应」的打法。
是的,在公司内部,同样需要建立品牌,尤其在打造规模化平台的过程中。
「首先要有非常贴身的服务,然后让重点的头部用户用起来,逐步地让他们认识到 NLP 平台和解决方案的好处,再通过种子用户将我们的技术价值传播出去」,司罗知无不言地分享了品牌效应的打造「套路」。
而正是因为技术平台化的出现,让这只百余人的队伍能够支持阿里系 600余个业务方,每天调用量达到了两万亿次。
这是 NLP 技术影响力从量变到质变的飞跃。
沿用同样的思路,司罗带领的另一条技术分支——机器翻译技术也实现了规模化的业务支撑能力,为阿里全球化电商平台上的买卖双方提供 20 多种语言,48 种语言方向的机器翻译服务,覆盖欧洲、亚洲、美洲与中东地区的绝大多数国家。
阿里的图搜应用在技术平台化升级后,从最早的支持手淘平台到目前落地到淘系的六个主流 APP,一举成为全球最大的图搜应用系统。「这是淘系业务的市场份额决定的」,潘攀说道。
从单个功能应用,到十个、百个、数百个的业务方支持,每天被亿级用户使用,技术平台化的战略得到了有效验证与认可。尤其对于技术人员而言,通过平台化的过程,单点技术的影响力不断被泛化,技术的品牌效应不断地被放大。
但对于当下的阿里而言,平台化尚非终点,「上云」更是一片广阔的天地。
阿里内部的海量业务和长期实战的检验,为技术与方案移植到阿里云平台提供了硬核实力。司罗表示,NLP 平台和机器翻译平台已经先后在阿里云上的人工智能板块上线,供第三方的云计算客户使用。
从单纯的技术算法,到集成为业务和应用中的产品,再到平台化和大规模可复制化的云计算商品,这是一条阿里人自己走出来的 AI 落地路。
是时候将这条路子固化下来了!
2017 年 10 月 11 日,是阿里人工智能技术体系开宗明义的日子。
阿里巴巴 CTO 张建锋宣布成立达摩院
杭州云栖大会现场,阿里巴巴 CTO 张建锋宣布达摩院正式成立,计划未来 3 年里投入超过 1000 亿元,用于涵盖基础科学和颠覆式技术创新的研究。iDST 作为达摩院旗下最大的机器智能实验室分支,由金榕任带队。
时至今日,再谈大公司建立研究院已不是新鲜事,但适应于中国本土市场环境的成功模板仍然寥寥可数。
培养出中国最早一批 AI 研究员的微软亚洲研究院被冠以「黄埔军校」之名频频提起,投入巨大过于前沿的谷歌 X 实验室、DeepMind,IBM Waston 研究院形象「高大上」却不够接地气。
中国互联网公司已经开始重点布局,但难以与公司业务平起平坐,百度几大研究体系已被收编进技术平台,腾讯四大实验室依附于各大业务呈分散状。
至于阿里,在达摩院之前的三年探索和走过的弯路为其积累了不少宝贵经验,但如何乘胜追击更进一步成为领导者的新命题。
在金榕看来,达摩院的设立主要有两个目标:一是把达摩院的 AI 基础能力(原子能力)放到平台上支撑所有业务。比如阿里内部跟语音识别有关的业务都会使用达摩院的底层语音平台,但会根据具体业务做定制化的改变。
二是上云,通过内部核心业务验证后,用户的接受度和满意度达到一定指标,产品上云商业化,进一步放大价值,服务整个社会。
说到这,四年前王坚为金榕描绘 iDST 蓝图,三句不离「Benchmark」的画面在我眼前浮现。
「我记得从第一天起,王坚就一直跟我们说 iDST 的 Benchmark 的是什么?」金榕说道。(Benchmark,基准,常用于性能测试中的表达。)
王坚认为是斯坦福研究院(简称 SRI,1970 年脱离斯坦福大学后,更名为「斯坦福国际咨询研究院」)。「那里的基础研究和其他地方都不一样,不仅创造出了最好的理论知识,还能把技术变成产品,产品收益再反哺到学术」,金榕回忆道,那时常举的一个例子就是鼠标的发明。
不止于鼠标,从手术机器人到航天静电放电棒,从个人助理 Siri 再到癌症治疗,二战后的斯坦福研究所几乎成了硅谷高科技公司科技创新的「智慧之源」,不仅创造了新的行业、数十亿美元的市场价值,还有持久的社会价值。
「一旦看到收益,人们很容易就聚焦在收割单个业务的成果上,而缺少更深入挑战的动力」,金榕认为这也是达摩院——阿里 AI 技术中台设立的意义——跳出单个业务成果,让技术更深入,再往前跨一步,用更少的人力实现价值最大化。
经过两年的建设,达摩院人才济济,超过半数科学家具有名校博士学位,部分是美国、欧洲学成回国,办公室分布在四个国家、八个主要城市,其中机器智能团队拥有 20 多位知名大学教授,近 10 位 IEEE FELLOW。
而在达摩院之外,阿里还有一些更为分散化、业务化的人工智能能力,并非走中台化的路子,但仍是不可或缺的一环。比如天猫精灵、搜索和广告部的人工智能技术应用、蚂蚁金服的客服机器人等,它们与核心业务方贴合地更为紧密,以便技术更快地产生效益。
要为这样一支庞大而高规格的研究团队设置课题并不是件容易事。
此前,我在与某公司 AI 实验室负责人交流时,对方就曾透露过选题上的两难局面——一方面既要兼顾业务需求和 KPI 导向,另一方面还不能忘记前瞻性研究和技术布局。
整日埋头对接业务需求容易退化为业务部门的附属团队?但面对前沿课题的不确定性,究竟该冒多大的险,才能保证既有结果又具备开创性?
当我将同样的问题抛给阿里的人工智能科学家时,得到了相似的回答,「这看起来是个问题,但在阿里就不是个问题」。
延续技术到产品、产品再到商业化的研究和落地机制,技术研发与商业利益的问题将得以平衡,而且必须平衡。
「在阿里如果只是发发论文、做做研究则意味着工作只做到了一半,无法获得真正的认可,或者是比较低的认可」,潘攀说道。
与此同时,在技术平台化与产品规模化的过程中,还伴随着水到渠成的技术成果转化。
在被誉为人工智能世界杯的 CVPR 2019 WebVision 竞赛中图像分类竞赛中,阿里以 82.54% 的识别准确率获得冠军,而这背后的技术能力正是阿里「图搜」应用开出的果实。
谈到更为宏观的议题布局,金榕认为投资者思维或许是一个思路。
作为一名投资人,标的无非两种,一是比较切实可靠的项目,但是收益比较少;另一种则是高风险,但回报高,即所谓的「High Risk High Take Off」。几乎所有投资公司的投资组合都是这两种的混合。
作为研发部门,金榕会将技术资源进行分层。一部分投资在相对较容易见到结果的领域上,具备确定性;还有一部分投入在可长周期回报的项目。「在这样一个投资组合中,肯定有项目要失败,但能保证团队整体的成长和健康」,金榕谈道。
正好,他刚带队打完了一场「High Risk」的战役。
那是阿里正在研发的自主云上人工智能加速芯片 NPU,达摩院承担了部分算法工作,让 NPU 在阿里的技术架构上跑出最高性能。
为了能拿到 CTO 的「战投」,金榕预先设置了一个非常高的指标,即假设所有条件都处于非常理想的条件下,相比 GPU 的性能有了不小的提升。
硬着头皮上,一年多下来,终于收获了理想结果。在金榕看来,设定高目标虽然可能会引发焦虑和不适,但高目标的每一次落地都将为团队实力带来显著提升,「这对于打造荣誉感,提振团队士气非常奏效」。
在阿里内部有一句话,「最好的团建就是打一场胜仗」,融入阿里文化后的科学家们也开始明白这个道理了。
金榕身上所展现的冒险精神,一部分来自他的个人性格,一部分还受到阿里早期技术氛围的感染。早年间,王坚力排众议主导开发阿里云计算平台时,就常以一个「疯子」的形象活跃在公司内部。
「如果你当真要解决难题,就需要调动你所有的胆量和勇气去接受挑战」,金榕谈道。
在计算机研究领域,通常将非常棘手的问题称之为「NP-Hard」,大多数研究员一旦碰到这样的问题都会给出否定的结论。但金榕的团队所推崇的恰是「Solve The Ban Problem」。
「在商业社会,用户和商家才不会在乎这个,你不能因为 NP-hard 就止步」,金榕谈道,「这对我来讲是非常重要的原则,但凡这个研究是能够产生巨大价值,就应该全身心投入」。
不畏「禁忌」、冒险而大胆——这是我从他人口中未曾听说过的达摩院。
一脉相承的风格不可避免地将渗透进团队,一旦拔得头筹就将能让每个成员体会到以一当十的惊险,拥有胜者的姿态,继而发展成为阿里 AI 精神内核的一部分。
当上层建筑搭建完整,更为底层的技术正亟待突破,最为核心的指标在于算力。
早年间漆远接手的首个项目大规模分布式机器学习平台,随后由达摩院智能计算实验室负责人周靖人带队不断迭代和完善,已经进入到第三代版本 PAI 3.0。今年三月加盟阿里的 AI 知名青年科学家贾扬清还将为 PAI 注入更多力量。
贾扬清毕业于美国加州大学伯克利分校计算机科学博士,加入阿里前在 Facebook 担任工程总监,负责大规模人工智能平台的架构。他是 AI 深度学习框架 Caffe、Caffe2、Pytorch 的重要贡献者之一,并曾参与谷歌人工智能平台 TensorFlow 的工作,GoogleNet 作者的之一。
因为深度学习框架领域的诸多贡献,贾扬清在人工智能开发者群体中具有颇高人气,在今年 7 月的阿里云峰会上,贾扬清首次以阿里人身份亮相,不断有年轻人过来和他谈话与合影。
贾扬清,现阿里巴巴计算平台事业部 总裁
正值浙江一带的酷暑,采访室十分闷热。「我是绍兴人,没法抱怨这天气」,贾扬清笑着说道。清华硕士毕业后,贾扬清就长居海外,因为转战阿里而经常回国。绍兴距离杭州不到 80 公里,来到阿里,不仅是回国,更是回乡,贾扬清脸上有些止不住的喜悦。
和贾扬清前后脚来到阿里的还有黄非,在金榕和司罗两位老师的力荐下加入。黄非毕业于卡内基梅隆大学博士,曾任 ACL、NLPCC 等领域主席、IJCAI 资深程序委员,在 Facebook 时负责机器翻译和知识平台。加入阿里后负责组建和领导国际化机器翻译创新团队。
一如当年的漆远、金榕一样,这些年轻科学家们带着由衷的使命感和期待来到「金山」,期待着实现自我价值的同时,也为阿里经济体和中国互联网做出应有的贡献。
4. 阿里的底牌
当一件事物愈发完美或者强大,外界在其身上所寄托的期望值也将越来越高。
「最开始,公司只是希望技术能用在业务上得到一个好效果。今天,是真正希望我们能够用技术创造未来,一个新的由技术驱动的阿里巴巴」,金榕停了一会继续说道,「这个期望远高于技术难题,是一个非常大的命题」。
一个技术驱动的阿里巴巴?可能吗?
在绝大部分人的眼中,对于阿里的定义仍然是一家依靠电商业务驱动的互联网公司。在 2019 财年的财报里,阿里的核心业务包括电商业务、阿里云、大文娱和创新业务四大板块,其重要性依次排开。其中,电商业务创造了 3234 亿收入,总营收占比高达 86%。
「这正是外界看不太懂的地方,我们可不可能创造未来?」
在金榕眼里,这个未来似乎已经依稀可见,「我给你举个例子,至少我自己是非常受激励的,5G 技术就是突破口之一。随着 5G 和高清视频技术的发展,整个视频内容产业链都会带来全新的变化,是对每一个环节的重塑……」
AI 之后,5G 之前,前瞻性的技术布局和技术融合或将为阿里踩准下一个时代节点。
让我们把时间线拉近一些,现在或者近期的几年内,在阿里的主营业务之下,还有什么能称之为源动力或者底牌的东西?
欧文武,阿里巴巴资深算法专家
眼前这位入职阿里 12 年的算法专家或许知道答案。
他叫欧文武,娃娃脸上时常挂着微笑,憨态可掬。他被视为「最懂中国女人的男人」,因为他好像总能猜到你想买点什么,然后在恰当的时候送到你眼皮底下。
欧文武是阿里巴巴搜索事业部总监,资深算法专家,负责淘宝推荐算法团队,利用搜索和推荐技术让电商产品推荐流,也就是人们常说的「千人千面」。
谈到推荐业务,贾扬清曾在他的内部分享《关于人工智能的一点浅见》中这样描述:在阿里和很多互联网企业中有一个「沉默的大多数」的应用,就是推荐系统:它常常占据了超过 80% 甚至 90% 的机器学习算力,如何将深度学习和传统推荐系统进一步整合,如何寻找新的模型,如何对搜索和推荐的效果建模,这些可能没有像语音和图像那么为人所知,却是公司不可缺少的技能。
在阿里就有两支重要团队负责这个「沉默的大多数」的应用——搜索事业部与阿里妈妈。
虽然都做推荐系统,技术与平台相通,但和阿里妈妈强调变现的属性不同,搜索事业部的推荐业务更看重用户体验,强调探索和发现的乐趣以增加平台粘性,商业味道更淡薄。
而这看似的放手实则意味深长。
在 2018 年 Q3 财报会议前夕,阿里巴巴董事会临时做出了一个反常决定——短期内不对推荐推送等广告库存增量进行货币化。简言之就是停止对淘系平台上的个性化推荐的规模商业化。
随后的财报会议上,高盛银行、汇丰银行、花旗银行的分析师们对该决定穷追不舍地发问,商业化时间点、利润率、广告创收等被反复提及,可见其分量和位置。但高管们仍守口如瓶。
「千人千面」正是这块「暂时未被商业化」业务背后的核心技术力量,它被视为「阿里的底牌」,是阿里基于技术驱动业务的核心体现,有望成为驱动阿里未来营收增长的新引擎。
在电商业务的转型期,推荐流业务蕴藏着极大的价值潜力。随着平台上的商品越来越多,对所有用户采用同一套搜索算法,已经不能再满足用户的多样化需求。垂直电商领域新型竞争对手的出现也倒逼着阿里对推荐业务进行更深入的探索。
「它不仅仅展示了流量的增长,更体现出转化率的增长」,阿里巴巴集团 CFO 武卫说道,「推荐流为商家创造的价值,与淘宝在 10 年或 15 年所带来的流量和交易价值并不是一回事,这背后还有消费者参与的价值。该模式为商家提供了操盘工具,能够亲手来运营和管理他们的用户群体」。
极大的价值潜力,同时也意味着极大的业务挑战。
光是在工程层面要应付大规模数据就是一个难题。一般地,T 级(1 Tera Byte(TB)= 1024 GB)已经是相当大体量的数据存储单位,但在欧文武部门,每天面对的是上升了三个数量级以后的 P 级(1 Peta Byte(PB) = 1024 TB)数据。
「这么大量的数据,数据处理的方法,计算数据的准确性和一致性都是挑战」,他说道。
目前淘宝和天猫平台有 7 亿多用户,每个用户在平台上留下的行为特点、诉求方向都极其分散,即重叠的数据很少,体现在技术层面就是数据的稀疏性,这对算法模型的体量和复杂程度提出了更高要求。
阿里内部有个说法,推荐部门的算法是阿里最难进的算法岗位。在招人方面,欧文武表示,他更倾向于应届生,团队目前 50 人左右,博士生 40%,清华北大毕业的将近一半。
团队维持在每年两到三次大规模升级的节奏,「大升级就是以前那套全推翻,重建一套」,欧文武说道,小规模的升级,比如加些新特征,改改模型等,则频率高很多。
阿里每个财年都会依据各部门制定相关 KPI,欧文武并没有透露具体的 KPI。但他会在公司的KPI基础上给团队开个小灶,制定一套「内部 KPI」——比公司的要高出不少。
他通常会逐一拆分成许多个小目标,有人做用户数据,有人做匹配,有人做个性化排序……大概 20 多个小目标同时推进。
欧文武将其比喻成造车,车体需要拆分成很多零部件,大问题也要拆分成子问题,这样每个子问题就能更准确地评价,依据每个小问题再设定成不同的目标,然后拼凑在一起以求大目标可控。
目标要可控,但算法讲究灵活。
和一般算法追求极致的精准性不同,推荐的算法还需要投其所好,新颖性和多样性都是欧文武团队要考虑的维度。
以前,传统推荐算法主要是通过历史日志训练模型,缺少对用户未知需求的探索,十分有限;技术迭代后,现在多采用演化算法、强化学习算法、非传统的 AI 算法等多种算法融合,以求解决一个多目标平衡的问题。
当算法推荐不再局限于财务指标,欧文武希望建立一个与用户共同成长的 Life-Long 式模式。在欧文武看来,当下的推荐,停留在用户单次访问时长和浏览深度的指标优化;而更长远来看,用户能否留存才是关键。
「满意度不止在短期,而是长期的满足和收获。比如在购买之后,商品的安装、使用、保养……全链路的购物体验都可以做」,欧文武说道。
参照线下的传统购买场景,推荐的角色将不再局限于一名「导购员」,因为用户触达商品的每一个阶段都在发生改变,推荐的内涵也正在从商品推荐扩宽消费推荐,这也正是「李佳琦卖口红」效应兴起的逻辑。
据阿里员工透露,推荐算法目前在关键指标数据上有超过搜索的趋势,未来潜力可观。正如腾讯在微信广场实验广告位的价值,在推荐机制下,广告除了带来交易的价值,还有品牌展示和市场推广等更多元的价值。
「我们在这个方面仍然很克制,希望保持可持续性的增长」,欧文武说道,「不能用今天透支未来」。
在电商业务之后,云计算业务已经上升到集团的主要营收的第二位,阿里云智能总裁张建锋在今年提出了「ALL in Cloud」的战略。依托于云计算平台,阿里搭建了 AI 技术向 B 端产业赋能的各级大脑模块,比如已经成长为国家级人工智能开放创新平台的城市大脑。
城市大脑是阿里第一个「原生于云场景」的重点业务,它完全构建在云上,打破了摄像头与红绿灯的割裂,让摄像头看到的数据,告诉红绿灯应该如何优化,从而实现大规模实时交通事故检测。
3 年多以来,阿里的城市大脑走出杭州,在北京(西城、通州)、上海、苏州、澳门、吉隆坡等境内外十几个城市落地。据城市大脑的技术负责人——达摩院高级研究员华先胜透露,平均一个星期的时间,城市大脑就可完成一个城市的技术部署。
华先胜,达摩院城市大脑实验室 负责人
而在计算层,「新一代计算引擎」已经成为支撑起阿里千亿成交额、每秒数万笔交易的核心底层技术,MaxCompute(离线计算)、Flink(实时计算)、PAI(人工智能)被视为这项技术背后的「三驾马车」。
贾扬清领导的阿里云智能计算平台事业部,主要负责大数据计算和人工智能平台。对于将大数据和人工智能两大平台打通这件事,贾扬清深有感触,「这样的融合很具有前瞻性,阿里是全球少数的几个把大数据和人工智能放在一起的部门。未来大数据和人工智能未来的结合将越来越紧密。」
在谈到与达摩院的合作时,他将其比喻成「我们都是『躺平了』来支持」。
所谓计算平台,要义之一,则是解决算力瓶颈。
这也是阿里的新一代神经网络芯片 NPU 的设计初衷,在贾扬清看来,通过更底层的技术探索更大的计算潜力,切口在于「解耦」。
虽然谷歌用 TPU & TensorFlow 证明了硬件与框架融合模式的算力无穷,但别忘了还有英伟达——没有框架,仍然成为了王者——背后的心法就在于「解耦」——解开硬件与框架绑定的枷锁。
「解耦」的关键在于定义模型并让其标准化,这需要下溯到编译器层面。
「编译器的优化不仅能够挖掘出现有硬件平台的更强算力,还将在新硬件平台上基于机器学习自动迭代,大大缩短人力优化软件的时间」,而这也正是贾扬清加入阿里后的目标所指。
当更深、更强、更底层的算力挖掘成为全球人工智能市场的主旋律,阿里 AI 迎来了「算法+芯片」的AI2.0时代:先后投资寒武纪、耐能等 AI 芯片团队,收购中天微、先声互联等芯片标的,成立「平头哥」芯片公司。
目前,阿里已经发布基于 RSIC-V 架构的智能 IoT 芯片玄铁,AI 语音 FPGA 芯片 Ouroboros设计,基于云端的神经网络芯片「Ali-NPU」也已经在路上。它们标志着阿里 AI 技术「从软到硬」的深化,也预示着 AI 将更为长久地驱动着阿里经济体成长。
「因为业务需要发展,原来很多技术精力都聚焦在业务上,直到有一天,我们会非常迫切地希望,从技术出发,用科技来驱动业务,然后培育出一些全新的业务」,蒋国飞聊起蚂蚁金服的技术发展路线时说道。
他是达摩院金融科技研究领域负责人,同时也是蚂蚁金服副总裁。对照阿里巴巴,他认为,「阿里体量更大,所以已经走到了前头」。
当技术晋升为一家互联网公司的必需品时,打造行之有效的研发体系则是不可回避的议题。
研究院或者实验室等机构的设定本取自于学院体系,外壳借用倒是无妨,但如果连内核和运营模式也一同照搬到商业场,很大的概率就是水土不服止于襁褓。
在外壳之下,研究的机制、团队的建设、不同对话体系的打通、技术与业务的平衡,前瞻性与KPI的融合…才是商业公司研发体系的灵魂,一切尚需从长计议。
从2014年设立阿里最神秘部门iDST到如今人才济济的达摩院,阿里人工智能走过了既艰难又幸运的五年,梳理出这套技术体系的机制和脉络得以看清阿里人工智能的底色,推而广之,或将成为互联网公司打造人工智能技术体系的方法。