阿里灵杰融合智能算力，全栈AI服务为探索者铺路

8月30日，阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”，并启动两座超大规模智算中心，为各类科研和智能企业机构提供高效、开放、绿色的智能计算服务。

其中，在AI开发层，阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面，凭借技术领先性和丰富落地实践，成为区别传统AI集群的独特优势所在。

本文基于阿里云智能AI产品总监黄博远在阿里云飞天智算平台发布会上《AI Power · 智能新前沿》的演讲梳理成文，将围绕大模型应用趋势、AI工程化、软硬件结合的智能计算应用案例等话题作详细介绍。

演讲嘉宾｜黄博远

本文来源阿里云飞天智算平台发布会演讲

如今，人工智能（AI）在各行各业里得到非常多的应用，并且开始探索生物学、化学、物理学等基础科学的知识，一如此前AI学习理解图像、声音和语言。

AI依赖于计算，同时今天AI也反过来去提升传统意义上的科学计算的效率。无论是新药物研发、新材料生成、还是自动驾驶，我们相信都将迎来新的革命，这些都是十多年前认为遥不可及的。

两股新动力将人工智能应用推到新高度

我们认为有两股新动力将把人工智能的应用推向新的高度：具备泛化能力的预训练模型和数据中心级的智能算力。

1.具备泛化能力的预训练模型

相信在座各位经常听到一些相关报道，比如“哪项AI能力超越了人类的认知水平”之类。其实这仅仅揭示了AI和预训练大模型能力的冰山一角。预训练大模型，尤其是多模态大模型，有三个核心优势。

它们具备非常好的“泛化能力”，因为训练过程使用到大量模态数据，因此具备通用性。与人类感受和认识世界的过程类似，今天在座的各位耳朵里听着我们演讲的内容，眼睛在看着屏幕，有时还会用手机或电脑查询相关资料，这个过程就是多模态认知理解的过程。一旦具备多模态的学习能力，模型认知水平就会变强，能在更多行业得到高效利用。

其次，从参与者视角来看，预训练大模型能大幅降低制造高质量模型的门槛。回想一下，从零开始制造一个生产级的大模型需要怎样的投入？海量数据采集、数据工程、神经网络、模型训练……整套流程走完，出来的模型效果可能并不好，还需要无数次调整。而今天预训练大模型给我们提供了一个巨人的肩膀。

大家可以站在这个巨人肩膀上，依托大模型，引入特定领域的“小数据”，就能获得一个具备领域知识且效果非常好的模型。这就好比，如果我们找一个数学家帮忙算账，他只需要了解基本的算账规则，很快就能算完。但如果找一个没学过数学的人来算，可能就遥遥无期了。

第三个特点，从整个产业的角度讲，基于大模型的AI研发范式是更加经济环保的。当我们集中力量训练出一系列大模型，让产业内的从业者基于大模型在自己的领域做更精细化的训练，这样一些通用的计算就不需要被反反复复执行，我们就能节省非常多资源。这就像热能厂出现以后，大家都不需要自己在家生炉子了，在家可以直接吹到暖气，如果温度不合适就自己控制阀门获得喜欢的温度。所以我们说，大模型的模式是面向未来的AI研发范式。

2.数据中心级的智能算力

不仅仅是预训练大模型，当下很多人工智能模型的生成过程是非常复杂的。算力依然是决定AI能力上限的关键因素。数据中心级的智能算力，通过软硬一体的联合优化，能把我们从最底层硬件，到网络、系统、框架、再到最上边的算法，层层联合优化，形成极致的算力优化效果，使得计算速度得到接近百万倍的提升。可以说，超级的智能算力是人工智能越来越强大的基础设施，是推动各行各业走向智能化的驱动引擎。

如何让每个AI创新者拥有这些能力？

刚才介绍了两种驱动力，可是我们每一位开发者能够拥有这样的驱动力吗？其实横亘在开发者、创新者和刚才的两种驱动力之间的，还有很多的障碍。

首先是算力消耗。以我们耳熟能详的语言类大模型GPT-3为例，高达1750亿个参数，训练这样的模型消耗的资源，相当于开一辆汽车，从地球开到月球往返一次的能耗费用。这个例子还只计算了资源的部分，其实这辆“车”本身也造价不菲，大家都知道异构计算的底层硬件非常昂贵，一般的开发者创新者，很难用得起这样的资源。

人才和工具链也是挑战。在AI整个创新过程当中，人才也是非常非常重要的一种资源。在这个领域，我们既需要具备一定的领域知识，还要懂AI、还要懂数据技术，这类人才现在无疑是非常宝贵的。此外，我们曾经针对AI开发做过一个调研，如果完整走一遍AI研发端到端的流程，大概需要使用到多少工具或者产品？结果非常惊人，至少12种。可想而知，整个工作链有多复杂。

AI 工程化最佳实践：

基于阿里云训练出全球最大预训练模型M6

刚才讲到达摩院的预训练大模型M6。其实M6的生产过程本身就是解决上述挑战的典型例子。M6的参数规模达到了10万亿，是全球最大的预训练模型。与传统AI模型相比，大模型拥有成百上千倍的神经原数量，经常表现出像人类一样的举一反三的学习能力。因此，大模型普遍被认为是未来的基础模型，会成为下一代AI基础设施。下面我们看看这个大模型到底怎么来的？

首先来看资源问题。M6基于阿里云高效的云原生机器学习平台PAI进行训练。PAI依托丰富的场景，包括服务阿里巴巴内部和阿里云上客户的诸多场景，锤炼了超大规模分布式训练的最佳实践，并通过PAI-EPL分布式训练框架对外提供训练加速能力。PAI-EPL框架具备丰富的分布式训练架构，包括数据并行，模型并行，流水并行等。最关键的，AI模型训练是一个反复迭代的计算过程，PAI-EPL框架可以在迭代过程当中，自动地帮助使用者寻找合适的并行方式，在不同阶段对症下药。这样能够带来接近线性的分布式加速能力，大幅降低超大规模模型的训练成本。

如果说训练是一次性的或者周期性的，那么推理可能每时每刻都在发生，当模型真正投入到日常应用中去，就离不开推理。PAI-Blade可以提供一站式通用推理优化工具。简单讲，它通过模型压缩算法，把模型变小再变小之后，模型的承载效率会变高。但是这个变小的过程，也非常有技术含量。模型在变小的过程中，效果不能变差，准确度不能有损耗。

此外我们结合阿里巴巴自研的AI编译器，自动针对目标环境去进行优化。目标环境可能是各种各样的异构硬件资源，AI编译器可以把整个效率推升到极致，底层支持CPU、GPU、以及含光、海光等硬件。作为通用的推理优化工具，除了性能上有提升，更关键的是易用性，我们希望通过PAI-Blade工具，能将优化过程对用户透明，尽量避免用户修改模型代码，提升便利性。

大数据AI一体化平台：
支撑AI研发全生命周期

这里我们解决了机器资源的问题、训练性能和推理性能问题，下一个问题是如何提升数据科学家的工作效率。阿里云建立了大数据AI一体化平台，一站式支撑整个AI研发的生命周期。

今天，随着AI技术的增强，AI研发效率的问题变得越来越复杂和严峻。放在很多年前，我们用AI解决哪些问题？最典型的就是文字识别，解决这类问题只涉及几种数据，一堆照片、拍下来的手写文字、以及两者间的对应关系，齐了。可以说在那个时代，大家很难感受到对大数据+AI一体化的平台的需求。现在呢，我们在用AI解决智能搜索、智能推荐、自动驾驶、科学计算、智能交互等等问题，而这些场景需要这样哪些数据呢？需要把数据仓库当中代表着认知智能的结构化数据和数据湖里边代表着这些感知智能的（例如视觉、语音等等）数据，两类数据综合在一起使用，才能解决最终的业务问题，整个过程十分复杂。

我们通过阿里灵杰大数据AI平台，支撑了从数据标注、数据开发、到模型设计、训练、推理、部署整套的工作流。AI研发本身是一个持续迭代的过程，所以用户还需要对效果进行监控，一旦发现效果不理想，还要回来重新再训练这个模型。这一整套流程都可以用阿里灵杰大数据AI一体化平台解决，最大程度降低了从开发到生产，到运维的复杂度和成本。

链接庞大的AI开放生态，持续创造价值

在强大的PaaS平台的有力支撑下，阿里云构建了丰富的AI开放生态。基于我们最基础的语音、视觉、NLP等基础技术，提供了上百种SaaS化AI服务，这些服务非常简单易用。我们在云上的AI服务，每天调用次数超过一万亿次，我们为广大用户提供了稳定和可靠的AI服务体系。

此外，阿里云整体服务了超过100万AI开发者。AI开发者可以在我们的平台上获得开箱即用的技术服务、最佳实践和学习资源。

最后，阿里云作为中国云计算的领导者，我们深入到各行各业，积累了大量的客户以及应用需求，为我们的开放生态中的所有参与者，提供了最直接的业务支持，形成了生态与企业需求之间的良性互动。

AI for Science 是近期非常火的领域，而 AI和智能计算在生物医药等领域正在发挥它的作用，而且有非常喜人的成果。深势科技通过多尺度建模结合机器学习的创新方法，在确保模拟精度的同时，引入深度学习算法处理大规模数据计算问题。

在这个过程中阿里云通过PAI平台自研AI编译器利用协同优化、编排优化等手段，将深势的机器学习训练效率提升5倍以上，帮助加速了新材料和新药物研发的进程。

我们将持续通过全栈AI服务、高效的机器学习平台、以及门槛更低更易用的模型服务，助力广大开发者。驱动AI理想落进现实，为创新者加速，为开拓者铺路。