亚马逊云科技获评IDC 2025年全球公有云基础设施即服务“领导者”

大模型之家讯日前，在全球市场分析机构国际数据公司（IDC）发布的《2025年IDC MarketScape：全球公有云基础设施即服务（IaaS）报告》中，亚马逊云科技被评为“领导者”，在能力和战略的双维度上均为“领导者”。IDC在该报告中表示，全球公有云IaaS继续快速增长，预计2025年的整体规模将达到1880亿美元。

IDC分析师、报告作者Dave McCarthy表示：“亚马逊云科技通过广泛的服务组合和持续的创新，在公有云IaaS市场中处于领导地位。广泛的全球基础设施，结合Amazon Graviton等定制芯片计划以及在AI领域的重大投资，使其在满足企业需求方面独具优势。其在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入，使其成为需要先进云能力的企业的首选。”

作为全球云计算的开创者和引领者，亚马逊云科技是率先进入自研芯片领域的云供应商。革命性的Nitro虚拟化平台全面加速了亚马逊云科技在自研芯片领域的创新速度。迄今为止，亚马逊云科技已推出了多个系列的自研芯片，包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片Amazon Trainium和推理芯片Amazon Inferentia，同时保持稳定的更新频率，且每次更新均提供两位数以上的百分比的性价比提升。在2024年的re:Invent上，亚马逊云科技推出全面升级的Amazon Trainium2芯片，以及基于该芯片的Amazon EC2 Trn2实例和超级服务器。Amazon EC2 Trn2实例与当前基于GPU的EC2 P5e和P5en实例相比，Amazon EC2 Trn2实例的性价比提升30-40%。单实例配备16个Trainium2芯片，可提供高达20.8 Petaflops浮点算力的性能，非常适合训练和推理高达数十亿参数的大型语言模型。

Amazon EC2 Trn2 UltraServers服务器是亚马逊云科技在纵向扩展领域的又一次突破，用以满足大规模生成式AI训练和实时推理的性能需求。该服务器配备64个相互连接的Trainium2芯片，采用NeuronLink超速互连技术，可提供高达83.2 Petaflops浮点算力，其计算、内存和网络能力是单一实例的四倍，能够支持训练和部署超大规模的模型。训练方面，Amazon EC2 Trn2 UltraServers使客户能够突破单个Trn2实例的限制进行扩展，从而减少训练时间，加快投放市场的速度，实现快速迭代以提高模型准确性。推理工作负载方面，客户可以使用Trn2 UltraServers提升生产环境中万亿参数模型的实时推理性能。亚马逊云科技携手Anthropic正打造名为Project Rainier的EC2 UltraCluster，其包含数十万颗Trainium2 芯片，所达到的超级算力比他们当前一代领先AI模型训练所需算力高出5倍以上。

此外，亚马逊云科技发布了新一代AI训练芯片Amazon Trainium3。Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍。首批基于Trainium3的实例预计将在2025年末上线。

芯片创新重塑计算，而在基础设施的另一个重头场景——网络中，亚马逊云科技在2024年re:Invent上推出了第二代UltraCluster网络架构，也称为”10p10u”网络，支持超过20,000个GPU协同工作，带宽达10Pb/s，延迟低于10μs(微秒)，这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable, Intent Driven Routing)全新网络路由协议。相比传统的BGP、OSPF等协议，SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络，速度比传统方法快10倍，显著提升了分布式AI训练中的可靠性和实时性，确保网络在故障发生时也能保持高效运行。10p10u是亚马逊云科技有史以来扩展最快的网络，在2024年，安装了超过300万条链路。