大模型之家讯 日前,在全球市场分析机构国际数据公司(IDC)发布的《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》中,亚马逊云科技被评为“领导者”,在能力和战略的双维度上均为“领导者”。IDC在该报告中表示,全球公有云IaaS继续快速增长,预计2025年的整体规模将达到1880亿美元。
IDC分析师、报告作者Dave McCarthy表示:“亚马逊云科技通过广泛的服务组合和持续的创新,在公有云IaaS市场中处于领导地位。广泛的全球基础设施,结合Amazon Graviton等定制芯片计划以及在AI领域的重大投资,使其在满足企业需求方面独具优势。其在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。”
作为全球云计算的开创者和引领者,亚马逊云科技是率先进入自研芯片领域的云供应商。革命性的Nitro虚拟化平台全面加速了亚马逊云科技在自研芯片领域的创新速度。迄今为止,亚马逊云科技已推出了多个系列的自研芯片,包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片Amazon Trainium和推理芯片Amazon Inferentia,同时保持稳定的更新频率,且每次更新均提供两位数以上的百分比的性价比提升。在2024年的re:Invent上,亚马逊云科技推出全面升级的Amazon Trainium2芯片,以及基于该芯片的Amazon EC2 Trn2实例和超级服务器。Amazon EC2 Trn2实例与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。单实例配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和推理高达数十亿参数的大型语言模型。
Amazon EC2 Trn2 UltraServers服务器是亚马逊云科技在纵向扩展领域的又一次突破,用以满足大规模生成式AI训练和实时推理的性能需求。该服务器配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。训练方面,Amazon EC2 Trn2 UltraServers使客户能够突破单个Trn2实例的限制进行扩展,从而减少训练时间,加快投放市场的速度,实现快速迭代以提高模型准确性。推理工作负载方面,客户可以使用Trn2 UltraServers提升生产环境中万亿参数模型的实时推理性能。亚马逊云科技携手Anthropic正打造名为Project Rainier的EC2 UltraCluster,其包含数十万颗Trainium2 芯片,所达到的超级算力比他们当前一代领先AI模型训练所需算力高出5倍以上。
此外,亚马逊云科技发布了新一代AI训练芯片Amazon Trainium3。Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍。首批基于Trainium3的实例预计将在2025年末上线。
芯片创新重塑计算,而在基础设施的另一个重头场景——网络中,亚马逊云科技在2024年re:Invent上推出了第二代UltraCluster网络架构,也称为”10p10u”网络,支持超过20,000个GPU协同工作,带宽达10Pb/s,延迟低于10μs(微秒),这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable, Intent Driven Routing)全新网络路由协议。相比传统的BGP、OSPF等协议,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。