欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

在re:Invent2022大会上,我们看到了云计算的未来

时间:2023-02-06 13:13:05 | 浏览:842

机器之心报道机器之心编辑部云技术到了变革的节点。AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容

机器之心报道

机器之心编辑部

云技术到了变革的节点。

AI 圈里很多人都听说过开源 AI 作画扩散模型 Stable Diffusion,见识过 AI 图片横扫朋友圈。最近大模型兴起除了造梗图之外,应用前景也在逐渐清晰,AIGC(人工智能生成内容)成为了众多科技公司正在尝试的领域。

不过,大模型的缺点就是太大:最初版本的 Stable Diffusion 动用了 256 块 A100 GPU,花费了 15 万 GPU 小时进行训练,仅这一项就是 60 万美元。

Stable Diffusion 刚刚推出 2.0 版,背后的公司 Stability AI 就宣布和亚马逊云科技展开了合作。

Stability AI 未来的基础模型也要用 Amazon SageMaker 构建。

科技界最新的独角兽和最大云服务公司宣布合作的消息,正是在一年一度的亚马逊云科技 re:Invent 全球大会上。和往年一样,这场「云计算的春晚」上,亚马逊云科技发布的众多新技术吸引了全球的目光。

除了成为 Stability AI 首选云供应商之外,亚马逊云科技一口气推出了十余款新产品——从自研芯片、AI 工具到数据平台,云技术的未来被完整地展示了出来。

自研芯片,面向 AI 大模型、高性能计算

想要让人人都能跑得起大模型,首先得提升算力,亚马逊云科技有着丰富的芯片自研经验。自 2013 年推出 Amazon Nitro 系统以来,其推出了五代 Nitro 系统、提升多种工作负载性能的三代 Graviton 芯片、用于加速机器学习推理的两代 Inferentia 芯片,以及用于加速机器学习训练的 Trainium 芯片。

在 re:Invent 上,亚马逊云科技宣布了为其云服务提供基础的多款新硬件,包括新版本的 Nitro、新实例类型和基于 Arm 架构的新一代 Graviton 3E 芯片。新一代芯片在各类云计算任务上都实现了大幅度的进步:

应用新处理器的云服务实例是 Hpc7g,与当前的 C6gn 相比,其浮点性能提高了两倍,与 Hpc6a 相比性能提高了 20%,这为 HPC 工作负载提供了超高的性价比。

更加令人关注的的是 AI 训练和推理芯片。前不久,应用机器学习训练芯片 Trainium 的 AI 专用实例 Trn1 正式上线,它是第一个具有高达 800 Gbps EFA 网络带宽的 EC2 实例,拥有 512 GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力。

在超大规模集群 EC2 UltraClusters 中,用户最多可以扩展到多达 3 万块 Trainium,相当于使用一台 6.3 exaflops 算力的超算。

旨在为 AI 推理提供加速的 Inf2 实例配备了亚马逊自研的最新 Inferentia2 推理芯片,为运行多达 1750 亿参数的深度学习大模型进行了专门优化。与当前一代 Inf1 实例相比,新实例可提供高达 4 倍的吞吐量,还能降低多达 10 倍延迟,以最低的成本为 Amazon EC2 上的机器学习推理提供动力。

值得一提的是,亚马逊云科技为实现更快的芯片迭代速度,在芯片设计和验证中使用了基于云的电子设计自动化,从而使团队能够更快地将芯片提供给客户。

通过自研芯片,亚马逊云科技在云服务基础设施性能上保持了领先位置,在多种任务上实现了性能、效率和成本的优化。

持续降低软件开发门槛,完善端到端数据治理

在强大的算力基础之上,亚马逊云科技进一步降低了技术应用的门槛,发布了一系列 AI 开发能力,和用于数据治理的创新工具。

Amazon SageMaker 是业内第一个基于云的机器学习开发平台,最早于 2017 年推出,用于构建、训练和部署深度学习算法。新推出的功能可以让开发者更快地进行机器学习模型的端到端部署。

在 SageMaker Studio Notebooks 上,现在 AI 可以帮助开发者发现数据处理过程中的错误,当你选择系统建议的补救方法时,工具会自动生成实施所需的代码。部署使用 Jupyter 创建的神经网络通常是一项耗时的任务。

SageMaker Studio Notebooks 现在也可以将神经网络打包到软件容器中,无需开发者手动操作,不同团队现在也可以更方便地共享 AI 模型代码和其他软件组件。

使用 SageMaker 构建神经网络后,现在人们可以进行 shadow testing 测试,通过亚马逊云科技的人工智能算法来评估神经网络的可靠性。

在 AI 治理工作上,亚马逊提出了一系列工具,Amazon SageMaker Role Manager 让管理员可以轻松控制用户对公司 SageMaker 环境的访问,Amazon SageMaker Model Cards 则帮助软件团队管理项目机器学习部分产生的数据。最后是 Amazon SageMaker 模型仪表板,可用于在 AI 模型部署到生产环境后监控其可靠性

在主 Keynote 演讲中,亚马逊云科技 CEO Adam Selipsky 多次强调了 ETL(Extraction-Transformation-Loading)对于数据工程师工作的挑战,它代表了大数据任务中数据抽取、转换和加载等一系列工作。在大数据任务中,ETL 经常会花费整个项目的 1/3 的时间。

亚马逊云科技希望消灭 ETL,让用户只需要专注于自己的业务逻辑,引入了 Amazon Aurora zero ETL 与 Amazon Redshift 的集成,让使用 Aurora 数据库和 Redshift 数据仓库的客户能够快速将数据应用于自家机器学习服务 SageMaker 打造 AI 应用,而无需自定义数据管道。

现在,亚马逊云科技支持 Amazon EMR、Glue 和 Amazon SageMaker 上的 Apache Spark,具有完全兼容且专门优化的性能,比开源版本速度快 3 倍。

随着数据量的爆炸性增长,AI 理所当然地成为了数据治理的新思路。Amazon DataZone 是一项数据管理服务,可以帮助企业编目、发现、共享及管理自有数据,其中管理并组织数据内容的工作都被交由机器学习来自动完成。

此外,Amazon Security Lake 可以帮助安全团队轻松地自动收集、组合和分析 PB 级的安全数据。

「在数据领域,亚马逊云科技基本实现了端到端的无服务器能力,接管了全部的数据处理,」Adam Selipsky 说道。「亚马逊云科技引导了开发模式的变更,实现了基于事件驱动的任务处理。」

解决实际行业难题

面向行业和应用,亚马逊云科技还发布了一系列工具。前段时间很多行业都遭遇了供应链问题,Amazon Supply Chain 可帮助供应链领导者降低风险和成本以提高供应链弹性,提供实时可视化地图功能,显示每个位置的库存水平和健康状况,提醒人们注意潜在风险,并提供库存重新平衡建议。

在受保护数据环境 Amazon Clean Rooms 中,多方分析组合数据时