Amazon Web Servicesは金曜日、AI推論に焦点を当てた複数年のパートナーシップの下、データセンター内にCerebrasのプロセッサを導入すると発表しました。
この契約により、AmazonはAIモデルがプロンプトに応答し、コードを書き、ライブユーザーリクエストを処理する方法を高速化する新しい手段を得ました。AWSは、Wafer-Scale Engineを含むCerebras技術を推論タスクに使用すると述べました。
両社は財務条件を明らかにしませんでした。この設定はAWSデータセンター内のAmazon Bedrockに計画されており、パートナーシップをAmazonの主要なAI製品の1つの内部に配置します。
AWSは、このシステムがAmazon Trainiumを搭載したサーバー、Cerebras CS-3システム、およびAmazonのElastic Fabric Adapterネットワーキングを組み合わせると述べました。
今年後半、AWSはCerebrasハードウェア上で主要なオープンソース大規模言語モデルとAmazon Novaを提供する予定です。AWSのコンピュートおよびMLサービス担当副社長であるDavid Brownは、速度がAI推論における大きな問題であり、特にリアルタイムのコーディング支援とインタラクティブアプリケーションにおいてそうであると述べました。
Davidは、「推論はAIが顧客に真の価値を提供する場所ですが、リアルタイムのコーディング支援やインタラクティブアプリケーションなどの要求の厳しいワークロードにとって、速度は依然として重大なボトルネックです」と述べました。
AWSは、この設計が推論の分離と呼ばれる方法を使用すると述べました。これは、AI推論を2つの部分に分割することを意味します。最初の部分はプロンプト処理で、プリフィルとも呼ばれます。2番目の部分は出力生成で、デコードとも呼ばれます。
AWSは、2つのジョブは非常に異なる動作をすると述べました。プリフィルは並列で、計算が多く、適度なメモリ帯域幅を必要とします。デコードはシリアルで、計算は軽く、メモリ帯域幅にはるかに依存します。デコードは、すべての出力トークンを1つずつ生成する必要があるため、これらのケースでほとんどの時間がかかります。
そのため、AWSは各段階に異なるハードウェアを割り当てています。Trainiumはプリフィルを処理します。Cerebras CS-3はデコードを処理します。
AWSは、低レイテンシ、高帯域幅のEFAネットワーキングが両側を接続し、各プロセッサが別々のタスクに集中しながら、システムが1つのサービスとして機能できるようにすると述べました。
Davidは、「Cerebrasと構築しているものはそれを解決します。推論ワークロードをTrainiumとCS-3に分割し、AmazonのElastic Fabric Adapterで接続することで、各システムが最も得意とすることを行います。その結果、現在利用可能なものよりも桁違いに高速で高性能な推論が実現されます」と述べました。
AWSはまた、このサービスがクラウドインフラストラクチャの基本レイヤーであるAWS Nitro Systemで実行されると述べました。
これは、Cerebras CS-3システムとTrainiumを搭載したインスタンスが、AWS顧客がすでに使用しているのと同じセキュリティ、分離、および一貫性で動作することが期待されることを意味します。
この発表により、AmazonはNvidia、AMD、その他の大手チップ企業のチップに対してTrainiumを推進する別の機会を得ました。AWSは、Trainiumをトレーニングと推論全体でスケーラブルなパフォーマンスとコスト効率のために構築された社内AI チップと説明しています。
AWSは、2つの主要なAIラボがすでにコミットしていると述べました。AnthropicはAWSを主要なトレーニングパートナーに指名し、Trainiumを使用してモデルをトレーニングおよび展開しています。OpenAIは、Stateful Runtime Environment、フロンティアモデル、およびその他の高度なワークロード用に、AWSインフラストラクチャを通じて2ギガワットのTrainium容量を消費します。
AWSは、Trainium3が最近のリリース以来、業界全体の顧客が大規模な容量をコミットし、強力な採用を見ていると付け加えました。
Cerebrasはセットアップのデコード側を処理しています。AWSは、CS-3がデコード加速専用であり、高速出力トークンのためのより多くのスペースを提供すると述べました。Cerebrasは、CS-3が世界最速のAI推論システムであり、最速のGPUの数千倍のメモリ帯域幅を提供すると述べています。
同社は、推論モデルが現在推論作業のより大きな割合を占めており、問題を解決する際にリクエストごとにより多くのトークンを生成すると述べました。Cerebrasはまた、OpenAI、Cognition、Mistralなどが、特にエージェントコーディングなど、要求の厳しいワークロードにそのシステムを使用していると述べました。
Cerebras Systemsの創設者兼最高経営責任者であるAndrew Feldmanは、「AWSとパートナーシップを組んで分散型推論ソリューションを構築することで、グローバルな顧客ベースに最速の推論をもたらします」と述べました。
Andrewは、「世界中のすべての企業が、既存のAWS環境内で驚異的に高速な推論の恩恵を受けることができるようになります」と付け加えました。
この契約は、12月にGroqと200億ドルのライセンス契約を締結し、来週Groq技術を使用した新しい推論システムを発表する予定のNvidiaにさらなるプレッシャーを加えます。
これを読んでいるあなたは、すでに一歩先を行っています。ニュースレターでその状態を維持してください。
