私たちの AI の習慣は、データセンターの構築方法をすでに変えています。 • The Register

ブログ

ホームページホームページ / ブログ / 私たちの AI の習慣は、データセンターの構築方法をすでに変えています。 • The Register

Aug 08, 2023

私たちの AI の習慣は、データセンターの構築方法をすでに変えています。 • The Register

分析 AI インフラストラクチャの保護と展開に猛ダッシュが行われているため、データセンター オペレーターは施設の構築と運用方法の再評価を余儀なくされています。 一般的なデータセンターでは、冷気が引き込まれます。

分析 AI インフラストラクチャの保護と展開に猛ダッシュが行われているため、データセンター オペレーターは施設の構築と運用方法の再評価を余儀なくされています。

一般的なデータセンターでは、冷気がコンピューティング、ネットワーク、ストレージ システムでいっぱいのラックを通って引き込まれます。 後方では、加熱された空気が施設の冷却インフラによって取り込まれ、排出されます。

このパラダイムは 6 ~ 10kW のラックでは問題なく機能しますが、GPT-4 などの AI モデルのトレーニングに使用される種類のシステムの導入を開始すると、崩壊し始めます。 最新の GPU ノードは、ラック全体に相当する電力を簡単に消費してしまいます。 そしてこれにより、データセンター運営者は重大な設計変更を余儀なくされています。

テスラはこれに最も遅れて気づいたようだ。 今週初めに報じたように、米国の電気自動車メーカーは「この種では初のデータセンター」の構築に協力してくれる人材を探している。

同社は最近の求人情報で、データセンターのシニアエンジニアリングプログラムマネージャーを探していると述べた。このマネージャーは「テスラ初のこの種のデータセンターのエンドツーエンドの設計とエンジニアリングを指揮し、テスラの主要メンバーの一人となる」そのエンジニアリングチームです。」

この人物は、新しいデータセンターの建設を監督する責任も負うことになります。 これは、これが、イーロン・マスクCEOによるソーシャルネットワークの買収後にTwitterが放棄したサクラメントのデータセンターリースをテスラが最近引き継いだと主張するThe Informationの報道とは無関係である可能性があることを示唆している。

同社が「この種初のデータセンター」という言葉で何を意味するのかは正確には明らかではないが(テスラに問い合わせたが、まだ回答は得られていない)、昨年のホットチップスで披露したカスタムDojo AIアクセラレータと関係があるのか​​もしれない。 。

同社は自動運転ソフトウェアの開発を加速するため、今から2024年末までにこのプロジェクトに10億ドル以上を投じる計画だ。 マスク氏は7月の講演で、システム全体がBF16のパフォーマンスと推定される100エクサFLOPSを超える可能性があることを明らかにした。

つまり、テスラは、物体を収容できる場所と、ライトをオンにしてすべてのポイントを浮かせておく人を見つける必要があるということです。 そして、Dojo アクセラレータについて私たちが知っている情報に基づくと、AI アクセラレータの動作を維持するために適切な電力と冷却を提供できる施設を設計および管理することは、少々悪夢のようなことになる可能性があります。

Dojo は、Tesla が完全に自社開発したコンポーザブル スーパーコンピューターです。 コンピューティング、ネットワーキング、IO から命令セット アーキテクチャ、電力供給、パッケージング、冷却に至るまで、すべてが Tesla の機械学習アルゴリズムを高速化するという明確な目的を持ってカスタム構築されました。

このシステムの基本構成要素は Tesla の D1 チップレットです。 これらのうち 25 個は、TSMC のシステムオンウェーハ技術を使用して Dojo Training タイルにパッケージ化されています。 全体として、0.5 立方フィートのシステムは 11 GB の SRAM、9 TB/秒のファブリック接続を備え、9 ペタ FLOPS の BF16 パフォーマンスを管理できます。 大規模 AI アクセラレータの完全な詳細については、兄弟サイトである The Next Platform でご覧いただけます。

もちろん、このようなコンパクトなフォームファクタにすべてのパフォーマンスを詰め込むと、1 exaFLOPS Dojo V1 システムを構成する 6 つのアクセラレータはもちろんのこと、1 つの 15 kW アクセラレータにどのように電力を供給して冷却するかなど、いくつかの固有の課題が生じます。 そしてそれは単なるアクセルです。 また、アクセラレータを介したデータ フローの供給と調整に使用されるすべてのサポート システムに電力を供給し、冷却する必要もあります。

次に、高速メッシュの問題がありますが、これはこれらのタイルを展開する方法の点で法外なことが判明する可能性があります。 このような速度では、より密に詰めれば詰めるほど良いのですが、熱負荷も大きくなります。 そのため、テスラが従来のラックを使用するという考えを完全に捨てて、完全にユニークなものを選択したとしても驚くべきことではありません。

この謙虚なハゲワシは、個人的には昔のワイルドで奇抜なスーパーコンピューティング設計への回帰を望んでいます。 スーパーコンピューターはかつては奇妙で楽しかったです。 信じられない? Thinking Machine の CM-1 または Cray-2 を調べてください。 それらは見栄えの良いマシンでした。