中国移動、1万基規模の超大規模AIクラスターを長期安定稼働

中国移動の超大規模AIクラスターの内部イメージ — 中国移動が稼働させたハルビンデータセンターの超大規模AI計算インフラ

中国移動が示した超大規模AI計算クラスターの新たな指標

中国移動（チャイナモバイル）は、ハルビンデータセンターに構築した超大規模AI計算クラスター（AIコンピューティングクラスター）において、1万基のアクセラレータ（GPU/NPU）を統合した「万カードリソースプール」を長期トレーニングシナリオで安定的に稼働させることに成功したと発表しました。

これにより、大規模言語モデル（LLM）のトレーニングにおける安定性が業界トップクラスに達し、超大規模計算リソースのスケジューリング、高信頼通信、障害の自動診断・高速復旧といった長年の技術的課題をクリアしたことになります。

背景：大規模言語モデル（LLM）時代における計算インフラの課題

近年、AI技術はマルチモーダル化やエージェントの高度化を伴いながら急速に進化しており、特に大規模言語モデルのパラメータ数は「兆（テラ）パラメータ規模」へと拡大しています。こうした最先端モデルを効率的に学習させるには、計算密度、通信速度、システムの安定性が極めて高いレベルで要求されます。1万枚以上のチップを高度に協調させて数週間から数ヶ月に及ぶトレーニングを無停止で実行することは、世界中のハイテク企業や研究機関が直面する共通の障壁となっていました。

中国移動が採用した独自技術「GSE」

中国移動は、この課題を克服するためにハルビンデータセンターのAIクラスターへ独自に開発した「Global Scheduling Ethernet (GSE) 技術体系」を導入しました。このアプローチにより、以下の3つのコア課題に対する革新的なソリューションを提供しています。

「スローカード・スローネットワーク」の高速検知 大規模環境で頻発する、一部の半導体チップのパフォーマンス低下（スローカード）やネットワークの遅延を即座に感知し、診断精度を大幅に向上させました。
自律的な「ブレークポイント再開」メカニズム 障害が発生したノードを自動的に分離・隔離し、直前のトレーニング状態を数分単位でロールバックするシステム。これにより、ハードウェア障害によるトレーニング中断損失を50％削減しました。
AI運用自律エージェントの統合 多層アーキテクチャのログ分析システムを活用し、25種類以上のハードウェア・ソフトウェア障害に対して分単位で原因特定を実現。障害処理時間を従来の数日から数分へと劇的に短縮しています。

実績と業界への影響

長期安定稼働が実証された結果、最先端AIモデルのトレーニングサイクルは従来比で約3分の1に短縮されました。また、計算リソースの利用効率はほぼ100％に達し、自動運転技術の高度化やバイオ医薬、新素材開発といった産業応用への貢献が始まっています。

さらに中国移動は、ハルビンに加えて黒竜江省や広東省にもAI運用の実証ラボを設立。「AI+（AIプラス）」アクションプランのもと、2028年末までにAI分野への投資額を現在の2倍に拡大する計画です。

将来的には、10万基規模の超大規模AIクラスター構築を視野に入れ、国内全体のAI計算能力を100エクサフロップス（EFLOPS）以上に引き上げることを目指しています。

出典: IT之家

全般検索

中国移動、1万基規模の超大規模AIクラスターを長期安定稼働

中国移動が示した超大規模AI計算クラスターの新たな指標

背景：大規模言語モデル（LLM）時代における計算インフラの課題

中国移動が採用した独自技術「GSE」

実績と業界への影響

コメント

コメントを投稿する