「Step 3.5 Flash」が切り拓くAIエージェント時代

AIエージェントによる自動化と高速推論のイメージ — 「Step 3.5 Flash」によるスパースMoEと高速AIエージェントの処理モデル

スパースMoE構造による高効率: 総パラメータ数1,960億に対し、1トークン処理あたりのアクティブパラメータ数を約110億に抑え、低コスト・超高速動作を実現。
長文処理技術SWAの活用: スライディングウィンドウ・アテンション（SWA）を採用することで、256Kトークンの長大なドキュメントでもボトルネックなく高速処理。
最高峰の数学的推論力: 高速かつ軽量な「Flash」モデルでありながら、AIME 2025などの最高難度数学ベンチマークで大規模なクローズドモデルに匹敵する知能スコアを記録。

大規模言語モデル（LLM）のビジネス応用が進む中、AIの役割は「テキストでの対話」を行うチャットボットから、自律的にタスクを実行する「AIエージェント」へと移行しつつあります。AIエージェントの実用化において最も重要となるのは、知能レベル（判断力）を維持したまま、推論速度を極限まで高め、かつ実行コストを下げることです。

この課題に対し、中国の有力AIスタートアップである「StepFun（階躍星辰）」がリリースした最新の軽量高速モデル「Step 3.5 Flash」は、AIエージェント専用のプラットフォームにゲームチェンジをもたらす「ダークホース」として注目を集めています。その技術的アプローチと革新性について解説します。

1. AIエージェント時代に求められる「処理速度」と「文脈理解」

AIの発展段階において、単純なテキストチャットから、ユーザーの意図を汲み取ってワークフローを自律的に遂行する「AIエージェント」への移行が急ピッチで進んでいます。チャットボットであれば返答に数秒かかっても許容されますが、AIエージェントが「プログラムコードを実行し、エラーを検知して自己修正し、別のツールと連携して数千ページのドキュメントから答えを出す」といった複雑なタスクをこなす場合、処理速度（トークン生成速度）が実用性を大きく左右します。

単にモデルのパラメータサイズを大きくするだけでは、推論に必要なGPUリソースが膨大になり、運用コストが破綻してしまいます。そこでStep 3.5 Flashが選択したのが、「スパースMoE（Sparse Mixture of Experts）」と「SWA（Sliding Window Attention）」の組み合わせです。

2. 圧倒的なスループットを実現するアーキテクチャの秘密

① スパースMoE（専門家混合モデル）による活性化制御

MoEは、モデル内部を複数の「専門家（Expert）」ネットワークに分割し、入力タスクに応じて最適な専門家だけを選択的に呼び出して計算を行う手法です。Step 3.5 Flashは総パラメータ数が1,960億に達する巨大なモデルですが、推論時には1トークンあたり約110億パラメータのみを活性化（アクティブ化）させて計算します。これにより、大規模モデル並みの豊かな知識ベースを保持しながら、実際の計算負荷と推論コストを「110億パラメータ級」の軽量モデルと同等レベルに抑制しています。

② SWA（スライディングウィンドウ・アテンション）による長文高速処理

従来の注意機構（Dense Attention）では、ドキュメントの長さ（コンテキスト長）が伸びるにつれて計算量が指数関数的に増加し、応答速度が著しく低下していました。Step 3.5 FlashはSWAを採用し、直近の重要部分へ注意（アテンション）の計算を集中させ、それ以外の長距離の依存関係は階層的につなぐことで、256Kトークンという巨大なコンテキストでも応答性を維持。

実測値では1秒あたり最大350トークンの超高速処理を実現しており、オープンソースおよびAPIモデルの高速性ランキング（OpenRouter等）においても、他社を圧倒する上位のパフォーマンスを維持しています。

3. 「軽量・高速」と「高度な知能」の両立

一般的に、推論速度を上げた「Flash（軽量版）」モデルは、知能や推論の正確性が低下しがちです。しかし、Step 3.5 Flashは数学的推論を測定する主要な難関ベンチマークにおいて、他社の最大クラスのクローズドモデルに匹敵する極めて優秀なスコアを記録しています。

AIME 2025（米国数学招待試験）: 97.3点
IMOAnswerBench（国際数学オリンピック基準）: 85.4点
HMMT 2025（ハーバード・MIT数学トーナメント）: 96.2点

さらに、独自の並列協調推論アルゴリズム「PaCoRe（Parallel Coordinated Reasoning）」を併用することで、AIエージェントが複雑な課題を「サブタスクに分解して順次処理する」際の論理的な一貫性が飛躍的に向上しました。これにより、長時間のワークフローでも指示を見失わず、正確にタスクを完遂することができます。

4. 日本市場におけるユースケースとインフラ的メリット

日本国内の企業やSIer（システムインテグレーター）の間でも、RPAの代替や高度なデータ処理自動化を目的に、AIエージェントの導入機運が高まっています。特に機密データを扱う金融や製造業、医療分野では、データを社外に出さないオンプレミスやプライベートクラウドでのAI構築が好まれる傾向があります。

GPU調達制限の克服: 日本の多くの企業において最先端のNVIDIA製H100/H200 GPUの調達がボトルネックとなる中、アクティブパラメータを110億に抑えたStep 3.5 Flashのようなモデルは、ワンランク下のミドルレンジGPUや既存のインフラ環境でも高速に動作し、導入のコストハードルを大幅に下げます。
実用的な自動化ワークフロー: 日本特有の「多数の稟議書や契約書などのフォーマットの異なる大量の書類」をAIエージェントに一括読み込みさせ、数秒でデータベースに整理するといった業務改善において、高速なコンテキスト処理能力が大きな強みを発揮します。

5. まとめ

「Step 3.5 Flash」は、AIエージェントに必要とされる「スピード」「コスト効率」「高度な知能」を高次元で融合させたモデルです。単に大規模化を競うモデル競争の時代から、限られたコンピューティング資源の中で効率的な自律処理を行う「実用的なエージェント設計の時代」へのシフトを明確に示すマイルストーンと言えます。今後のスマートデバイスや業務自動化システムのバックエンドにおいて、こうした高効率MoEモデルの採用が標準となっていくと考えられます。

全般検索