中国テック番犬

全般検索

    AI

    Stepfun「Step-3.7-Flash」の爆速推論

    中国AIスタートアップ階躍星辰(StepFun)が発表した198B MoE VLM「Step-3.7-Flash」。3段階 of 推論深度、SimpleVQA首位の秘密とAgent適用性。

    Stepfun「Step-3.7-Flash」の爆速推論
    StepFun Step-3.7-Flash Metrics

    TL;DR

    中国のAIユニコーンスタートアップ「階躍星辰(StepFun)」は、総パラメータ数198B(アクティブ約11B)の超巨大スパースMoEビジョンランゲージモデル「Step-3.7-Flash」を公開した。本モデルは大規模ビジネス環境向けに開発され、最大256kトークンの文脈窓をサポート。毎秒最大400トークンという高速なテキスト出力と、ユーザーが「推論深度」を3段階に切り替えられる柔軟性を兼ね備える。

    Quick Facts

    • アーキテクチャ: 196Bの言語モデル+1.8Bのビジョンエンコーダーからなる総計198BパラメータのMoE( Mixture-of-Experts )。トークンごとに約11Bをアクティブ化
    • 推論速度: 最大400トークン/秒という高スループットを本番環境で達成
    • 機能特徴: 低・中・高の「3つの推論レベル(Reasoning Levels)」を選択可能
    • ベンチマーク実績: SimpleVQA(検索評価)で79.2を獲得し首位、自律エージェントの耐トラップ評価「ClawEval-1.1」で67.1を獲得し大差で首位

    大規模な検索、財務データ分析、コード設計などを自律AIに一任する「AIエージェント」が実用化される中、最も重要なのは「速度・信頼性・コスト」のトレードオフである。StepFunが開発したStep-3.7-Flashは、198Bパラメータという巨大スケールでありながら、高度なMoE最適化によって「Flash」の名に相応しい速度を実現した。

    Step-3.7-Flashの基本アーキテクチャ

    Step-3.7-Flashは、196Bパラメータの大規模言語モデルのバックボーンと、1.8Bパラメータの視覚認識のためのビジョンエンコーダーをネイティブに統合している。コンテキスト長は最大256,000トークンに達し、数千ページの財務報告書や、何十個ものソースファイルを含む巨大リポジトリをワンパスで読み込むことができる。

    この巨体でありながら、トークンあたりに起動されるのは11Bパラメータに抑えられるスパースMoE設計になっており、本番の処理パイプラインにおいては毎秒最大400トークンという高スループットを維持する。

    [256K 超長文・マルチモーダル入力]
                      │
                      ▼
             [Step-3.7-Flash ゲート]
                      │
            ┌─────────┼─────────┐ (タスク難度に応じて推論レベル切り替え)
            ▼         ▼         ▼
        【Low】    【Medium】  【High】 (思考ステップ・CoTの深さ)
            │         │         │
            └─────────┼─────────┘
                      ▼ (198B MoEで11Bを起動)
         [毎秒400トークンの高速アウトプット]
    

    特徴機能:3段階の推論レベルの選択

    Step-3.7-Flashのユニークな設計は、開発者がAPI経由で推論の「深度」をコントロールできる点にある。

    • Low(低深度): 単純なテキスト抽出や定型要約など、思考ステップが不要な単純作業に向き、極めて低い遅延とコストで動作する。
    • Medium(中深度): 通常の分析、標準的な検索拡張生成(RAG)、一般的なコーディング支援などに最適化されたバランスの取れたモード。
    • High(高深度): 複雑な論理設計、デバッグ、複数ソースの整合性比較検証など、<think>に近い自律的な内省プロセスを深く回してから最終回答を出力するモード。

    主要ベンチマークでの性能

    Step-3.7-Flashは、エージェント運用の実用性能を示す各種ベンチマークでトップスコアをマークした。

    検索を統合した難関ビジュアルVQAである「SimpleVQA」では79.2%を記録して第1位を獲得。また、視覚情報が不足している場合にWeb検索をかけて事実関係を自己補完する「V*」ベンチマークでも95.3%に達し、フロンティアモデルと同等の水準を示した。

    さらに重要なのが、AIエージェントの堅牢性(罠にかからずに指示に従えるか)を評価する「ClawEval-1.1」でのスコアである。Step-3.7-Flashは67.1%を獲得し、次点モデル(59.8%)に大きな差をつけた。これは、エージェントの並列ループ実行時の異常終了リスクが極めて低いことを裏付けている。

    日本企業への影響と日本から見た意味

    日本の大手金融機関やコンサルティングファーム、ソフトウェアベンダーが直面する課題は、数万ページのドキュメント群に対するセキュアなRAG運用や、AIを用いたワークフローの自律化である。しかし、「性能が良いモデルは遅くて使い物にならない」「速いモデルは論理エラーが多い」というジレンマがあった。

    Step-3.7-Flashの「速度を保ちつつ、タスクに応じて推論レベルを動的に変えられる」設計は、API利用料を劇的に抑えつつ、システムの信頼性を最適化する新たな手段を提供する。自律検索とコーディングの統合に強いため、日本のDXにおける自動化エージェント構築の核心的なエンジンになり得る。

    次に見る指標

    • 推論レベル切り替え時のAPIコスト対効果比: 業務全体の処理速度とコストがどれほど削減されるか
    • 日本語のコンテキスト抽出信頼性: 256kという長文コンテキストの中で、日本語の情報が埋もれる「Needle In A Haystack」現象の耐性
    • ClawEval-1.1に基づく本番エージェントの運用安全性と他オープンMoEとの比較

    よくある質問 (FAQ)

    Q: パラメータ数が198Bと非常に大きいですが、個人PCや一般サーバーで動かせますか?
    A: いいえ。198Bモデルのローカル推論には高スペックのマルチGPUサーバー(H100/A100複数枚など)が必要となります。ただし、クラウドAPIや企業向けプライベートクラウドデプロイを通じて「Flash」モデルとしての超高速・低単価な利点を享受するのが一般的な運用です。
    Q: 視覚的な入力(画像)の処理能力はどれくらいですか?
    A: 1.8Bの強力なビジョンエンコーダーをネイティブ統合しているため、Webのスクリーンショット、グラフや図表、UI設計図などを正確に解釈し、欠損情報を見つけて自分でWeb検索をかける自律能力を持っています。
    Q: ライセンスはどうなっていますか?
    A: Apache 2.0 ライセンスで公開されており、利用規約を遵守した商用利用やオープンソースとしてのカスタマイズが可能です。

    コメント

    ...
    コメントを読み込んでいます...

    コメントを投稿する

    ※ メールアドレスは公開されません。