エージェント型ワークフローにおけるGemini 3.5 FlashとGemini 3 FlashのBoxによるベンチマーク結果を共有します。この結果は、新しいAIモデルの優位性を明確に示しており、まさに重要なタイミングで登場しました。Google I/Oで発表された通り、Box MCPサーバーがGemini Appに搭載され、BoxのエンタープライズグレードのコンテンツとAIエージェント機能が、Geminiを利用する一般ユーザー、教育機関、企業ユーザーに提供されます。
複数の業界領域と数千ものタスクにおいて、Gemini 3.5 Flashは74%という高い精度を達成しました。これは、Gemini 3 Flashの62%に対して約20%の相対的な改善であり、テストしたすべての領域で性能向上が確認できました。
企業におけるAIのユースケースが複雑化するにつれて、本番運用可能なAIモデルに求められる水準はますます高くなっています。単に情報を取得したり、それなりの回答を作成したりするだけではもはや十分ではありません。AIモデルは、膨大な量の文書から正確なデータを抽出し、多段階の数値推論を実行し、複数の情報源から得られた知見を精度を損なうことなくまとめることができる必要があります。Boxのテストでは、Gemini 3.5 Flashがまさにこれらのタスクにおいて大幅に優れていることがわかりました。
以下の指標はすべて、Box Complex Work Evaluationに基づいています。この評価は、分析、レポート作成、デューデリジェンス、専門家による検証など、幅広い業界における長時間のタスクにおいて高度な推論能力を要求するように意図的に設計されています。
主なポイント:
- Gemini 3.5 Flashは、Boxがテストしたすべての領域でより高い精度を実現しました。(特にヘルスケアやライフサイエンスといった重要度の高い分野で、
- この精度向上は、より綿密な作業によるものです。ツール呼び出し回数を増やし、ソース資料をより徹底的に読み込み、回答前にインプットを検証します
- Box MCPサーバーがGemin Appに統合されることで、Boxコンテンツとエージェント型ワークフローをより幅広いユーザー層が利用できるようになります。
あらゆる領域で精度向上
Gemini 3.5 Flashは、平均精度が向上しただけでなく、テストしたすべての領域でより優れたAIモデルとなりました。
このような包括的な一貫性こそが、この結果を意義深いものにしています。最も大きな改善が見られたのは、ミスによるコストが最も高い領域です。たとえば、ヘルスケア分野では22パーセントポイント、ライフサイエンス分野では20パーセントポイントの改善が見られました。これらの分野では、誤った数値は些細な問題ではなく、後工程で修正が必要となる重大な問題となります。
Gemini 3.5 Flashがまさにこれらの領域で最も顕著な改善を示したことが、この結果を表面的なものではなく、実質的なものにしています。その改善は、最も困難な作業と信頼性が最も重要となる分野で顕著に現れています。精度の向上は、より高度なAIモデルがより優れた文章を書くことによってもたらされるものではありません。それは、作業へのアプローチの違いによるものです。Gemini 3.5 Flashは、1タスクあたりのツール呼び出し回数がGemini 3 Flashよりも約40%多く、回答を確定する前に、ソース資料をリアルタイムで読み込み、インプットを検証します。高い精度に貢献するのは、生来の知能ではなく、そうした行動様式の変化なのです。
業界別ベンチマーク
Gemini 3.5 FlashはGemini 3 Flashと比較して、文書の複雑性と特に高い推論能力を必要とする分野で、パフォーマンスが最も優れています。

- 金融サービス: 81% vs 73%(+8pp) — 構造化データから正確な数値を転記して財務レポートを生成 — 取得完了前に生成するのではなく、ドラフト作成前にソースデータを体系的に読み込みます
- 公共部門: 76% vs 59%(+17pp) — 複雑な数式処理を伴う公文書を生データセットに適用し、大規模なコンプライアンスおよび評価レポート作成のために数値を正確に抽出・計算します
- ヘルスケア: 73% vs 51%(+22pp) — 利用データに基づく正確な定量分析を生成し、複雑な臨床記録から多段階の導出を正確に計算し、複数のデータソースを厳密な差異で相互参照します
- ライフサイエンス: 67% vs 47%(+20pp) — 診断検査記録から科学的比率を抽出・計算するために、不完全なコンテキストから推論するのではなく、ソース文書を体系的に読み込み、解析します
最も大きな改善が見られるのは、ミスによる損失が最も大きい分野です。臨床記録、診断データ、規制当局への提出書類、政策文書など、スキーマが豊富な文書が密集している分野において、Gemini 3.5 Flashは相互依存的な推論の連鎖をそのまま保持できるため、精度向上に直結します。
推論がフロンティアを切り拓く
Gemini 3.5 Flashの最も顕著な成果は、継続的な多段階推論を必要とするタスク、つまりパイプライン全体にわたる連鎖的な論理、計算、統合を必要とするタスクにおいて得られました。

- データからのレポート作成: 80% vs 65%(+15pp)
- 専門家によるレビュー/検証: 78% vs 75%(+3pp)
- データ分析: 77% vs 60%(+17pp)
- デューデリジェンス: 58% vs 51%(+7pp)
データ分析のギャップが、最も顕著です。17パーセントポイントの差は、タスクの複雑化に伴い、構造化されたレビューから自由形式の分析と推論へと移行していることを反映しています。これらのタスクでは、単に情報を取得して要約するだけでなく、複数の情報源から情報を積極的に変換・調整し、妥当な結論を導き出すAIモデルが求められます。
企業にとってこれが重要な理由
領域ごとの精度、タスクレベルの勝率、数学的推論、エンドツーエンドの信頼性など、検証したあらゆる側面において、Gemini 3.5 Flashはより慎重に作業を行い、信頼できる回答を生成しました。企業が必要としているのは、単に高速なAIモデルだけでなく、業務で実際に行っているような複数のステップからなる文書量の多い作業においても、推論が安定して機能するAIモデルです。推論を行う前に読み込み、生成する前にデータを取得し、ソースデータから処理を行うAIモデルは、大規模な運用において実用性を根本的に変革します。
これまで人間がすべての数値を検証する必要があったワークフロー(財務報告書、規制分析、臨床データレビュー、公共部門の報告書など)が、AIエージェントによって処理できるようなります。推論の深さとコストは、エージェントシステムにおいてトレードオフとして扱われることが多いですが、Gemini 3.5 Flashは、必ずしもそうである必要はないことを強く示しています。追加のツール呼び出しやトークンは無駄ではなく、 回答の正確性を確保するための重要な要素です。
Boxのお客様にとって、その実用的なメリットは明白です。本当に重要な業務において、信頼できるAIを手に入れることができるのです。データ量の多いタスクにおける手戻り作業の削減、 単なる説明だけでなく数値データも信頼できるAIエージェント、そして、実行結果の一貫性(狭い変動幅、安定した高スコア)が確保されることで、エージェント型ワークフローをついにパイロットから本番運用へと移行できるようになります。
エージェント型AIの新たな可能性
GoogleがGoogle I/Oで発表した新しいMCPコネクタサポートの一環として、Box MCPサーバーがGemini Appに搭載されます。企業のワークフローを支えるBoxコンテンツとAIエージェント機能が、一般ユーザー、教育機関、中小企業のGeminiユーザーでも利用可能になります。Geminiからファイル、フォルダ、そしてBoxを活用したワークフローへ直接アクセスできるのです。
このコラボレーションは、エージェントAIの未来像を象徴しています。最も価値のあるAIモデルは、流暢な文章を生成するものではなく、実際のシステムにアクセスし、実際のデータを取得し、それに基づいて確実にアクションを実行できるAIモデルです。Box MCPサーバーは、まさにそれを実現するために構築されています。そして、これはGemini 3.5 Flashで見られる動作と全く同じです。現実世界の複雑な状況を、より高速かつ効率的に処理できるように設計されたAIモデルです。BoxとGeminiの連携により、コネクタは実際に作業を任せられる信頼できるツールへと進化します。
Boxにとって、これはBox AI Studio、Box API、そして今回新たに登場したGemini Appなど、ユーザーが望むあらゆる場所でコンテンツと機能を利用できるようにするための重要な一歩です。Googleにとっては、何百万人もの人々が毎日利用するプラットフォームに、非構造化データとアクションを取り込むことを意味します。そしてユーザーにとっては、実際の業務が行われるシステムとついに連携するエージェント型AIが実現するということです。
まもなく提供開始
Gemini 3.5 Flashは、Box AI StudioおよびBox APIを通じて近日中に利用可能になります。Box MCPサーバーもGemini Appで近日中に利用可能になります。詳細は後日発表予定です。
関連コンテンツ
- Gemini 3.1 Pro: よりスマートなAIで、最も複雑な作業にも対応
- Box AgentとGoogle Cloud: AI相互運用性の次世代を切り拓く
- アーロン・レヴィとGoogleのラオ・スラパネニ氏が語るガバナンス、セキュリティ、そしてエージェント時代
このブログは、Box, Inc. 公式ブログ(https://blog.box.com/)2026年5月19日付投稿の翻訳です。
著者: Rutuja Rajwade, Senior Product Marketing Manager, Platform & AI at Box
原文: https://blog.box.com/gemini-35-flash-raises-accuracy-across-every-domain-and-gemini-app-integrates-enterprise-content
- トピックス:
- Box製品情報
