数百ページにも及ぶ法的契約書の解析から詳細な臨床報告書の分析に至るまで、企業のナレッジワークには高度な推論能力が必要です。Anthropicの最新の推論モデルClaude Opus 4.6がBox AI Studioに統合されたことで、前モデルClaude Opus 4.5よりもはるかに高い精度で、業界特有の複雑なロジックとデータ統合を処理できるようになりました。推論を多用する企業タスクに基づく包括的な直接比較評価において、Claude Opus 4.6は総合パフォーマンススコア68%を達成し、Opus 4.5のベースラインスコア58%を大幅に上回りました。
%20-%20Use%20Case%20Subset%20(1)%20(1).jpg?width=2434&height=1396&name=Box%20AI%20Enterprise%20Eval%20for%20Opus%204.6%20(Advanced%20Reasoning%20v3)%20-%20Use%20Case%20Subset%20(1)%20(1).jpg)
大きな成果: ローデータから洗練された結果へ
Boxでは、お客様が日常的に行っている作業と同様のマルチモーダルコンテンツを扱う多段階の複雑なタスクで、AIモデルのパフォーマンスを評価しています。Boxの評価テストは、企業でナレッジワーカーが行う最も困難な業務をモデルにしています。
Opus 4.6が最も劇的な進化を示したのは、次の点です。
乱雑なデータをレポートに変換する
Boxのテストで最も顕著だった結果は、データからのレポート作成でした。Claude Opus 4.6は、情報統合において75%のパフォーマンススコアを達成し、Claude Opus 4.5の36%の2倍以上となりました。推論能力の39パーセントポイントの向上は、非構造化データを評価し、テンプレートに合わせて出力ドキュメントをまとめる能力に根本的な変化をもたしました。非構造化ファイルから正式なレポートを作成するすべての人にとって、画期的な成果です。
よりスマートなデューデリジェンス
デューデリジェンスとは、ビジネス上の意思決定を下す前に、事実を調査、検証して、リスクを軽減する厳格なプロセスです。たった1つの見落としが、法的または財務にな甚大な影響を及ぼす可能性がある非常に重要な高い作業です。Claude Opus 4.6は、単にキーワードを探すだけでなく、特定の基準または推定された基準に照らして情報を比較することで、複雑なデータセット間の矛盾を特定しました。デューデリジェンスにおける技術評価において、Claude Opus 4.6は51%のパフォーマンススコアを達成し、Claude 4.5の45%を上回りました。200ページにも及ぶ契約書をより厳密にレビューし、人間や低性能のAIモデルでは見逃してしまう可能性がある問題点を見つけることが可能になります。
%20(2).jpg?width=2434&height=1396&name=Box%20AI%20Enterprise%20Eval%20for%20Opus%204.6%20(Advanced%20Reasoning%20v3)%20(2).jpg)
Claude Opus 4.6を日常業務で活用する方法
Claude Opus 4.6を今すぐ活用できる方法をご紹介します。
公共機関: コンプライアンス報告の自動化
政府や公共団体では、Claude Opus 4.6が膨大の情報を評価、統合し、構造化されたドキュメントにまとめることで、膨大な報告業務を効率化できます。公共機関におけるパフォーマンススコアは、Claude Opus 4.5の68%から75%に向上し、公的記録のローデータと執行可能な政策との間のギャップを効果的に埋めます。職員は、さまざまなデータポイントを統合して書式に合わせた報告書に整理できるので、整理されていない情報ではなく、まとまった事実に基づいて意思決定できるようになります。
金融サービス: インテリジェントなトレンド分析
Claude Opus 4.6は、手作業によるデータソートから複数ソースの自動統合への移行に優れており、Claude Opus 4.5のベースライン66%に対して71%のパフォーマンスを達成しました。アナリストは、Claude Opus 4.6を使用して、社内の市場データとリアルタイムの経済指標を組み合わせて、包括的な投資サマリーを作成できます。Claude Opus 4.6は、異なる情報源を推論することで、過去のパフォーマンスと現在のトレンドの両方を考慮し、複雑な中間ステップも踏んで、企業固有のテンプレートにしたがって最終的なアウトプットを提供できます。
ライフサイエンス+ヘルスケア: 専門家レベルの分析
Claude Opus 4.6は、専門的な研究において画期的なパフォーマンスを発揮しました。ライフサイエンスおよびヘルスケア分野において64%の精度を達成しました。Claude Opus 4.5のベースライン39%から25パーセントポイントもの飛躍的な向上です。複雑な実験データと学術文献をかつてない精度でまとめることができるようになります。研究者は、複数の論文にわたる抗菌薬耐性メカニズムの解析、医療報告書の自動作成、包括的な文献レビューなど、技術書式、抄録、引用文献の一貫性を保ちながら、さまざまな研究を行うことができます。
法務部門: 高度なリスクの特定と検証
Claude Opus 4.6は、法務部門に極めて重要な厳密性を提供します。Claude Opus 4.5のベースライン45%から51%にパフォーマンスが向上しました。Claude Opus 4.6の進化は、デューデリジェンスの最も要求の厳しい側面に特化しており、AIモデルが非構造化情報を設定済みまたは推定された基準に照らし評価することで、従来のキーワード検索では見逃されていた微妙な矛盾を特定することができます。法務担当者は、Claude Opus 4.6を活用して、100ページにも及ぶ契約書の解析、複雑なデータセット間の条項の相互参照、警告サインの検出などをはるかに高い精度で行うことができるので、重要なレビューをより迅速かつ包括的に行えるようになります。
Claude Opus 4.6がBoxで利用可能に
Box AIとClaude Opus 4.6を組み合わせることで、業務のコンテキストをより深く理解できるAIの同僚が誕生します。
Claude Opus 4.6は、Box AIユーザー向けにベータ版としてご利用いただけます。
このブログは、Box, Inc.公式ブログ 2026年2月5日付投稿の翻訳です。
執筆者: Rutuja Rajwade, Senior Product Marketing Manager, Platform & AI at Box
原文リンク: https://blog.box.com/raw-data-insight-reasoning-claude-opus-46-box-ai
関連コンテンツ
- トピックス:
- Box製品情報


