企業は、契約書、請求書、請求書類など企業に蓄積されたすべての非構造化ファイルから重要なデータポイントを抽出するために、毎年数百億ドルも費やしています。手作業によるデータ入力は、従業員一人あたり年間数千ドルのコストをかかることがあり、作業の大幅な遅れ、重大なミス、データ損失の可能性も招きます。
テクノロジーの進化は、生成AIによって解き放たれます。テクノロジーが初めて人間と同じようにテキストを理解できるようになりました。しかし、エージェント型AIだけでは問題を完全には解決できません。文書をLLMにアップロードして正確なメタデータ抽出を期待するのは、優秀なアナリストがいるにもかかわらず、ファイリングシステムも品質管理もなく、過去にレビューした内容の記憶もないようなものです。
企業が実際に必要としているのは、コンテンツ管理プラットフォーム上で動作するAIエージェントです。文書を体系的に分析し、レイアウトや構造を理解し、コンプライアンス部門が求めるガバナンスフレームワークを維持できる専門的なシステムです。そして、メタデータ抽出はほんの始まりに過ぎません。ファイルを保存し、構造化データを非構造化ソース文書に関連付け、コラボレーションや後続のワークフローで、双方を利用できるようにする必要があります。
Boxは、これらを実現するために、高度なレイアウト理解、焦点を絞ったコンテキスト生成、そして標準的な手法よりも精度が高いカスタマイズされた思考の連鎖(CoT)推論など、一連の技術的イノベーションを開発してきました。これらのイノベーションがなぜ重要なのか、そしてどのように機能するのかをご説明します。
IDP(インテリジェント文書処理)からAIエージェントへ: メタデータ抽出の進化
メタデータ抽出の市場は現在、3つの異なるカテゴリーに分かれており、それぞれ根本的に異なるアーキテクチャとトレードオフを持っています。
1. 従来のインテリジェントドキュメント処理(IDP)
従来のIDPプラットフォームは、機械学習を用いて文書を分類し、指定されたフィールドを抽出します。高い精度を実現できるのは、レイアウトが統一された文書に限られ、綿密なトレーニングが必要です。
「これまで、これらのシステムは限られた特定の文書タイプに基づいていました。通常、非常に膨大な文書を処理する場合にのみこの方法を採用し、他の文書から価値のあるデータを抽出する機会を逃していました」と、Boxの最高技術責任者(CTO)であるベン・クス(Ben Kus)は説明します。
2. シングルショットLLM抽出
2023年以降、大規模言語モデルが画期的な進歩をもたらしました。カスタムトレーニングなしで柔軟なメタデータ抽出が可能になったのです。今日のほとんどのAIモデル(Anthropic、OpenAI、Googleへの直接API呼び出しを含む)は、この基本的な機能を備えています。手法はシンプルです。ドキュメントをアップロードし、AIモデルに特定のフィールドを抽出するように指示して、JSON出力を受け取るだけです。
しかし、基本的なLLM手法では、企業の要件を満たすのは困難です。
- 多種多様な書式への対応: AIモデルは通常、情報がテキストまたはマークダウン形式で提示された場合に最も効果的に機能しますが、企業は様々な種類の文書(PDFにスキャンした文書、画像、複雑な表など)を使っているので、LLMを混乱させ、場合によっては動作しない場合もあります
- 精度の確保: AIモデルはメタデータを抽出することはできますが、この作業に特化して構築されているわけではないので、信頼性と精度の高い結果を提供し、ハルシネーションを回避するには、丁寧なプロンプトが必要です
- 大規模な管理: 数千件の文書を処理するには、API呼び出しだけでは提供できないオーケストレーション、エラー処理、コスト管理が必要です
- コンテキストの制限: 最も重要な情報の中には、契約書、リース契約書、プロジェクト計画書、調査文書など、長くて複雑なものがあり、数百ページ以上に及ぶこともあります
- テクノロジーの進化: AIモデルのアップデートによって、メタデータ抽出の挙動が暗黙的に変更される可能性があります。企業は基盤となるAIモデルを抽象化する必要があります
- セキュリティとコンプライアンス要件の遵守: AIモデルを使用する際は、FedRAMPやHIPAなどの認証に準拠し、安全かつコンプライアンスを遵守した方法で使用できる必要があります
3. エージェント型抽出
3つ目の手法は、AIテクノロジーの力を活用します。LLMを1回だけ適用する(多くの場合、不安定で不正確)のではなく、エージェント型AIの力を活用することで、正確で柔軟なアプローチが可能になります。AIエージェントはAIモデルのインテリジェンスを活用して、文書を理解するだけでなく、最適なメタデータ抽出方法を見つけ出すことができます。たとえば、次のようなことができます。
- 複雑なフィールドにより多くの時間を費やす
- 精度を上げるために回答を相互参照する
- 回答の妥当性に確信が持てない場合は、思考と推論を行う
この手法は、非構造化データから情報を抽出するという現実世界の課題に人間が取り組む方法と似ています。
![]()
AIエージェントはAIモデルのインテリジェンスを活用して、文書を理解するだけでなく、最適なメタデータ抽出方法を見つけ出すことができます。
Box 最高技術責任者(CTO) ベン・クス(Ben Kus)
「ある時点で、取得ようとしているものの複雑さ(フィールドの数やフィールドごとの指示)があまりにも複雑になりすぎて、期待通りに機能しなくなります。では、どうすればいいのか? AIエージェントを作成するのです。単にデータを調べて取り出すだけでなく、分解して、いくつかのフィールドを取得し、グレーダーに作業を確認させるのです」と、ベンは言います。
これらのAIエージェントは、人間のように推論することができます。さまざまな種類の文書をより深く理解できます。契約書の条項を単に抽出するだけでなく、「リスクがある」かどうかを評価することも可能です。より複雑な問題については、「より深く考える」こともできます。そして、ほかのAIエージェントが作業内容を再確認して、部署の一員として働くこともできます。
AIを活用したメタデータ抽出の技術的原理
コンセプトは単純明快ですが、エンジニアリングはそうではありません。数百万もの文書、数十種類もの書式、そして厳格なコンプライアンス要件をカバーし、企業全体で高い品質で動作するエージェント型メタデータ抽出を構築するには、特定のアーキテクチャを選択する必要があります。Boxは、これを可能にする3つの技術的原理を開発しました。それぞれが、LLMに素の文書を送信する際の根本的な制約を解決します。
原理1: レイアウトの理解
従来のOCRはスキャンした文書を機械で読みやすいテキストに変換しますが、出力されるのは文書構造を理解していない文字列の羅列です。表は値がごちゃごちゃになり、 複数の列を持つ書式は判読不能な文字列になります。
「画像でもPDFでも、あらゆる文書を受け取ると、OCRでテキスト表現を抽出します。レイアウト認識機能も備わっています。どのようなコンテンツブロックが存在するかを特定します。段落、表、手書き文字、画像、グラフなど、8〜9種類のコンテンツがあります。そして、その場所を正確に把握します。署名欄のサインが手書きであれば、そのタイプのブロックを正確に特定できます」と、Boxでエージェント型AIのプロダクトリーダーを務めるノーバート・ラウス(Norbert Raus)は説明します。
AIエージェントは、手書き文字からのテキスト抽出、複雑な表の解析、詳細なチャート分析などの複雑な処理をこなせます。オーケストレーションレイヤは各コンポーネントを適切なスペシャリストにルーティングして、結果を再構成します。
![]()
AIエージェントは、手書き文字からのテキスト抽出、複雑な表の解析、詳細なチャート分析などの複雑な処理をこなせます。
エージェント型AI担当プロダクトリーダー ノーバート・ラウス(Norbert Raus)
原理2: AIモデルを支援するコンテンツのインテリジェントな前処理
50ページもの契約書をLLMにアップロードして、支払い条件を探すように指示すると、AIモデルは関連する段落を見つけるために文書全体を処理する必要があります。読み取る内容の大部分(当事者名、定型文、署名欄、添付資料など)は余計な情報で、精度を低下させ、コストを増加させます。
エージェント型メタデータ抽出は、この単発的な手法を逆転させます。すべてをAIモデルに送信するのではなく、専門的なAIエージェントがまず、抽出対象の各フィールドに関連する文書の部分を特定します。これは、以下の2つの方法によって可能になります。
- 固有表現抽出(NER): 個人、組織、場所、日付に関する情報を含むフィールドを特定し、関連コンテンツの優先順位付けを容易にします
- モデルベースチャンクリランキング: 文書レイアウトやフィールド要件を用いて最も関連性の高いセクションを優先順位付けします。50ページの契約書で住所を検索する際、「住所」といった見出しの下にある郵送先住所のような形式のテキストにより重みを置きます
その結果、外部LLMに送信されるコンテキストウィンドウはより小さく、より焦点を絞ったものとなり、精度が向上し、APIコストも削減できます。「LLMにより小さく、より焦点を絞ったコンテキストを提供することで、はるかに良い結果が得られます。回答は安定していて、異なる呼び出し間でも変わりません。これが基本原理の1つです」と、ノーバートは述べています。
![]()
より小さく、より焦点を絞ったコンテキストを外部LLMに送信することで、精度が向上し、APIコストも削減できます。
エージェント型AI担当プロダクトリーダー ノーバート・ラウス(Norbert Raus)
原理3: エージェント型推論
エージェント型メタデータ抽出の重要な機能の1つが、自己修正です。文書を一度処理して結果を返すLLMの基本的な手法とは異なり、エージェント型システムは次に何をすべきかを推論し、いつ処理を再確認すべきかを把握します。
「まずはじめに、コンテンツの種類に適したAIエージェントを選び、情報を抽出します。すると、AIエージェントは、『この指示は曖昧ではないか? 適切なコンテキストを使用しているか? 別のツールやAIエージェントを試してた方がいいかもしれない』と、自問します。エージェント型アプローチは、結果を返す前にできる限り疑問を解決しようとします」と、ノーバートは説明します。
![]()
LLMの基本的な手法とは異なり、エージェント型システムは次に何をすべきかを推論し、いつ処理を再確認すべきかを把握します。
エージェント型AI担当プロダクトリーダー ノーバート・ラウス(Norbert Raus)
Boxは、この反復的推論を思考の連鎖(CoT)プロンプトをカスタマイズして強化しています。「メタデータ抽出を非常に具体的かつ堅牢する、BoxのLLMへのプロンプト組み込み方法には、知的財産権(IP)があります」と、ノーバートは述べています。その結果、特に論理的推論が求められるフィールドでは、標準的な手法に比べて最大10パーセントポイントの精度向上が実現しました。たとえば、明示的に記載されていない契約終了日を決定する場合、AIエージェントは契約期間、更新条項、発効日に基づいて推論し、最初の試みが不確かな場合は複数のアプローチを試みます。
CIOにとって重要な理由
肝心なのは、 3つの原理が組み合わさることで、レイアウトを理解して関連するコンテンツタイプを選択でき、適切なAIエージェントとパラメータの組み合わせによって精度が向上し、優れた抽出結果が得られることです。
この成果は、あらゆる企業にとって驚くべきものです。保険会社は、請求処理で、手書きのメモ、損傷の写真、スキャンした書類から、単一のワークフローでメタデータを抽出できます。銀行は、ローン申請書を分析し、支払い履歴と雇用状況の説明が併記された複雑な表を解析できます。異なるコンテンツタイプを専門のAIエージェントにルーティングできるので、一貫性のある整った文書だけでなく、実際に受け取るさまざまな形式の文書を処理できます。
コンテンツのインテリジェントな前処理により、法務部門は、数千件の契約書をスキャンして、更新が必要な契約書や例外条件を含む契約書を迅速に特定できます。契約書の全ページをLLMに送信するコストもかかりません。購入契約書をレビューする最高財務責任者(CFO)は、数千件の契約書から重複しているベンダーを特定することができます。
また、焦点を絞ったコンテキスト作成機能が関連セクションのみをAIモデルに送信するので、文書の他の部分にある機密情報はBoxの安全な環境から外に出ることがなく、データ漏洩リスクを低減し、コンプライアンスレビューを簡素化できます。この手法により、メタデータ抽出を経済的にも運用的にも企業全体に展開可能となります。また、曖昧さを推理し、自己修正できる抽出システムは、人間のレビュー担当者の負担を軽減し、すべてのフィールドをチェックするのではなく、本当に難しいものだけに集中できるようになります。
メタデータ抽出にはコンテンツ管理プラットフォームが必要
スタンドアロンのメタデータ抽出ツールには、根本的な制約があります。抽出されたメタデータはどこかに保存しなければならず、元の文書との関連付けを維持する必要もあります。
「他のシステムでは、メタデータをデータベースに保存して、手作業で相互照合させるソリューションをカスタム開発する必要があります。Boxは、非構造化データの保存、メタデータの抽出、抽出したメタデータの保存、さらにメタデータの検索まで、すべて同じシステム内で行うことができます」と、ベンは述べています。
![]()
Boxは、非構造化データの保存、メタデータの抽出、抽出したメタデータの保存、さらにメタデータの検索まで、すべて同じシステム内で行うことができます。
最高技術責任者(CTO) ベン・クス(Ben Kus)
ネイティブな統合はガバナンスの問題も解決します。Boxは、ユーザーがアクセスできる文書のみからメタデータを抽出できます。抽出されたメタデータは、ソースファイルと同じ権限を継承します。そして、抽出されたメタデータは、カスタム統合を必要とせずにダッシュボード、検索、ワークフロー自動化に活用できます。
「結局のところ、重要なのはプロセスを信頼できるかどうかです。なぜなら、それがエージェント型AIを機能させる唯一の方法だからです」と、Boxでエージェント型AIワークフローのプロダクトマネジメント担当バイスプレジデントを務めるケラッシュ・クマール(Kelash Kumar)は言います。
コンテンツからコンテキストへ
企業データの90%が、非構造化ファイルに閉じ込められています。生成AIは、コンテンツを理解する能力を生み出しました。しかし、理解するだけでは不十分です。企業は正確で、管理され、実際の業務プロセスに統合されたメタデータ抽出を必要としています。
![]()
企業は正確で、管理され、実際の業務プロセスに統合されたメタデータ抽出を必要としています。
エージェント型AIワークフロープロダクトマネジメント担当バイスプレジデント
ケラッシュ・クマール(Kelash Kumar)
そのためには、AIモデルだけでなく、AIエージェントも必要です。文書を一括で処理するのではなく、体系的に推論するAIエージェントです。レイアウトや構造を理解するAIエージェントです。コンテンツプラットフォーム自体のセキュリティおよびコンプライアンスのフレームワーク内で動作するAIエージェントです。
「Boxが行っているのは、コンテンツを構造化し、実用的なものにすることです。そのアクションは、業務プロセスの自動化かもしれないし、 AIを組み込んだ新しい業務プロセスを構築かもしれません。いずれにせよ、Box Extractこそがその力を解き放つカギなのです」と、ケラッシュは語ります。
Box Extractでコンテンツ内の重要なデータの引き出す方法の詳細は、こちらをご参照ください。
※このブログは Box, Inc 公式ブログ(https://blog.box.com/)2026年1月14日付投稿の翻訳です。
著者: Nick Johnson, Head of Content Marketing, Box
原文リンク: https://blog.box.com/why-enterprise-grade-metadata-extraction-requires-ai-agents-not-just-llms
関連コンテンツ
- トピックス:
- Box製品情報


