Box AIとMCPによるOCRを活用したメタデータ抽出

Box AIに、開発者が知っておくべき重要な機能が搭載されました。構造化メタデータの抽出エンドポイントにおける画像ファイルのOCR対応です。これは単なるマーケティングの話ではありません。前処理のステップを不要にし、Box AI APIでできることを広げる実用的な機能強化です。

変更内容
重要である理由
領収書処理システムの構築
技術的な注意事項
Box Community MCPサーバーを使用した開発
実用化
はじめましょう
まとめ

変更内容

これまでは、スキャンしたドキュメントや画像から構造化データを抽出したい場合、まずPDFに変換する必要がありました。現在、Box AIの抽出 (構造化) エンドポイントでは、以下を直接処理できます。

TIFF、PNG、JPEGファイルと既存のPDFサポート
複数の言語: 英語、日本語、中国語、韓国語、キリル文字のスクリプト

これは、抽出 (構造化) エンドポイント (標準) と抽出 (構造化) エンドポイント (強化) の両方で機能します。なお、抽出 (自由形式) APIにOCRは含まれていません。なお、抽出 (自由形式) APIにOCRは含まれていません。フィールドやテンプレートを定義する抽出 (構造化) APIが対象です。

重要である理由

開発の観点から見た場合、この機能により、ワークフローから変換のステップがなくなることになります。スキャンした領収書、請求書、フォーム、または画像ベースのドキュメントは、直接、抽出パイプラインに進めることができるため、日本語、中国語、韓国語、ロシア語圏の市場向けのアプリケーションでは、これまで実現不可能だったメタデータ抽出のユースケースが可能になります。

領収書処理システムの構築

実際の仕組みを紹介します。ここでは、Box Community MCPサーバー (セルフホストBox MCPサーバー) を使用します。Model Context Protocolの実装により、Claudeで直接Box APIを操作できるようになります。

シナリオ

処理して分類する必要のあるレストランの領収書の画像が5枚あります。手動でメタデータ構造を定義するのではなく、Box AIに画像を分析させ、適切なスキーマを提案させた後、そのスキーマを使用してすべての領収書からデータを抽出します。

0_nZDUBZLgS5QUy5nU

Boxに保存されている架空のレストラン請求書

ファイルの特定

まず、領収書の画像が含まれているフォルダを探す必要があります。

0_rJ4BnZS4CDDOAorc

ClaudeでOCRフォルダを探してそのコンテンツのリストを取得

MCPサーバーのbox_search_folder_by_name_toolとbox_list_folder_content_by_folder_idにより、これは容易になります。これで、領収書の画像5枚すべてのフォルダIDとファイルIDを取得できました。

メタデータテンプレートスキーマの生成

ここからが面白いところです。フィールドを手動で定義するのではなく、Box AIに対して、これらの画像を分析してメタデータ構造を提案するよう依頼します。

0_DUl5rHBbvPsfW1sz

Box AIを使用して画像を分析し、メタデータテンプレート構造を提案

Box AIは画像を調査して、以下のようなフィールドを提案します。

レストラン名
日付
総額
支払い方法
説明や価格を含む明細項目
税額やチップの金額

AIは、その分野のコンテキストを理解し、適切なフィールドの種類 (文字列、日付、浮動小数点、支払い方法を表す列挙型) を提案します。

メタデータテンプレートの作成

MCPサーバーのbox_metadata_template_create_toolを使用すると、この提案から実際のBoxメタデータテンプレートを作成できます。

0_lUlL39X-jXoA2BSV

Box AIの提案に基づいてメタデータテンプレートを作成

テンプレートは、Boxの管理コンソールで利用できるようになります。

0_Vz0_vBgDj-FZ10PM

Box管理コンソールに表示される、作成されたメタデータテンプレート

すべての画像からのデータの抽出

ここからがクライマックスです。領収書の画像ごとに、OCRを利用したBox AIの抽出 (構造化) エンドポイント (強化) を使用します。

0_0teIKcRCAU8y-9i_

新しく作成したテンプレートを使用して各ファイルからデータを抽出

box_ai_extract_structured_enhanced_using_template_toolは、各画像を処理し、OCRを適用して、テンプレートスキーマに従ってデータを抽出します。エンドポイント (強化) では、複雑なレイアウトでの精度向上のために、より高度なモデル (GoogleのGeminiなど) を使用します。

メタデータの適用

最後に、抽出したデータをメタデータインスタンスとして各ファイルに適用します。

0_UtRqTJukuyJPNrq4

5ファイルすべてにメタデータを適用

Boxウェブアプリに表示される結果は以下のとおりです。

0_dlE1g4GBVS1ajpIn

Boxアプリに表示されるドキュメントのメタデータ

各領収書には、画像から直接抽出された、検索可能な構造化メタデータが設定されています。

技術的な注意事項

APIエンドポイント

OCR機能は以下のエンドポイントで利用可能です。

POST /2.0/ai/extract_structured (抽出 (標準)、高度なモデルを使用した抽出 (強化))

どちらにも、TIFF、PNG、JPEG、PDFファイルを指すfile_idsを使用できます。

言語のサポート

OCRエンジンは以下の言語を自動的に検出して処理します。

英語
日本語
簡体字中国語および繁体字中国語
韓国語
キリル文字のスクリプト (ロシア語、ウクライナ語など)

言語パラメータは不要で、検出は自動的に行われます。

制限事項

抽出 (自由形式) (POST /2.0/ai/extract) にOCRは含まれていません。
定義済みのフィールドやテンプレートを使用した抽出 (構造化) を使用する必要があります。
OCRの品質は画像の解像度や鮮明さに応じて異なります (他のOCRシステムと同様)。

Box Community MCPサーバーを使用した開発

Box Community MCPサーバー (セルフホストBox MCPサーバー) は、Claudeや他のMCPクライアントを介してBox AI機能への便利なアクセスを提供します。今回紹介した主なツールを以下に示します。

box_search_folder_by_name_tool - 名前でフォルダを検索する
box_list_folder_content_by_folder_id - フォルダのコンテンツのリストを取得する
box_ai_ask_file_multi_tool - 複数のファイルについてBox AIに質問する
box_metadata_template_create_tool - メタデータテンプレートをプログラムで作成する
box_ai_extract_structured_enhanced_using_fields_tool - カスタムフィールドを使用して抽出する
box_ai_extract_structured_enhanced_using_template_tool - あらかじめ定義されたテンプレートを使用して抽出する
box_metadata_set_instance_on_file_tool - ファイルにメタデータを適用する

MCPサーバーが認証やAPIの複雑な処理に対応するため、機能の開発に注力することができます。

実用化

OCR対応の抽出 (構造化) を使用すると、以下を開発できます。

スキャンした請求書からベンダーの情報、明細項目、総額を抽出する請求書処理システム
経費追跡アプリケーション向けの領収書管理
フォームから重要なフィールドを抽出するドキュメント分類パイプライン
グローバルな業務に対応した多言語ドキュメントの処理
ユーザーがアップロードした画像からの自動データ入力

はじめましょう

Box AIの設定: BoxインスタンスでBox AIが有効になっていることを確認する
メタデータテンプレートの作成: データスキーマを定義するか、Box AIを使用して提案する
抽出APIの呼び出し: 画像ファイルIDとテンプレートキーを渡す
結果の処理: APIによって、テンプレートに一致する構造化されたJSONが返される

詳細なAPIドキュメントについては、DeveloperドキュメントのBox AIを参照してください。

MCPサーバーのアプローチを試したい方は、Box Community MCPサーバー (セルフホストBox MCPサーバー) リポジトリをご確認ください。

まとめ

Box AIの抽出 (構造化) エンドポイントにOCRを追加すると、前処理でよくあるボトルネックが解消されます。これで、変換のステップなく、画像をネイティブに処理するドキュメント処理ワークフローを構築できるようになりました。さらに、メタデータテンプレートをプログラムで作成する (またはBox AIに提案してもらう) 機能を組み合わせることで、インテリジェントなドキュメント管理システムの柔軟な基盤が構築されます。

本当の価値はテクノロジそのものではなく、そのテクノロジを使って何を構築できるかにあります。PDFの変換ステップをなくし、複数言語をサポートすることは、アーキテクチャにおける不確定要素が減り、市場全体での適用性が広がることを意味します。

ぜひご活用ください。