正答率 94% vs. 10%: 同じAIでも、渡すデータでここまで変わる

前回は、AIの回答精度を左右する要因として、「AIモデルの性能」だけでなく「データの渡し方」が重要であることを紹介しました。

AIには一度に読み込める情報量（コンテキストウィンドウ）に上限があります。そのため、大量の情報を渡してしまうと、必要な情報が埋もれ、回答精度が下がる可能性があります。AIに渡す情報を正しく絞り込むのに有力な手段が、「メタデータ」です。

今回は、メタデータがある場合とない場合でAIの回答精度にどれほど差が出るのかを、検証結果をもとに紹介します。

検証の構成

メタデータの有無によるAIの回答精度の差を検証するために、専用のデータセットを準備しました。データセットは、契約書、稟議書、取締役会議事録など500件以上の企業コンテンツ（ダミーファイル）で構成されています。データセットには、正解となるファイル30件のほかに、内容が似通ったファイル、内容を混同しそうなファイル、無関係のファイルが含まれています。回答精度の差を検証するために、2つのデータセットを用意し、一方だけに正解となるファイル30件にメタデータを付与しました。

メタデータフィールド	値の例
契約ステータス	承認済み、未承認、ドラフト、失効
契約種別	NDA、業務委託契約、売買契約
契約金額	5,000万円、1億円など
締結日	2024年6月15日
保管期限	2031年6月14日
管轄部署	法務部、経営企画部、営業部

検証用に50件のユーザープロンプトを用意し、プロンプトごとに検索結果として返ってくるべき正解ファイルセット30件をどれだけ正確に抽出できるかを比較しました。プロンプトの例は、次の通りです。

承認済みのNDAで1億円未満のもの
2026年中に保管期限が来る契約書
ドラフト段階の稟議書

ユーザープロンプトからのキーワード検索のキーワード生成とメタデータ検索の検索条件生成には、Claude Haiku 4.5を使用しました。AIが生成した検索条件を用いて、Boxのキーワード検索とメタデータ検索をそれぞれ実行して、回答精度を比較しました。

キーワード検索: AIで生成したキーワードを使用して、メタデータが付与されていないデータセットに対してBoxのファイル検索を実行
メタデータ検索: AIが生成したメタデータ検索条件を使用して、メタデータが付与されたデータセットに対してBoxのメタデータ検索を実行

各プロンプトについて、取得結果の上位10件の中に、事前定義した正解ファイルセットのファイルがすべて含まれていれば「正解」、1件でも取りこぼした場合は「不正解」として、50件全体の正答率を集計しました。

検証の全体像

結果は、94% vs 10%

検証結果は、歴然でした。

正答率の比較

メタデータ検索では、50問中47問が正解（正答率 94%）でした。一方、キーワード検索では、50問中5問しか正解（正答率 10%）となりませんでした。

この検証結果は、メタデータ検索を用いれば意図したファイルを正確に抽出できることを示していますが、今回の検証結果で重要なのは、94%と10%という数字そのものだけではありません。

本質的な差は、メタデータという属性条件を扱えるかどうかにあります。たとえば、「承認済みのNDAで1億円未満のもの」という問いには、少なくとも3つの条件が含まれています。

承認ステータスが承認済みであること
文書種別がNDAであること
契約金額が1億円未満であること

メタデータがあれば、これらはそれぞれ独立したフィールドとして扱えます。したがって、検索条件として明確に指定できます。

一方、キーワード検索では、「承認済み」「NDA」「1億円」という文字列が本文やファイル名に含まれているかどうかを手がかりにするしかありません。しかし、本文中に「1億円」と書かれていたとしても、それが契約金額なのか、違約金なのか、説明上の例示なのかは分かりません。「承認済み」という言葉があっても、それが契約ステータスを示しているのか、稟議や発注に関する記述なのかは判別できません。

つまり、キーワード検索では、属性条件を厳密に扱うことが原理的に難しいのです。これに対して、メタデータ検索では「契約金額フィールドの値が1億円未満」「承認ステータスフィールドの値が承認済み」といった条件で検索できます。

ここに、正答率94%と10%を分けた理由があります。

メタデータがAIの性能を引き上げる

メタデータ検索の効果は、単に検索結果が正確になることだけではありません。AIに渡される情報が必要最小限になることで、AIのコンテキストウィンドウを効率よく使えるようになります。

無関係なファイルが大量に混じった状態では、AIはそれらを読みながら、どれが重要でどれが不要かを判断しなければなりません。この過程で処理負荷が高まり、誤ったファイルを根拠に回答してしまう可能性もあります。

一方、メタデータ検索によって条件に合致するファイルだけを取得できれば、AIは最初から質と密度の高い情報を参照できます。その結果、AIは本来の性能を発揮しやすくなります。

AIの回答精度を高めるには、AIそのものを賢くするだけでなく、AIが参照する情報を正しく整えることが重要です。

ただし、メタデータは万能ではない

ここまでの結果を見ると、メタデータ検索がキーワード検索より常に優れているように見えるかもしれません。しかし、それは正確ではありません。

たとえば、「この契約書の解除条件は何か？」「取締役会で特定のテーマについて何が議論されたか？」といった問いは、文書の本文を読まなければ答えられません。このような問いに対しては、メタデータだけでは不十分です。また、メタデータは設計、付与、維持にコストがかかります。すべてのファイルにメタデータを付与することは、現実的ではない場合が多いでしょう。

したがって重要なのは、メタデータ検索とキーワード検索の二者択一で捉えることではありません。それぞれの得意領域を理解し、使い分けることです。

次回は、メタデータ検索とキーワード検索をどのように使い分けるべきか、そして実務でメタデータ整備をどこから始めるべきかを整理します。

正答率 94% vs. 10%: 同じAIでも、渡すデータでここまで変わる

検証の構成

結果は、94% vs 10%

メタデータがAIの性能を引き上げる

ただし、メタデータは万能ではない

関連コンテンツ

RECENT POST「AIリサーチ」の最新記事

Box Forward Deployed Engineers: 眠っているコンテンツをAIで“価値ある資産”へ

AIの回答精度を左右する「データの渡し方」

アーロン・レヴィとGoogleのラオ・スラパネニ氏が語るガバナンス、セキュリティ、そしてエージェント時代

AI変革の真の姿