ここ数年で、私たちが情報を探すときの方法は大きく変わりました。
少し前までは、知りたいことがあると、まず検索エンジンに入力するためのキーワードを考える必要がありました。たとえば、旅行先のホテルを探す場合は、「沖縄 ホテル 海 近い 朝食付き 子連れ」のように、頭の中にある条件を単語に分解し、検索結果を見ながら絞り込んでいくのが一般的でした。ヒット件数が多ければキーワードを足し、少なければ減らす。検索する側が、検索エンジンの作法に合わせて質問を組み立てる必要がありました。
しかし、現在は違います。「沖縄で海が近くて朝食付き、子連れでも安心な2万円以下のホテルは?」といった自然な日本語のままAIに質問できるようになりました。条件を組み⽴てて検索するのはAI側の役割となり、⼈間は「知りたいことを、知りたいまま」に聞けるようになりました。
AIの回答は、いつも正しいとは限らない
一方で、AIに質問すれば常に満足のいく答えが返ってくるわけではありません。
旅行プランを相談したところ、条件に合わないホテルが候補に混じっていたり、予算を超える選択肢が含まれていたり、古い情報をもとにした回答が返ってくる。こうした経験をしたことがある方は少なくないはずです。
このような場面に遭遇すると、多くの場合、「AIの精度がまだ足りないのではないか?」と考えがちです。もちろん、AIモデルそのものに原因があるケースもあります。しかし、実際にはそれだけではありません。むしろ、AIに渡しているデータの側に原因があるケースが多くあります。
AIが期待どおりの回答を返すためには、高性能なAIモデルを使うだけでは不十分です。AIが正しく判断できるように、必要最⼩限の正しいデータだけを渡すことが重要になります。言い換えれば、AI活用の成否は「どのAIを使うか」だけでなく、AIにどのデータを渡すか、そしてどのように渡すかによって大きく左右されます。
AIには一度に扱える情報量に限界がある
ここで重要になるのが、AIが一度に扱える情報量です。
AIには、一度に読み込める情報量の上限があります。「コンテキストウィンドウ」と呼ばれるもので、大規模言語モデル(LLM)が一度に処理、記憶できるトークン(文字や単語の単位)の最大量のことです。コンテキストウィンドウは年々拡大していますが、無限ではありません。また、上限いっぱいまで情報を詰め込めば、確実に正しく処理できるというものでもありません。
むしろ、情報を大量に渡すと、肝心な情報が埋もれて見落とされてしまいます。これは人間に置き換えると分かりやすいでしょう。ある質問に答えてほしいときに、100ページの資料を丸ごと渡されて「この中から必要な情報を探して答えてください」と言われるより、要点が整理された10ページを渡されたほうが、正確に回答しやすいはずです。
AIも同じです。情報量が多ければ多いほど良いわけではありません。重要なのは、情報の量ではなく、質と密度です。必要な情報だけが適切に絞り込まれているほど、AIは判断しやすくなります。
この問題は、ビジネスの現場ではさらに深刻になります。
企業には、契約書、稟議書、議事録、マニュアル、提案書、請求書、プロジェクト資料など、膨大なファイルが蓄積されています。たとえば、「契約書」と検索しただけで、数万件、数十万件のファイルがヒットすることがあります。これらをそのままAIに渡すことは、コンテキストウィンドウの制約を考えると現実的ではありません。
仮に分割してAIに読ませたとしても、処理に時間とコストがかかります。
つまり、ビジネスの現場でAIを実用的に活用するには、AIに渡す前の段階で、必要な情報だけに正しく絞り込む仕組みが欠かせません。ここで効いてくるのが「メタデータ」です。
AIの回答精度を高める「メタデータ」
メタデータとは、ファイルに付与された属性情報のことです。契約書を例にすると、次のような情報が該当します。
|
項目 |
例 |
|
契約ステータス |
承認済み、未承認、ドラフト、失効 |
|
契約種別 |
NDA、業務委託契約、売買契約 |
|
契約金額 |
5,000万円、1億円など |
|
締結日 |
2024年6月15日 |
|
保管期限 |
2031年6月14日 |
|
管轄部署 |
法務部、経営企画部、営業部 |
メタデータは、文書の本文とは別に、その文書に貼り付けられるラベルのようなものです。たとえば、ある契約書ファイルに対して、「ステータス=承認済み」「種別=NDA」「金額=5,000万円」「管轄部署=法務部」といったラベルが付いている状態をイメージすると分かりやすいでしょう。

メタデータがあることで、本文を一字一句読まなくても、文書を整理したり、条件に合うものだけを取り出したりできます。たとえば、「承認済みの契約書」「契約金額が1億円以上の文書」「法務部が管轄するNDA」といった検索が可能になります。これは、非構造データとして蓄積されているファイルを、AIやシステムが扱いやすい形に構造化するということです。
メタデータが付与されていると、AIの動き方も変わります。
たとえば、ユーザーが「承認済みのNDAで、1億円未満のものは?」と質問したとします。メタデータがある場合、AIはこの自然文を、次のような検索条件に変換します。
つまり、AIに渡される情報が、最初から必要最小限に絞り込まれています。
ここで重要なのは、このような検索条件は、メタデータが存在するからこそ成立するという点です。本文に対する単純なキーワード検索では、「1億円」という文字列を含む文書を探すことはできます。しかし、「契約⾦額が1億円未満」という範囲条件で絞り込むことはできません。一方、メタデータとして「契約金額」というフィールドがあれば、その値をもとに「1億円未満」という範囲条件で絞り込めます。
この違いが、AIの回答精度に大きな差を生みます。
AI活用の本質は「必要な情報だけを渡す」こと
AIの回答精度を高めようとすると、つい「より高性能なAIモデルを使う」方向に目が向きがちです。もちろん、AIモデルの性能は重要です。しかし、それだけでは十分ではありません。AIが正しく答えるためには、AIが判断に使うデータそのものが適切である必要があります。
情報を大量に渡せば、AIはその中から必要な情報を探し出さなければなりません。反対に、必要な情報だけを高い密度で渡せば、AIはより正確に回答しやすくなります。
そのために有効なのが、「メタデータ」なのです。
次回は、このメタデータの有無によってAIの回答精度がどれほど変わるのかを、実際の検証結果をもとに見ていきます。
関連コンテンツ
- トピックス:
- AIリサーチ
