AIに古いドキュメントを無視するように教える

社内のナレッジベースの上にAIアシスタントをデプロイするとこうなります：

新人エンジニアが尋ねてきた：新しいエンジニアが、"ステージング環境はどのようにセットアップすればいいのですか？" と尋ねます。

AIはドキュメントを検索し、3つの関連ドキュメントを見つけ、答えを合成し、自信を持って提示します。エンジニアはその指示に従う。最初の2つのステップはうまくいく。ステップ3では、6カ月前に非推奨となったCLIツールを参照する。ステップ4では、誰も文書化していないマイグレーション中に置き換えられたインフラセットアップについて説明している。

エンジニアは行き詰まった。チームチャンネルにメッセージを送る。誰かが言う："ああ、そのドキュメントは本当に古いですね"。AIはそれを知らなかった。AIがそれを知るはずがない。AIはただ、見つけたものすべてを取ってきて、それを真実として見せただけなのだ。

**これは、すべてのRAGシステム、すべてのAI検索ツール、そしてあなたがこれまで社内の文書で使ったことのあるLLMを搭載したアシスタントのデフォルトの動作です。彼らはすべてを取得する。彼らは区別しない。彼らは新鮮なものと古いものを区別できない。

そしてそれは、AIツールに対する信頼を、それらのツールが構築するよりも早く破壊している。

なぜAIアシスタントは品質を見抜けないのか

大規模な言語モデルと検索支援生成（RAG）システムは、クエリに意味的に関連するテキストを見つけ、そのテキストを使って答えを生成することで機能する。関連性のマッチングは通常優れており、ベクトル検索と埋め込みは、質問に関連するコンテンツを見つけることに純粋に優れている。

しかし、関連性と信頼性は同じではありません。

Kubernetesのデプロイプロセスについて2023年に書かれたドキュメントは、"本番環境へのデプロイ方法は？"という質問には非常に関連性が高い。また、2024年に別のプラットフォームに移行した場合は完全に間違っている。AIは関連するテキストを見る。リンク切れで読者数がゼロの、18ヶ月も古いドキュメントを見ることはない。

ほとんどのAIシステムは、ランキングシグナルを1つしか持っていない：**クエリとの意味的類似性。それだけだ：

この文書が最後に見直されたのはいつなのか？
この文書が最後に見直されたのはいつなのか？
この文書を実際に読んでいる人はいるのか？
コンテンツが古いとして読者からフラグが立てられていないか？
これは草案か、アーカイブされたページか、それとも最新の文書か？
複数の言語で作成されている場合、翻訳は最新か。

これらのシグナルがなければ、AIは余計なステップを踏んでキーワードマッチングを行っていることになる。印象的なキーワードマッチングであることは確かだが、基本的に、AIが返す答えが信頼できるコンテンツに基づいているかどうかを伝えることはできない。

信頼性の問題

AIツールが不確かな答えを適切な注意書きとともに提示してくれるなら、これほど危険なことはないだろう。しかし、そうではない。LLMはそうはいかない。LLMは、原文が最新のものであろうと古代のものであろうと、流暢で自信に満ちた文章を生成する。

ウィキの記事を読む人間は、それが古く見えることに気づくかもしれない。ページレイアウトが古い。スクリーンショットはもう存在しないUIを示している。一番下に "これは時代遅れです "というコメントがある。人間は判断を下すことができる。

AIにはできない。AIはテキストを読み、他のテキストと同等に処理し、権威あるように聞こえる答えを生成する。ユーザー、特に現在のプロセスを知らない新入社員は、それを疑う理由がない。

**AIが自信ありげに聞こえれば聞こえるほど、陳腐なソースが与えるダメージは大きくなる。

AIが実際に必要とするもの

AIアシスタントがあなたの知識ベースから信頼できる答えを出すためには、テキストや埋め込み以上のものが必要です。どの文書がソースとして使う価値があるかを教えてくれるメタデータが必要なのだ。具体的には

1.鮮度スコア

ドキュメントが今どれだけ健全かを表す数値信号。最終編集日ではありません。真の鮮度スコアは、レビュー状況、リンクの健全性、読者数、翻訳の整合性、文脈のドリフトを1つの数値にまとめたものです。

ある文書がしきい値（例えば、100点満点中70点）を上回ると、AIの回答ソースとして使用する資格がある。しきい値を下回ると除外される。例外はない。

このたった一つのメカニズムが、AIの誤答の中で最も危険なクラスである、古くなったソースに基づく確信犯的な誤答を排除する。

2.有効期限

この文書は現在レビュー期限内か、それとも再承認されずに期限切れか。期限切れの文書は、その内容がクエリにどれだけ関連しているかにかかわらず、優先順位を大きく下げるか、完全に除外する必要があります。

ラズパイでは、期限切れの文書にはフラグが立てられ、鮮度スコアは自動的に下がります。ナレッジベースを照会するAIシステムはこのステータスを見ることができ、それに基づいて行動することができます。

3.分類ラベル

すべての文書が同じ目的を果たすわけではない。草稿はソースとして使うべきではない。アーカイブされた文書はAIの回答に表示されるべきではない。社内専用文書は、社外向けツールからのクエリに表示されるべきではない。

分類ラベルは、AIにどのような文書を見ているかというコンテキストを与える：

発行済み** - 最新、承認済み、安全に使用できる。
草案** - 作業中、引用すべきではない。
レビュー中** - 有効期限切れ、再承認待ち
アーカイブ** - もはや有効ではない、参照用としてのみ保管される。
内部** / 外部 - 可視性の範囲を制御する。

AIアシスタントがクエリを処理する際、コンテンツの関連性を見る前に分類によってフィルタリングすることができる。クエリと完全に一致するドラフト文書は、決して回答として提供されるべきではありません。

4.言語レベルのシグナル

あなたのナレッジベースが多言語である場合、AIはそれが引っ張っているバージョンが最新であるかどうかを知る必要があります。英語のソースから3ヶ月遅れているフランス語の翻訳は、フランス語では技術的に適切ですが、情報は古いかもしれません。

ラセピは言語レベルで鮮度を追跡します。各翻訳は、その翻訳が最後に更新されてからソースブロックが変更されたかどうかに基づいて独自のスコアを持ちます。フランス語の知識ベースを照会するAIは、ある文書のフランス語版が古く、どちらかであることを知ることができます：

英語ソース（最新）にフォールバックする。
フランス語版は古いかもしれないという注意書きを含める。
文書を完全に除外する

5.読者のシグナル

複数の読者が文書に古いとフラグを立てた場合、そのシグナルはAIの回答におけるその文書のウェイトを下げるはずです。クラウドソーシングの品質シグナルはノイズが多いが、価値がある - 特に他の鮮度メトリクスと組み合わせた場合。

実際にどのように機能するか

AIアシスタントがラセピの知識ベースに問い合わせをするとどうなるか見てみましょう：

クエリ: "午前2時のP1インシデントを処理するプロセスは何ですか？"

Step 1 - フィルタリングによる検索. システムは、意味的に関連する文書を検索します。ランキングの前に、フィルタリングを行う：

鮮度スコアがしきい値以下の文書
再承認されていない期限切れの文書
下書きやアーカイブされたコンテンツ
言語バージョンが古い文書（クエリが主要言語以外の場合）

**残りの文書の中で、鮮度スコアの高いものが上位にランクされる。たとえ72点の文書が意味的類似度がわずかに高くても、94点の文書は72点の文書に勝る。

ステップ 3 - 答えの生成. AI はフィルタリングされ、鮮度ランク付けされたソースから答えを生成する。すべてのソースは、その鮮度スコアが見えるように引用されます。

ステップ 4 - 新鮮さに関する警告. 最良の利用可能なソースが境界線上の鮮度スコアを持っている場合、AI は注意書きを含めます: _"注意: この回答の主なソースは、最後にレビューされたのが 60 日前です。チームに確認してください。

これをデフォルトの動作と比較してください：関連するテキストを見つけ、自信のある答えを生成し、最善を望みます。

これをしないとどうなるか

フィルタリングされていない知識ベースで動作するAIシステムの結果は予測可能であり、高価である：

新入社員の混乱 社内のドキュメントで最も一般的なAIのユースケースは、オンボーディングである。新入社員は、定義上、何が最新で何が古いかわからない。彼らはAIを信頼する。AIはすべてを信頼する。古くなったドキュメントは、自信を持って提供される。

**AIアシスタントが古い文書を使って規制プロセスに関するガイダンスを提供した場合、そのアドバイスは間違っているだけでなく、コンプライアンス違反かもしれない。「AIに言われたから」は監査では通用しない。

**AIが間違った回答をするたびに、ユーザーの信頼は少しずつ失われていく。3、4回ひどい経験をすると、ユーザーはAIを使わなくなる。AIツールへの投資は、基礎となるコンテンツが信頼に足るものでなかったため、何の価値ももたらさない。

**シャドウ・ナレッジ.**公式の知識ベース（とその上に構築されたAI）に対する信頼を失うと、人々は自分自身で知識を創造する：Slackメッセージ、個人的なメモ、会議で共有される部族的知識。Wikiが防ぐはずだった分断は、異なるだけでとにかく起こる。

修正はモデルではなくソースにある

より良いプロンプト、より洗練されたRAGパイプライン、テキストだけからどうにかして陳腐化を検出できる微調整されたモデルなど、AIレイヤーでこれを解決しようとする誘惑がある。これは間違ったアプローチだ。

解決策はソースにある。もし文書が、鮮度スコア、有効期限切れステータス、分類、言語アライメント、読者シグナルなど、現在の状態に関する豊富で正確なメタデータを持っていれば、どんなAIシステムもそのメタデータを使ってより良い判断を下すことができる。より賢いモデルは必要ない。より賢い文書が必要なのだ。

これがラズパイが提供するものです：

すべての文書は、リンクの健全性、読者数、レビュー状況などに基づいて継続的に更新されるライブ鮮度スコア**を持ちます。
全ての文書には有効期限**があり、文書が到着するとレビューが開始されます。
すべての文書には分類**（公開、草案、レビュー中、アーカイブ）があります。
すべての言語バージョンには、独自の鮮度シグナルがあるため、古くなった翻訳は独立して検出されます。
読者フラグと相互参照追跡は、追加の品質シグナルを追加します。

AIシステムがラセピのナレッジベースに問い合わせると、これらのメタデータがすべて利用できます。AIは文書が信頼できるかどうかを推測する必要はありません。文書が教えてくれます。

実用的な出発点

もしあなたが今日、知識ベースでAIアシスタントを動かしているなら、30分で問題の評価を始めることができる：

1.**1.AIアシスタントに、あなたが答えを知っている10の質問をしてみてください。おそらく、10個のうち少なくとも2-3個は、古いコンテンツに基づいていることがわかるだろう。

2.**AIが出したそれぞれの答えについて、ソース文書を見てください。最後に見直されたのはいつですか？リンクは有効か？自分で読んでも信用できるか？

3.3.**最悪のケースを探す.**検索結果にまだ表示されている、最も古く、最も放置されている文書を見つける。AIにその文書が表示されるような質問をする。AIはそれを使うか？ほぼ間違いなく使う。

4.**AIアシスタントは1日あたり何件のクエリを処理していますか？もし20～30％の回答が陳腐なコンテンツに基づいているとしたら、無駄な時間、誤った判断、信頼の喪失という点で、どれだけのコストがかかるでしょうか？

AIアシスタントが優れているのは、その上に構築されたコンテンツだけです。今のところ、AIアシスタントのほとんどは、ナレッジ・ベース内のあらゆるドキュメントを等しく有効なものとして扱っている。昨日レビューされた文書も、2年間誰も触っていない文書も、すべてを取得し、同じ自信をもって提示する。

それはモデルの問題ではない。データ品質の問題なのだ。解決策は簡単だ。AIツールに何を信頼すべきかを伝えるメタデータを文書に与えることだ。

AIアシスタントは、18ヶ月間誰もレビューしていない文書から得た答えに自信を持つべきではない。適切なシグナルがあれば、そんなことはない。

ラセピは、すべての文書に、鮮度、有効期限、分類、言語アライメントなどの独自の信頼スコアを持たせます。AIツールはナレッジベースを照会し、コンテンツだけでなくコンテキストも取得する。信頼できる情報源は浮上する。古いものは出てこない。これが、AIを活用したドキュメントのあるべき姿だ。

ラセピとAIツールの連携はこちら→