教会人工智能忽略陈旧的文档

以下是在内部知识库基础上部署人工智能助手时发生的情况：

一位新工程师问"如何设置暂存环境？"

人工智能会搜索你的文档，找到三份相关文档，合成一个答案，并自信地给出它。工程师按照指示操作。前两个步骤成功了。第三步引用的 CLI 工具在六个月前就已过时。第四步描述了一个在迁移过程中被替换的基础架构设置，但没有记录在案。

工程师被卡住了。他们在团队频道留言。有人说："哦，那个文档真的很老了。人工智能并不知道这一点。它不可能知道它只是把找到的东西都拿来当作事实。

**这是每一个 RAG 系统、每一个人工智能搜索工具，以及每一个你在内部文档中使用过的 LLM 驱动的助手的默认行为。它们获取一切。它们不加区分。它们分不清新鲜和陈旧。

这种情况正在摧毁人们对人工智能工具的信任，其速度比人工智能工具建立信任的速度还要快。

为什么人工智能助手对质量视而不见？

大型语言模型和检索增强生成（RAG）系统的工作原理是找到与查询语义相关的文本，然后利用这些文本生成答案。相关性匹配通常非常出色--矢量搜索和嵌入在寻找与问题相关的内容方面确实很有一套。

但相关性并不等于可靠性。

一份写于 2023 年的关于 Kubernetes 部署流程的文档与 "如何部署到生产环境？"这个问题高度相关。如果你在 2024 年迁移到了另一个平台，那么它也是完全错误的。人工智能看到的是相关文本。人工智能看到的是相关的文本，而不会看到已经过期 18 个月、链接已损坏、读者为零的文档。

大多数人工智能系统只有一个排名信号：**与查询语义相似。它们不会检查

这份文件最后一次被审查是什么时候？
其中的链接是否仍然有效？
是否有人真正在阅读这份文档？
内容是否被读者标记为过时？
这是草稿、存档页面还是当前文档？
如果有多种语言版本，翻译版本是否是最新的？

如果没有这些信号，人工智能在进行关键词匹配时就会增加额外的步骤。关键词匹配的确令人印象深刻，但从根本上说，它无法告诉你它给出的答案是否基于你可以信赖的内容。

信心问题

如果人工智能工具在给出不确定的答案时加上适当的注意事项，这就不会那么危险。但它们没有。LLM不是这样工作的。无论源材料是当前的还是古代的，它们都能生成流畅、自信的文本。

人类在阅读维基文章时可能会注意到它看起来过时了。页面布局陈旧。截图显示的用户界面已不复存在。底部的注释说 "这是过时的"。人类可以做出判断。

人工智能却不能。它读取文本，将其等同于其他文本进行处理，然后生成一个听起来很权威的答案。用户，尤其是不了解当前流程的新员工，没有理由怀疑它。

**人工智能听起来越自信，陈旧的原始材料就会造成越严重的损害。

人工智能的实际需求

要让人工智能助手从你的知识库中给出值得信赖的答案，它需要的不仅仅是文本和嵌入。它需要元数据来告诉它哪些文档值得用作来源。具体来说

1.新鲜度得分

表示文档当前健康程度的数字信号。而不是最后一次编辑的时间--那只是一个输入值。真正的新鲜度得分是将评论状态、链接健康度、读者群、翻译对齐度和上下文漂移等综合为一个数字。

当一份文档的得分高于一个阈值（比如满分 100 分中的 70 分）时，它就有资格被用作人工智能答案的来源。低于该阈值，则被排除在外。没有例外。

这种单一机制消除了最危险的人工智能错误类别：基于陈旧来源的自信错误答案。

2.过期状态

该文件目前是在审查窗口内，还是已经过期而没有重新批准？无论过期文件的内容与查询的相关性有多大，都应严重降低其优先级或将其完全排除在外。

在 Rasepi 中，过期文档会被标记，其新鲜度分数也会自动下降。查询知识库的人工智能系统可以看到这一状态，并据此采取行动。

3.分类标签

并非每份文档都有相同的用途。草稿不应作为资料来源。存档文件不应出现在人工智能答案中。仅供内部使用的文档不应出现在面向外部工具的查询中。

分类标签能让人工智能了解它正在查看的文档类型：

已发布** - 当前、已批准、可安全使用
草稿** - 工作进行中，不应引用
审查中** - 过期，等待重新批准
存档** - 不再有效，仅供参考
内部**/外部** - 控制可见性范围

人工智能助手在处理查询时，可以在查看内容相关性之前先按分类进行过滤。与查询完全匹配的草稿文件永远不会作为答案提供。

4.语言级信号

如果您的知识库是多语种的，那么人工智能就需要知道它所提取的版本是否是最新的。比英语版本晚三个月的法语翻译在技术上与法语相关，但信息可能已经过时。

Rasepi 在语言层面跟踪新鲜度。每个译文都有自己的分数，其依据是译文源块自上次更新以来是否发生了变化。人工智能在查询法文知识库时，会发现法文版本的文档已经过时，要么是 "不新鲜"，要么是 "过时"：

回退到英文源（英文源是最新的）
加入法文版本可能已经过时的注意事项
完全排除该文档

5.读者信号

如果有多个读者将某文档标记为过时，那么该信号应降低该文档在人工智能响应中的权重。众包质量信号会产生噪音，但它们很有价值--尤其是与其他新鲜度指标相结合时。

##实际操作

让我们来看看人工智能助手查询 Rasepi 知识库时会发生什么：

查询： "我们在凌晨 2 点处理 P1 事件的流程是什么？

第1步--过滤检索 系统搜索语义相关的文档。在排序之前，它会过滤掉

新鲜度得分低于阈值的文档
过期且未重新批准的文档
草稿和存档内容
语言版本过时的文档（如果查询使用的是非主要语言）

第 2 步--新鲜度加权排序 在剩余的文档中，新鲜度得分越高的文档排名越靠前。即使 72 分的文档语义相似度稍高，94 分的文档也比 72 分的文档排名靠前。

第 3 步--生成答案 人工智能会根据过滤后的新鲜度排名来源生成答案。在引用每个来源时，都会显示其新鲜度得分。

第 4 步 - 僵化警告。 如果最佳可用来源的新鲜度得分处于边缘状态，人工智能就会发出警告：_"注意：本答案的主要来源最近一次审核是在 60 天前。您可能需要向团队进行核实。

将此与默认行为进行比较：查找相关文本，生成有把握的答案，期待最佳结果。

如果不这样做会出现什么情况

人工智能系统在未经过滤的知识库上运行的后果是可以预见的，而且代价高昂：

新员工的困惑* 内部文档最常见的人工智能用例是入职培训。顾名思义，新员工不知道什么是最新的，什么是过时的。他们信任人工智能。人工智能信任一切。陈旧的文档可以放心送达。

合规风险 如果您的人工智能助手使用过时的文件为监管流程提供指导，那么这些建议可能不仅是错误的，而且可能是不合规的。"人工智能告诉我 "在审计中站不住脚。

**每当人工智能给出一个错误的答案，用户对它的信任度就会降低一点。三四次糟糕的经历之后，他们就会停止使用。对人工智能工具的投资没有任何价值，因为底层内容并不值得信任。

**当人们对官方知识库（以及建立在其之上的人工智能）失去信任时，他们就会创建自己的知识库：Slack消息、个人笔记、会议中分享的部落知识。维基本应防止的碎片化现象还是发生了，只是方式不同而已。

##解决之道在于源头，而非模型

有一种诱惑是在人工智能层解决这个问题--更好的提示、更复杂的 RAG 管道、经过微调的模型，这些都能以某种方式从文本中检测出陈旧性。这种方法是错误的。

解决之道在于源头。如果您的文档中包含丰富、准确的元数据，如新鲜度评分、过期状态、分类、语言对齐、读者信号等，那么任何人工智能系统都可以利用这些元数据做出更好的决策。你不需要更智能的模型。你需要的是更智能的文档。

这正是 Rasepi 所能提供的：

每份文档都有一个实时新鲜度评分**，该评分会根据链接健康状况、读者数量、审核状态等因素不断更新。
每份文档都有有效期**，当文档到达时会触发审核
每份文档都有一个分类**（已发布、草稿、审核中、存档）
每个语言版本都有自己的新鲜度信号**，以便独立检测过期翻译
读者标记和交叉引用跟踪** 增加了额外的质量信号

当人工智能系统查询 Rasepi 的知识库时，所有这些元数据都可用。人工智能无需猜测文档是否可信。文档会告诉它

一个实用的起点

如果你今天在知识库中运行了人工智能助手，你可以在 30 分钟内开始评估问题：

1.**向你的人工智能助手提问 10 个你知道答案的问题。你可能会发现 10 个问题中至少有 2-3 个是基于过时的内容。

2.检查源文件。对于人工智能给出的每个答案，查看源文件。最后一次审查是什么时候？链接是否有效？如果你亲自阅读，你会相信它吗？

3.** 寻找最糟糕的情况。** 找出仍然出现在搜索结果中的最古老、最被忽视的文档。向人工智能提问，让它出现在搜索结果中。人工智能会使用它吗？它几乎肯定会用。

4.估算影响人工智能助手每天要处理多少查询？如果有 20%-30% 的答案是基于陈旧的内容，那么在浪费时间、错误决策和失去信任方面的成本是多少？

人工智能助手的好坏取决于它们所基于的内容。目前，大多数人工智能助手将知识库中的每份文档都视为同样有效。它们会获取所有文档，包括昨天审查过的文档和两年来从未有人碰过的文档，并以同样的信心展示它们。

这不是模型问题。这是数据质量问题。解决方法很简单：给文档提供元数据，告诉人工智能工具应该信任什么。

您的人工智能助手不应该对来自 18 个月内从未有人审阅过的文档的答案充满信心。有了正确的信号，它就不会这样了。

拉塞皮让每份文档都有自己的信任分值--新鲜度、过期状态、分类、语言一致性。人工智能工具对知识库进行查询，获取的不仅是内容，还有上下文。可信来源浮出水面。过期的则不会。这就是人工智能驱动文档的工作原理。

查看 Rasepi 如何与人工智能工具配合使用 →