以下是在内部知识库基础上部署人工智能助手时发生的情况:
一位新工程师问"如何设置暂存环境?"
人工智能会搜索你的文档,找到三份相关文档,合成一个答案,并自信地给出它。工程师按照指示操作。前两个步骤成功了。第三步引用的 CLI 工具在六个月前就已过时。第四步描述了一个在迁移过程中被替换的基础架构设置,但没有记录在案。
工程师被卡住了。他们在团队频道留言。有人说:"哦,那个文档真的很老了。人工智能并不知道这一点。它不可能知道它只是把找到的东西都拿来当作事实。
**这是每一个 RAG 系统、每一个人工智能搜索工具,以及每一个你在内部文档中使用过的 LLM 驱动的助手的默认行为。它们获取一切。它们不加区分。它们分不清新鲜和陈旧。
这种情况正在摧毁人们对人工智能工具的信任,其速度比人工智能工具建立信任的速度还要快。
为什么人工智能助手对质量视而不见?
大型语言模型和检索增强生成(RAG)系统的工作原理是找到与查询语义相关的文本,然后利用这些文本生成答案。相关性匹配通常非常出色--矢量搜索和嵌入在寻找与问题相关的内容方面确实很有一套。
但相关性并不等于可靠性。
一份写于 2023 年的关于 Kubernetes 部署流程的文档与 "如何部署到生产环境?"这个问题高度相关。如果你在 2024 年迁移到了另一个平台,那么它也是完全错误的。人工智能看到的是相关文本。人工智能看到的是相关的文本,而不会看到已经过期 18 个月、链接已损坏、读者为零的文档。
大多数人工智能系统只有一个排名信号:**与查询语义相似。它们不会检查
- 这份文件最后一次被审查是什么时候?
- 其中的链接是否仍然有效?
- 是否有人真正在阅读这份文档?
- 内容是否被读者标记为过时?
- 这是草稿、存档页面还是当前文档?
- 如果有多种语言版本,翻译版本是否是最新的?
如果没有这些信号,人工智能在进行关键词匹配时就会增加额外的步骤。关键词匹配的确令人印象深刻,但从根本上说,它无法告诉你它给出的答案是否基于你可以信赖的内容。
信心问题
如果人工智能工具在给出不确定的答案时加上适当的注意事项,这就不会那么危险。但它们没有。LLM不是这样工作的。无论源材料是当前的还是古代的,它们都能生成流畅、自信的文本。
人类在阅读维基文章时可能会注意到它看起来过时了。页面布局陈旧。截图显示的用户界面已不复存在。底部的注释说 "这是过时的"。人类可以做出判断。
人工智能却不能。它读取文本,将其等同于其他文本进行处理,然后生成一个听起来很权威的答案。用户,尤其是不了解当前流程的新员工,没有理由怀疑它。
**人工智能听起来越自信,陈旧的原始材料就会造成越严重的损害。
人工智能的实际需求
要让人工智能助手从你的知识库中给出值得信赖的答案,它需要的不仅仅是文本和嵌入。它需要元数据来告诉它哪些文档值得用作来源。具体来说
1.新鲜度得分
表示文档当前健康程度的数字信号。而不是最后一次编辑的时间--那只是一个输入值。真正的新鲜度得分是将评论状态、链接健康度、读者群、翻译对齐度和上下文漂移等综合为一个数字。
当一份文档的得分高于一个阈值(比如满分 100 分中的 70 分)时,它就有资格被用作人工智能答案的来源。低于该阈值,则被排除在外。没有例外。
这种单一机制消除了最危险的人工智能错误类别:基于陈旧来源的自信错误答案。
2.过期状态
该文件目前是在审查窗口内,还是已经过期而没有重新批准?无论过期文件的内容与查询的相关性有多大,都应严重降低其优先级或将其完全排除在外。
在 Rasepi 中,过期文档会被标记,其新鲜度分数也会自动下降。查询知识库的人工智能系统可以看到这一状态,并据此采取行动。
3.分类标签
并非每份文档都有相同的用途。草稿不应作为资料来源。存档文件不应出现在人工智能答案中。仅供内部使用的文档不应出现在面向外部工具的查询中。
分类标签能让人工智能了解它正在查看的文档类型:
- 已发布** - 当前、已批准、可安全使用
- 草稿** - 工作进行中,不应引用
- 审查中** - 过期,等待重新批准
- 存档** - 不再有效,仅供参考
- 内部**/外部** - 控制可见性范围
人工智能助手在处理查询时,可以在查看内容相关性之前先按分类进行过滤。与查询完全匹配的草稿文件永远不会作为答案提供。
4.语言级信号
如果您的知识库是多语种的,那么人工智能就需要知道它所提取的版本是否是最新的。比英语版本晚三个月的法语翻译在技术上与法语相关,但信息可能已经过时。
Rasepi 在语言层面跟踪新鲜度。每个译文都有自己的分数,其依据是译文源块自上次更新以来是否发生了变化。人工智能在查询法文知识库时,会发现法文版本的文档已经过时,要么是 "不新鲜",要么是 "过时":
- 回退到英文源(英文源是最新的)
- 加入法文版本可能已经过时的注意事项
- 完全排除该文档
5.读者信号
如果有多个读者将某文档标记为过时,那么该信号应降低该文档在人工智能响应中的权重。众包质量信号会产生噪音,但它们很有价值--尤其是与其他新鲜度指标相结合时。
##实际操作
让我们来看看人工智能助手查询 Rasepi 知识库时会发生什么:
查询: "我们在凌晨 2 点处理 P1 事件的流程是什么?
第1步--过滤检索 系统搜索语义相关的文档。在排序之前,它会过滤掉
- 新鲜度得分低于阈值的文档
- 过期且未重新批准的文档
- 草稿和存档内容
- 语言版本过时的文档(如果查询使用的是非主要语言)
第 2 步--新鲜度加权排序 在剩余的文档中,新鲜度得分越高的文档排名越靠前。即使 72 分的文档语义相似度稍高,94 分的文档也比 72 分的文档排名靠前。
第 3 步--生成答案 人工智能会根据过滤后的新鲜度排名来源生成答案。在引用每个来源时,都会显示其新鲜度得分。
第 4 步 - 僵化警告。 如果最佳可用来源的新鲜度得分处于边缘状态,人工智能就会发出警告:_"注意:本答案的主要来源最近一次审核是在 60 天前。您可能需要向团队进行核实。
将此与默认行为进行比较:查找相关文本,生成有把握的答案,期待最佳结果。
如果不这样做会出现什么情况
人工智能系统在未经过滤的知识库上运行的后果是可以预见的,而且代价高昂:
新员工的困惑* 内部文档最常见的人工智能用例是入职培训。顾名思义,新员工不知道什么是最新的,什么是过时的。他们信任人工智能。人工智能信任一切。陈旧的文档可以放心送达。
合规风险 如果您的人工智能助手使用过时的文件为监管流程提供指导,那么这些建议可能不仅是错误的,而且可能是不合规的。"人工智能告诉我 "在审计中站不住脚。
**每当人工智能给出一个错误的答案,用户对它的信任度就会降低一点。三四次糟糕的经历之后,他们就会停止使用。对人工智能工具的投资没有任何价值,因为底层内容并不值得信任。
**当人们对官方知识库(以及建立在其之上的人工智能)失去信任时,他们就会创建自己的知识库:Slack消息、个人笔记、会议中分享的部落知识。维基本应防止的碎片化现象还是发生了,只是方式不同而已。
##解决之道在于源头,而非模型
有一种诱惑是在人工智能层解决这个问题--更好的提示、更复杂的 RAG 管道、经过微调的模型,这些都能以某种方式从文本中检测出陈旧性。这种方法是错误的。
解决之道在于源头。如果您的文档中包含丰富、准确的元数据,如新鲜度评分、过期状态、分类、语言对齐、读者信号等,那么任何人工智能系统都可以利用这些元数据做出更好的决策。你不需要更智能的模型。你需要的是更智能的文档。
这正是 Rasepi 所能提供的:
- 每份文档都有一个实时新鲜度评分**,该评分会根据链接健康状况、读者数量、审核状态等因素不断更新。
- 每份文档都有有效期**,当文档到达时会触发审核
- 每份文档都有一个分类**(已发布、草稿、审核中、存档)
- 每个语言版本都有自己的新鲜度信号**,以便独立检测过期翻译
- 读者标记和交叉引用跟踪** 增加了额外的质量信号
当人工智能系统查询 Rasepi 的知识库时,所有这些元数据都可用。人工智能无需猜测文档是否可信。文档会告诉它
一个实用的起点
如果你今天在知识库中运行了人工智能助手,你可以在 30 分钟内开始评估问题:
1.**向你的人工智能助手提问 10 个你知道答案的问题。你可能会发现 10 个问题中至少有 2-3 个是基于过时的内容。
2.检查源文件。 对于人工智能给出的每个答案,查看源文件。最后一次审查是什么时候?链接是否有效?如果你亲自阅读,你会相信它吗?
3.** 寻找最糟糕的情况。** 找出仍然出现在搜索结果中的最古老、最被忽视的文档。向人工智能提问,让它出现在搜索结果中。人工智能会使用它吗?它几乎肯定会用。
4.估算影响 人工智能助手每天要处理多少查询?如果有 20%-30% 的答案是基于陈旧的内容,那么在浪费时间、错误决策和失去信任方面的成本是多少?
人工智能助手的好坏取决于它们所基于的内容。目前,大多数人工智能助手将知识库中的每份文档都视为同样有效。它们会获取所有文档,包括昨天审查过的文档和两年来从未有人碰过的文档,并以同样的信心展示它们。
这不是模型问题。这是数据质量问题。解决方法很简单:给文档提供元数据,告诉人工智能工具应该信任什么。
您的人工智能助手不应该对来自 18 个月内从未有人审阅过的文档的答案充满信心。有了正确的信号,它就不会这样了。
拉塞皮让每份文档都有自己的信任分值--新鲜度、过期状态、分类、语言一致性。人工智能工具对知识库进行查询,获取的不仅是内容,还有上下文。可信来源浮出水面。过期的则不会。这就是人工智能驱动文档的工作原理。