Enseñe a su IA a ignorar la documentación obsoleta

Esto es lo que ocurre cuando despliegas un asistente de IA sobre tu base de conocimientos interna:

Un nuevo ingeniero pregunta: "¿Cómo configuro el entorno de ensayo?".

La IA busca en tu documentación, encuentra tres documentos relevantes, sintetiza una respuesta y la presenta con confianza. El ingeniero sigue las instrucciones. Los dos primeros pasos funcionan. El tercer paso hace referencia a una herramienta CLI que quedó obsoleta hace seis meses. El cuarto paso describe una configuración de infraestructura que se sustituyó durante una migración que nadie documentó.

El ingeniero está atascado. Envía un mensaje al canal del equipo. Alguien dice: "Oh, ese documento es muy antiguo". La IA no lo sabía. No puede saberlo. Sólo buscó todo lo que encontró y lo presentó como verdad.

**Este es el comportamiento por defecto de todos los sistemas RAG, todas las herramientas de búsqueda de IA y todos los asistentes con LLM que hayas usado en documentos internos. Lo buscan todo. No discriminan. No pueden distinguir lo fresco de lo rancio.

Y está destruyendo la confianza en las herramientas de IA más rápido de lo que esas herramientas pueden construirla.

Por qué los asistentes de IA son ciegos a la calidad

Los grandes modelos lingüísticos y los sistemas de generación de recuperación aumentada (RAG) funcionan encontrando texto semánticamente relevante para una consulta y utilizándolo para generar una respuesta. La concordancia de relevancia suele ser excelente: la búsqueda vectorial y las incrustaciones son realmente buenas a la hora de encontrar contenido relacionado con una pregunta.

Pero relevancia no es lo mismo que fiabilidad.

Un documento escrito en 2023 sobre tu proceso de despliegue de Kubernetes es muy relevante para la pregunta "¿cómo despliego en producción?". También es completamente erróneo si migraste a una plataforma diferente en 2024. La IA ve texto relevante. No ve un documento que está 18 meses desactualizado con enlaces rotos y cero lectores.

La mayoría de los sistemas de IA tienen exactamente una señal de clasificación: **similitud semántica con la consulta. Eso es todo. No lo comprueban:

¿Cuándo se revisó este documento por última vez?
¿Siguen siendo válidos los enlaces que contiene?
¿Hay alguien leyendo este documento?
¿Los lectores han marcado el contenido como obsoleto?
¿Se trata de un borrador, una página archivada o un documento actual?
Si está disponible en varios idiomas, ¿están actualizadas las traducciones?

Sin estas señales, la IA realiza una búsqueda de palabras clave con pasos adicionales. Impresionante coincidencia de palabras clave, sí, pero fundamentalmente incapaz de decirte si la respuesta que está dando se basa en un contenido en el que puedes confiar.

El problema de la confianza

Esto no sería tan peligroso si las herramientas de IA presentaran respuestas inciertas con las advertencias adecuadas. Pero no lo hacen. No es así como funcionan los LLM. Generan textos fluidos y seguros independientemente de si el material de origen es actual o antiguo.

Un humano que lea un artículo de una wiki puede darse cuenta de que parece anticuado. El diseño de la página es antiguo. Las capturas de pantalla muestran una interfaz que ya no existe. Hay un comentario al final que dice "esto está anticuado". Un humano puede aplicar su criterio.

Una IA no puede. Lee el texto, lo procesa como si fuera equivalente a cualquier otro texto y genera una respuesta que suena autoritaria. El usuario -especialmente un recién contratado que no sabe cómo es el proceso actual- no tiene motivos para dudar.

**Cuanto más segura suene la IA, más daño hará el material de partida obsoleto.

Lo que la IA realmente necesita

Para que un asistente de IA dé respuestas fiables a partir de tu base de conocimientos, necesita algo más que texto e incrustaciones. Necesita metadatos que le digan qué documentos merece la pena utilizar como fuentes. En concreto:

1. Puntuación de frescura

Una señal numérica que representa la salud de un documento en este momento. No cuando fue editado por última vez - eso es sólo una entrada. Una verdadera puntuación de frescura combina el estado de revisión, la salud de los enlaces, el número de lectores, la alineación de la traducción y la deriva contextual en un único número.

Cuando un documento supera un umbral (por ejemplo, 70 sobre 100), puede utilizarse como fuente de respuestas de IA. Por debajo de ese umbral, queda excluido. No hay excepciones.

Este único mecanismo elimina la clase más peligrosa de errores de IA: las respuestas erróneas basadas en fuentes obsoletas.

2. Estado de caducidad

¿Este documento se encuentra actualmente dentro de su plazo de revisión, o ha caducado sin haber sido reaprobado? Un documento caducado debe ser fuertemente despriorizado o excluido por completo, independientemente de lo relevante que pueda ser su contenido para la consulta.

En Rasepi, los documentos caducados se marcan y su puntuación de frescura disminuye automáticamente. Un sistema de inteligencia artificial que consulte la base de conocimientos puede ver este estado y actuar en consecuencia.

3. Etiquetas de clasificación

No todos los documentos sirven para lo mismo. Un borrador no debe utilizarse como fuente. Un documento archivado no debe aparecer en las respuestas de AI. Un documento interno no debe aparecer en las consultas de herramientas externas.

Las etiquetas de clasificación proporcionan a la IA el contexto sobre el tipo de documento que está consultando:

Publicado**: actual, aprobado, seguro de usar.
Borrador**: trabajo en curso, no debe citarse.
En revisión**: caducado, en espera de nueva aprobación.
Archivado** - ya no está activo, se conserva sólo como referencia
Interno / Externo - controla el alcance de la visibilidad

Cuando un asistente de IA procesa una consulta, puede filtrar por clasificación antes incluso de fijarse en la relevancia del contenido. Un borrador de documento que coincida perfectamente con la consulta nunca debería ser servido como respuesta.

4. Señales lingüísticas

Si su base de conocimientos es multilingüe, la IA necesita saber si la versión de la que está extrayendo la información es actual. Una traducción al francés que lleva tres meses de retraso con respecto a la fuente en inglés es técnicamente relevante en francés, pero la información podría estar obsoleta.

Rasepi hace un seguimiento de la actualidad a nivel de idioma. Cada traducción tiene su propia puntuación basada en si sus bloques de origen han cambiado desde la última actualización de la traducción. Una IA que consulte la base de conocimientos en francés puede darse cuenta de que la versión francesa de un documento está obsoleta:

volver a la fuente en inglés (que es la actual)
incluir una advertencia de que la versión francesa puede estar obsoleta
Excluir el documento por completo

5. Señales de lectura

Si varios lectores han marcado un documento como obsoleto, esa señal debería reducir el peso del documento en las respuestas de AI. Las señales de calidad generadas por el público son ruidosas, pero valiosas, sobre todo cuando se combinan con otras métricas de actualidad.

Cómo funciona en la práctica

Veamos qué ocurre cuando un asistente de IA consulta una base de conocimientos de Rasepi:

Consulta: "¿Cuál es nuestro proceso para manejar un incidente P1 a las 2am?"

**El sistema busca documentos semánticamente relevantes. Antes de clasificarlos, los filtra:

Documentos con una puntuación de frescura inferior al umbral
Documentos caducados que no han sido reaprobados
Borradores y contenido archivado
Documentos cuya versión lingüística es obsoleta (si la consulta está en un idioma no primario)

Paso 2 - Clasificación ponderada en función de la frescura Entre los documentos restantes, los que tienen una puntuación más alta se clasifican mejor. Un documento con una puntuación de 94 supera a uno con una puntuación de 72, incluso si el documento con una puntuación de 72 tiene una similitud semántica ligeramente superior.

**Paso 3 - Generación de respuestas: la IA genera una respuesta a partir de las fuentes filtradas y clasificadas según su frescura. Cada fuente se cita con su puntuación de frescura visible.

**Si la mejor fuente disponible tiene una puntuación de frescura límite, la IA incluye una advertencia: "Nota: La fuente principal de esta respuesta se revisó por última vez hace 60 días. Es posible que desees verificarla con el equipo".

Compáralo con el comportamiento por defecto: buscar texto relevante, generar una respuesta segura y esperar lo mejor.

Qué pasa cuando no haces esto

Las consecuencias de que los sistemas de IA funcionen con bases de conocimiento sin filtrar son predecibles y costosas:

**El caso de uso más común de la IA para los documentos internos es la incorporación. Los nuevos empleados, por definición, no saben lo que es actual y lo que es obsoleto. Confían en la IA. La IA confía en todo. Los documentos obsoletos se sirven con confianza.

**Si su asistente de IA proporciona orientación sobre procesos normativos utilizando documentos obsoletos, el asesoramiento no sólo podría ser erróneo, sino que podría incumplir la normativa. "La IA me dijo que lo hiciera" no se sostiene en una auditoría.

**Cada vez que la IA da una respuesta errónea, los usuarios confían un poco menos en ella. Después de tres o cuatro malas experiencias, dejan de utilizarla. La inversión en herramientas de IA no aporta ningún valor porque el contenido subyacente no era digno de confianza.

**Cuando los usuarios pierden la confianza en la base de conocimientos oficial (y en la IA creada sobre ella), crean la suya propia: Mensajes de Slack, notas personales, conocimiento tribal compartido en reuniones. La fragmentación que la wiki debía evitar se produce de todos modos, pero de forma diferente.

La solución está en la fuente, no en el modelo

Existe la tentación de resolver esto en la capa de IA: mejores avisos, canalizaciones RAG más sofisticadas, modelos afinados que puedan detectar de algún modo el estancamiento sólo a partir del texto. Este enfoque es erróneo.

La solución está en la fuente. Si los documentos contienen metadatos ricos y precisos sobre su estado actual -puntuación de frescura, estado de caducidad, clasificación, alineación lingüística, señales de lectura-, cualquier sistema de IA puede utilizar esos metadatos para tomar mejores decisiones. No se necesita un modelo más inteligente. Se necesitan documentos más inteligentes.

Esto es lo que ofrece Rasepi:

Cada documento tiene un puntaje de frescura** que se actualiza continuamente basado en la salud de los enlaces, lectores, estado de revisión y más.
Cada documento tiene una fecha de caducidad** que activa la revisión cuando llega.
Cada documento tiene una clasificación** (publicado, borrador, en revisión, archivado).
Cada versión lingüística tiene su propia señal de actualización** para que las traducciones obsoletas se detecten de forma independiente.
Los indicadores de lectura y el seguimiento de referencias cruzadas** añaden señales de calidad adicionales.

Cuando un sistema de IA consulta la base de conocimientos de Rasepi, todos estos metadatos están disponibles. La IA no tiene que adivinar si un documento es fiable. El documento se lo dice.

Un punto de partida práctico

Si hoy tiene un asistente de IA funcionando en su base de conocimientos, puede empezar a evaluar el problema en 30 minutos:

Haga a su asistente de IA 10 preguntas de las que conozca las respuestas. Observe qué respuestas utilizan fuentes obsoletas. Probablemente descubrirá que al menos 2 ó 3 de cada 10 se basan en contenidos obsoletos.
**Para cada respuesta que dé la IA, mira el documento fuente. ¿Cuándo se revisó por última vez? ¿Son válidos los enlaces? ¿Te fiarías si lo leyeras tú mismo?
Busca el peor de los casos. Encuentra tu documento más antiguo y descuidado que aún aparezca en los resultados de búsqueda. Hazle a la IA una pregunta que lo haga aparecer. ¿La IA lo utiliza? Es casi seguro que sí.
**¿Cuántas consultas al día gestiona su asistente de IA? Si el 20-30% de las respuestas se basan en contenido obsoleto, ¿cuál es el coste en términos de pérdida de tiempo, decisiones equivocadas y pérdida de confianza?

Los asistentes de IA son tan buenos como el contenido en el que se basan. En la actualidad, la mayoría de ellos tratan todos los documentos de su base de conocimientos con la misma validez. Lo buscan todo -el documento que se revisó ayer y el que nadie ha tocado en dos años- y lo presentan todo con la misma confianza.

No es un problema de modelo. Es un problema de calidad de los datos. Y la solución es sencilla: proporcione a sus documentos metadatos que indiquen a las herramientas de IA en qué deben confiar.

Su asistente de inteligencia artificial no debería confiar en una respuesta procedente de un documento que nadie ha revisado en 18 meses. Con las señales adecuadas, no lo hará.

Rasepi hace que cada documento tenga su propia puntuación de confianza: frescura, caducidad, clasificación, alineación lingüística. Las herramientas de IA consultan la base de conocimientos y no sólo obtienen el contenido, sino también el contexto. Las fuentes fiables salen a la luz. Las obsoletas, no. Así es como debería funcionar la documentación basada en IA.

Vea cómo funciona Rasepi con las herramientas de IA →