RAG vs RAG Agéntico: Cuál es la Diferencia y Cuándo Usar Cada Uno

La Generación Aumentada por Recuperación (RAG) cambió las reglas del juego al permitir que los LLMs accedan a conocimiento externo en tiempo de consulta. Pero a medida que las aplicaciones crecieron en complejidad, un solo paso de recuperar-y-generar ya no era suficiente. Entra el RAG Agéntico — un paradigma donde el LLM mismo decide qué recuperar, cuándo recuperarlo y cuántas veces iterar antes de responder. En este artículo desglosamos ambos enfoques, comparamos sus arquitecturas y te ayudamos a decidir cuál se adapta a tu caso de uso.

1. Cómo Funciona el RAG Estándar

El RAG estándar (o "Naive") sigue un pipeline sencillo de tres pasos:

Indexar: Los documentos se dividen en fragmentos, se convierten en embeddings y se almacenan en una base de datos vectorial.
Recuperar: La consulta del usuario se convierte en embedding y se obtienen los k fragmentos más similares.
Generar: Los fragmentos recuperados se inyectan en el prompt del LLM como contexto, y el modelo produce una respuesta.

Consulta del Usuario
    │
    ▼
┌──────────┐    top-k docs    ┌─────┐
│  Vector  │ ───────────────► │ LLM │ ──► Respuesta
│  Store   │                  └─────┘
└──────────┘

Esto funciona muy bien para Q&A simple — "¿Cuál es nuestra política de reembolso?" o "Resume este documento." Todo el flujo es sin estado y de un solo paso.

2. Dónde Falla el RAG Estándar

El RAG estándar tiene dificultades cuando la tarea requiere razonamiento en múltiples pasos:

Preguntas multi-salto: "Compara nuestros ingresos del Q4 con el competidor mencionado en el informe del analista." Esto requiere recuperar de dos fuentes diferentes y razonar sobre ambas.
Consultas ambiguas: La recuperación inicial puede devolver fragmentos irrelevantes, y no hay mecanismo para refinar o re-consultar.
Datos dinámicos: Si la respuesta depende de una llamada API en vivo (por ejemplo, precio actual de una acción), un vector store estático no puede ayudar.
Auto-evaluación de calidad: El RAG estándar no tiene forma de evaluar si su recuperación fue suficiente antes de generar una respuesta.

3. ¿Qué es el RAG Agéntico?

El RAG Agéntico envuelve el pipeline de recuperación dentro de un bucle de agente autónomo. En lugar de un solo paso de recuperar-y-generar, el LLM actúa como un agente de toma de decisiones que puede:

Planificar qué pasos de recuperación son necesarios
Ejecutar múltiples llamadas de recuperación (búsqueda vectorial, consultas SQL, llamadas API)
Reflexionar sobre la calidad de los resultados recuperados
Iterar — re-consultar con términos refinados si el primer paso fue insuficiente
Sintetizar información de múltiples fuentes en una respuesta coherente

Consulta del Usuario
    │
    ▼
┌─────────────────────────────────────┐
│          Bucle del Agente           │
│                                     │
│  Plan ──► Recuperar ──► Reflexionar │
│    ▲                      │         │
│    └── ¿Re-consultar? ◄──┘         │
│                                     │
│  Tools: Vector DB, SQL, APIs, Web   │
└─────────────────────────────────────┘
    │
    ▼
  Respuesta

4. Comparación de Arquitectura

Dimensión	RAG Estándar	RAG Agéntico
Pasos de recuperación	Un solo paso	Multi-paso, iterativo
Toma de decisiones	Ninguna — pipeline fijo	El LLM decide qué recuperar y cuándo
Fuentes de datos	Solo vector store	Vector store + SQL + APIs + web + herramientas
Auto-corrección	No	Sí — reflexiona y re-consulta
Enrutamiento	Todas las consultas van al mismo índice	El agente enruta a la mejor fuente por sub-pregunta
Latencia	Rápida (una sola llamada LLM)	Mayor (múltiples llamadas LLM en bucle)
Costo	Menor (menos tokens)	Mayor (más invocaciones LLM)
Complejidad	Simple de construir y depurar	Requiere framework de agentes y guardrails cuidadosos

5. Construyendo RAG Agéntico con LangChain

El ecosistema de LangChain facilita la actualización de RAG estándar a un enfoque agéntico. Los componentes clave son:

5.1 Definir Herramientas de Recuperación

Envuelve cada fuente de datos como una herramienta que el agente puede invocar:

import { tool } from "@langchain/core/tools";
import { z } from "zod";

const searchDocs = tool(
  async ({ query }) => {
    const results = await vectorStore.similaritySearch(query, 5);
    return results.map((r) => r.pageContent).join("\n\n");
  },
  {
    name: "search_knowledge_base",
    description: "Buscar en la base de conocimiento documentos relevantes",
    schema: z.object({
      query: z.string().describe("La consulta de búsqueda"),
    }),
  }
);

const queryDatabase = tool(
  async ({ sql }) => {
    const result = await db.execute(sql);
    return JSON.stringify(result.rows);
  },
  {
    name: "query_database",
    description: "Ejecutar una consulta SQL de solo lectura en la base de datos",
    schema: z.object({
      sql: z.string().describe("La consulta SQL SELECT a ejecutar"),
    }),
  }
);

5.2 Crear el Agente

Usa agentes de LangChain para dar al LLM acceso a las herramientas y dejarlo razonar en un bucle:

import { createReactAgent } from "@langchain/langgraph/prebuilt";
import { ChatOpenAI } from "@langchain/openai";

const llm = new ChatOpenAI({ model: "gpt-4o" });

const agent = createReactAgent({
  llm,
  tools: [searchDocs, queryDatabase],
});

const response = await agent.invoke({
  messages: [
    {
      role: "user",
      content: "Compara los ingresos del último trimestre con el pronóstico en nuestro documento de planificación.",
    },
  ],
});

El agente decidirá autónomamente buscar primero el documento de planificación, luego consultar la base de datos para las cifras de ingresos, y finalmente sintetizar ambos en una comparación.

6. Patrones de RAG Agéntico

Han surgido varios patrones comunes para estructurar sistemas de RAG agéntico:

Agente de Enrutamiento: Un agente ligero que clasifica la consulta y la dirige al recuperador especializado apropiado (por ejemplo, vector store para consultas semánticas, SQL para consultas analíticas).
Recuperador Multi-Paso: El agente descompone una pregunta compleja en sub-preguntas, recupera respuestas para cada una, y luego las combina.
Self-RAG (Reflexivo): Después de recuperar, el agente evalúa la relevancia y decide si aceptar los resultados o refinar y re-consultar.
RAG Correctivo: Si la calidad de la recuperación es baja, el agente recurre a búsqueda web o fuentes alternativas antes de generar.

7. Cuándo Usar Cada Enfoque

Usa RAG Estándar cuando:

Tus consultas son preguntas directas de un solo tema
Tienes una sola base de conocimiento bien curada
La baja latencia y el costo son prioridades principales
Necesitas pipelines predecibles y fáciles de depurar

Usa RAG Agéntico cuando:

Las consultas requieren razonamiento entre múltiples fuentes de datos
Los usuarios hacen preguntas complejas de múltiples saltos
Necesitas acceso a datos dinámicos (APIs, bases de datos, web en vivo)
La calidad de la respuesta es más importante que la velocidad o el costo
Necesitas que el sistema maneje la ambigüedad y se auto-corrija

8. Compromisos y Consideraciones

Antes de saltar al RAG Agéntico, considera estas realidades prácticas:

Costo: Cada iteración del bucle del agente significa llamadas LLM adicionales. Una sola consulta podría generar 3-5x más tokens que el RAG estándar.
Latencia: Múltiples ciclos de recuperación-razonamiento se acumulan. Espera 5-15 segundos versus 1-3 segundos para RAG estándar.
Confiabilidad: Más autonomía significa más formas de fallar. Implementa límites máximos de iteración, estrategias de respaldo y validación de salida.
Observabilidad: Depurar un bucle de agente es más difícil que depurar un pipeline lineal. Usa LangSmith o herramientas de trazado similares.

9. La Conclusión

El RAG estándar es tu solución 80/20 — maneja la mayoría de los casos de uso con mínima complejidad. El RAG Agéntico es a lo que recurres cuando el problema demanda razonamiento, síntesis multi-fuente y auto-corrección. Los mejores sistemas en producción a menudo combinan ambos: una ruta rápida de RAG estándar para consultas simples con un respaldo agéntico para las complejas.

Comienza simple, mide dónde falla el RAG estándar, e introduce selectivamente capacidades agénticas donde entreguen valor real.