Tutorial: Agente autónomo con RAG usando n8n

En este tutorial crearemos paso a paso un agente autónomo RAG (Retrieval-Augmented Generation) usando n8n como plataforma de automatización integral. Veremos desde la instalación de n8n hasta la integración con LLMs (GPT-4, Llama 2), implementaremos una arquitectura RAG completa (ingesta de datos, generación de embeddings, base vectorial, búsqueda semántica y generación de respuestas), automatizaremos el flujo de trabajo para que el agente opere en tiempo real, conectaremos herramientas/APIs externas para ampliar sus capacidades, y cubriremos aspectos de monitorización, escalado y despliegue en producción. ¡Al final, tendrás un agente inteligente que puede responder preguntas con información actualizada y específica de tus datos!

1. Configuración de n8n en entorno local o producción

¿Qué es n8n? Es una plataforma de automatización de código abierto (similar a Zapier o Make) que permite orquestar flujos de trabajo visualmente, con más de 1000 integraciones disponibles (OpenAI integrations | Workflow automation with n8n). Puedes usarla en tu máquina local gratis, o desplegarla en servidor para producción. Para empezar:

Instalación local rápida: Si tienes Node.js, puedes instalar n8n globalmente con npm (npm install -g n8n) y lanzarlo con n8n start. Alternativamente, usa Docker:
```
docker run -it --name n8n -p 5678:5678 -v ~/.n8n:/home/node/.n8n n8nio/n8n
```
Este comando ejecuta n8n en el puerto 5678 y monta el volumen ~/.n8n para persistir datos (credenciales, workflows) en tu máquina. Al abrir http://localhost:5678 verás la interfaz de n8n.
Configuración para producción: En entornos productivos se recomienda usar Docker Compose u orquestadores (Kubernetes) y configurar n8n con variables de entorno para mayor seguridad y estabilidad. Por ejemplo: usar una base de datos externa (PostgreSQL es recomendada (Automation: n8n strikes back)) en lugar del SQLite por defecto, y un Redis si habilitas el modo queue (ver sección de escalabilidad). Define variables como: N8N_BASIC_AUTH_USER y N8N_BASIC_AUTH_PASSWORD (para proteger el acceso web con usuario/contraseña propios), N8N_ENCRYPTION_KEY (clave aleatoria para cifrar credenciales en la BD) (Automation: n8n strikes back), N8N_HOST (dominio o IP donde estará accesible), N8N_PORT (puerto, por defecto 5678), y URL públicas para webhooks si aplican. Un ejemplo de variables mínimas en un .env para producción podría ser:
```
N8N_BASIC_AUTH_USER=miusuario
N8N_BASIC_AUTH_PASSWORD=micontrase\u00f1a
N8N_ENCRYPTION_KEY=claveSuperSecreta123
N8N_HOST=midominio.com
N8N_PORT=5678
```
Luego, en tu Docker Compose, montas este .env y un volumen para datos. Al iniciar, n8n levantará en modo producción (puedes deshabilitar el registro de usuario público si usas autenticación básica, etc.). Nota: Asegúrate de guardar la ENCRYPTION_KEY ya que si se pierde no podrás desencriptar las credenciales guardadas.
Iniciando n8n: Ejecuta el contenedor o comando correspondiente. Al abrir la URL/puerto configurado, debería cargar la UI de n8n. Inicia sesión (si configuraste auth básica) y ya puedes crear workflows. Asegúrate que el entorno esté correctamente expuesto si usas webhooks (configura WEBHOOK_URL si es distinto al host).

Con n8n funcionando, pasemos a integrarlo con modelos de lenguaje.

2. Integración de n8n con modelos de lenguaje (GPT-4, Llama 2, etc.)

Una vez n8n instalado, podemos integrarlo con LLMs (Large Language Models) para dotar a nuestro agente de capacidad de comprensión y generación de texto:

Usando GPT-4 / OpenAI: n8n ofrece nodos nativos para OpenAI. En el editor, puedes buscar “OpenAI” en la paleta de nodos. Por ejemplo, el nodo OpenAI Chat Model permite llamadas a modelos de chat como GPT-3.5 o GPT-4 fácilmente (Traverx AI – Innovate, automate, elevate). Solo necesitas configurar tus credenciales de OpenAI (una API Key válida) en n8n: ve a Credentials (icono de llave en el editor) > crea credencial de tipo OpenAI y pega tu API Key. Luego, en el nodo OpenAI selecciona esa credencial y el modelo deseado (p.ej. "gpt-4" para GPT-4, o "gpt-3.5-turbo"). Puedes indicar temperatura, mensajes, etc., según la operación (completado de chat, completado de texto, generar imagen, etc.). En este tutorial usaremos GPT-4 para respuestas finales debido a su capacidad.
Usando Llama 2 u otros modelos open-source: n8n también soporta LLMs de código abierto. Una opción es utilizar el nodo Ollama Model, que permite usar modelos Llama 2 locales fácilmente (Ollama Model node documentation | n8n Docs ). Ollama es una herramienta que sirve modelos Llama 2 preinstalados a través de una API local; con n8n puedes invocar esos modelos seleccionando, por ejemplo, Llama2 13B o Llama2 70B en el nodo (previa instalación de Ollama y del modelo en tu servidor). Otra opción es emplear la API de HuggingFace: n8n tiene un nodo Hugging Face Inference o puedes usar el nodo HTTP para llamar a un endpoint de texto (por ejemplo, un endpoint de inferencia de HuggingFace para Llama2). En resumen, si dispones de un modelo Llama 2 accesible via API local o cloud, n8n puede conectarse a él con un nodo apropiado o mediante peticiones HTTP.
Ejemplo – Configurar nodo OpenAI: Inserta un nodo OpenAI Chat Model en tu workflow. En Parameters, elige la credencial de OpenAI y selecciona el modelo (por ejemplo, GPT-4). En la captura a continuación, vemos el nodo configurado con credencial OpenAI account y modelo gpt-4o-mini (un modelo GPT-4 optimizado) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). En tu caso podrías elegir gpt-4 estándar si tienes acceso, o gpt-3.5-turbo para pruebas. No añadiremos aún el mensaje, pues eso lo generaremos dinámicamente en el flujo RAG.
Ejemplo – Configurar nodo Llama2 (Ollama): Inserta un nodo Ollama Model. En Parameters, selecciona el modelo Llama 2 deseado (n8n lista opciones como Llama2, Llama2 13B, etc., según modelos soportados por Ollama) (Ollama Model node documentation | n8n Docs ). Asegúrate de que Ollama esté corriendo en tu host con ese modelo descargado. Este nodo actuará similar al de OpenAI pero ejecutando el modelo localmente.
Embeddings y otras operaciones de lenguaje: Además de generación de texto, los LLMs se usarán para generar embeddings (vectores numéricos) de textos, que es crucial en RAG. n8n incluye un nodo Embeddings OpenAI que facilita obtener embeddings de texto usando modelos como text-embedding-ada-002. También hay nodos de otras plataformas (por ejemplo, Cohere Embeddings si se configuran credenciales). Para Llama2, podrías generar embeddings con modelos open-source de similar manera (e.g. usando SentenceTransformers vía un nodo Código, aunque en este tutorial usaremos el servicio de OpenAI para embeddings por simplicidad).

Con la integración de LLMs lista (OpenAI para GPT-4 y posiblemente Ollama/HuggingFace para Llama 2), procedamos a construir la arquitectura RAG.

3. Implementación de la arquitectura RAG en n8n

La arquitectura Retrieval-Augmented Generation combina una base de conocimientos externa con un modelo generativo. En nuestro agente, esto implica:

Carga o ingesta de datos (fuentes diversas: PDF, bases de datos SQL/NoSQL, APIs, etc.).
Segmentación y embeddings: dividir datos en fragmentos manejables y obtener vectores (embeddings) que representen su significado semántico.
Almacenamiento en base vectorial: guardar esos vectores (y referencia al contenido original) en una base de datos vectorial (Pinecone, Weaviate, Chroma, etc.).
Recuperación por similitud: dado una pregunta del usuario, generar su embedding y buscar en la base vectorial los documentos más similares (relevantes).
Generación de respuesta: combinar la pregunta y los datos recuperados, y usar un LLM para generar la respuesta final, citando o usando la información pertinente.

Veamos cada paso en n8n:

3.1 Carga de datos desde diversas fuentes

n8n puede conectarse a prácticamente cualquier fuente de datos. Algunos ejemplos típicos:

Archivos (PDF, texto, Word): Puedes usar nodos como Read Binary File (para leer archivos locales) junto con Extract Text from PDF (nodo Extract from File de n8n, que soporta PDF y otros formatos) para obtener el texto. Si los archivos están en la nube, n8n tiene integraciones con Google Drive, Dropbox, OneDrive, etc., para listarlos y descargarlos. Por ejemplo, existe un workflow de plantilla en n8n que recupera documentos de Google Drive, los procesa y los prepara para RAG ( AI Powered RAG Chatbot for Your Docs + Google Drive + Gemini + Qdrant | n8n workflow template). Ese flujo usa nodos de Google Drive para listar archivos de una carpeta, luego extrae el texto y lo prepara en chunks (ver siguiente paso).
Bases de datos SQL/NoSQL: n8n tiene nodos dedicados para MySQL, PostgreSQL, MongoDB, etc. Puedes realizar consultas con ellos (SELECT, etc.) y obtener datos. Por ejemplo, para usar una base de conocimiento en PostgreSQL, podrías hacer un SELECT de los registros relevantes (o de todos, si vas a indexar todo en la base vectorial). Si la base es grande, conviene extraer por lotes. También podrías usar un nodo HTTP Request si tu DB expone un API, o herramientas como Hasura/GraphQL.
APIs externas o webs: El nodo genérico HTTP Request permite llamar a cualquier API REST. En el ejemplo que seguiremos, utilizaremos un API público (la especificación de GitHub) como fuente de datos (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). También es posible scrapear contenido web con HTTP Request + HTML Extract (para parsear HTML). En la documentación de n8n hay un ejemplo de flujo que scrapea un sitio web, extrae el contenido principal (HTML node) y lo indexa en Pinecone (Populate a Pinecone vector database from a website | n8n Docs ). En resumen, cualquier dato obtenido vía HTTP, base de datos o archivo puede integrarse.

Nuestro ejemplo: Tomaremos como datos la documentación OpenAPI de GitHub. En n8n, añadiremos un nodo HTTP Request configurado con la URL raw de la spec de GitHub en formato JSON (por ej. https://raw.githubusercontent.com/github/rest-api-description/main/descriptions/api.github.com/api.github.com.json). Este nodo devolverá un JSON grande con la especificación. Podemos manejarlo como texto para nuestro pipeline. De manera similar podrías cargar PDFs (obteniendo su texto), entradas de base de datos, etc. Lo importante es obtener el texto bruto o datos que quieras que el agente use para fundamentar sus respuestas.

3.2 Preparación de documentos y creación de embeddings

Una vez tenemos los datos brutos, necesitamos prepararlos para la base vectorial:

Dividir en fragmentos (chunking): Los documentos largos se deben trocear en porciones manejables (por ejemplo, párrafos o secciones de ~500 tokens) para generar embeddings significativos y no exceder límites de tokens de los modelos. n8n ofrece el nodo Recursive Character Text Splitter que implementa un algoritmo de segmentación (parte de LangChain) para dividir un texto en chunks de tamaño fijo (ej. 1000 caracteres) respetando límites de frase/palabra cuando es posible. También hay un nodo Default Data Loader que se utiliza junto con el splitter para formatear los fragmentos como documentos. En nuestro flujo, conectaremos el resultado del HTTP Request a un Default Data Loader y luego a un Recursive Character Text Splitter (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Este último se puede dejar con parámetros por defecto (p.ej. longitud máxima por chunk, solapamiento, etc., preconfigurados). El resultado será una lista de textos cortos (chunks) derivados del documento original.
Nodo de Embeddings: Ahora, cada fragmento de texto se transformará en un vector numérico mediante un modelo de embeddings. Agregaremos un nodo Embeddings OpenAI conectado después del splitter. Configúrale con tu credencial de OpenAI y elige un modelo de embedding, por ejemplo text-embedding-ada-002 (en la captura se muestra uno llamado text-embedding-3-small, similar de ejemplo) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Este nodo tomará cada chunk y producirá un vector de, típicamente, 1536 dimensiones (si es ada-002). Los outputs incluirán el embedding y posiblemente metadatos.
Asociar texto y embedding: El objetivo es guardar cada fragmento junto con su embedding en la base vectorial. Para ello, usaremos un nodo de Vector DB (Pinecone en nuestro caso) en modo inserción, al cual conectaremos tanto el texto original como el vector. n8n facilita esto permitiendo conectar varios nodos en paralelo hacia el nodo Pinecone: uno proporciona los Documentos (texto) y otro los Embeddings. En nuestro flujo, usaremos el nodo Pinecone Vector Store configurado en modo “Insert Documents” (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog), y conectaremos al mismo:
- La salida del Recursive Text Splitter (pasando por el Default Data Loader) al puerto Document del Pinecone node.
- La salida del nodo Embeddings OpenAI al puerto Embeddings del Pinecone node.
De esta forma, cada item indexado en Pinecone consistirá en el embedding vectorial y el texto del fragmento original, vinculados. En la configuración del nodo Pinecone, selecciona tus credenciales de Pinecone (debes obtener una API Key y URL de tu proyecto Pinecone) y el índice (index) destino donde almacenarás estos vectores. Por ejemplo, un índice llamado “n8n-demo” con dimensionalidad adecuada (ej. 1536 para ada-002). En la captura se ve la config: modo Insert Documents sobre el índice n8n-demo, con credencial Pinecone configurada previamente.

(Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) Flujo de ingesta de datos: En la imagen, nuestro flujo hasta ahora tiene: un Trigger manual (para iniciar el proceso), el nodo HTTP Request (“Retrieve the GitHub OpenAPI Spec”) obteniendo los datos, seguido por el nodo Pinecone Vector Store (“Save Chunks in Pinecone Vector…”). Por debajo, se conectan el nodo Generate Embeddings (OpenAI) proporcionando los embeddings, y el Default Data Loader + Recursive Character Text Splitter proporcionando los documentos fragmentados. Este flujo (primer bloque del agente RAG) toma los datos de origen, los fragmenta y los indexa con sus embeddings en Pinecone.

Ejecución de indexación: Ejecuta este segmento del workflow (puedes usar un nodo Manual Trigger para probar fácilmente). Si todo está bien, el Pinecone Vector Store insertará los vectores. Ten paciencia si son muchos – por ejemplo, indexar una especificación extensa puede tomar minutos ya que se generan muchos embeddings y se hacen múltiples inserciones. Al terminar, en tu dashboard de Pinecone verás que hay vectores almacenados (ej. el count de vectores en el índice aumenta) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). ¡Ya tienes tu base vectorial poblada con el conocimiento necesario!

3.3 Base de datos vectorial: Pinecone, Weaviate o Chroma

En nuestro ejemplo usamos Pinecone, un servicio SaaS de vector database, por su facilidad (tiene API REST y n8n ofrece un nodo nativo). Alternativas:

Weaviate: open-source con opción cloud, ofrece API GraphQL/REST. n8n no tiene nodo dedicado (a 2025) pero puedes usar HTTP Request para llamar a sus endpoints de importación/búsqueda, o crear un pequeño script en un nodo Code para interactuar (Weaviate tiene cliente JS/Python).
ChromaDB: base vectorial local (o self-host) en Python. Podrías ejecutarla dentro de un nodo Code en n8n, aunque una integración directa es compleja; otra opción es usar el nodo LangChain de n8n (LangChain Code) para gestionar un Chroma si se embebe Python, pero esto escapa al tutorial. Si necesitas vector DB local sin depender de cloud, Pinecone no aplica pero puedes usar PGVector (Postgres con extensión vectorial) – de hecho n8n tiene nodo para PGVector también.
Qdrant, Milvus, etc.: igualmente puedes integrar vía API o usando nodos HTTP/Code. Por ejemplo, hay plantillas de n8n que usan Qdrant (como el flujo con Google Drive y Gemini ( AI Powered RAG Chatbot for Your Docs + Google Drive + Gemini + Qdrant | n8n workflow template)).

El flujo será similar: la idea es tener un nodo en n8n donde configures la inserción de documentos con su embedding para tu vector DB preferido. En Pinecone fue sencillo con un solo nodo, en otros puede que necesites 2 (uno para llamar embed API y otro para insertar via HTTP). Consulta la doc de tu vector DB para la API de upsert/inserción.

3.4 Recuperación semántica de documentos relevantes

Con la base vectorial lista, el agente podrá buscar en ella los fragmentos más relevantes para una nueva pregunta. Implementaremos la fase de retrieval así:

Trigger de consulta: Necesitamos que el agente reciba consultas en tiempo real. En n8n tenemos varias opciones (lo detallaremos en la sección 4). Para simplificar, usaremos el Chat Trigger interno de n8n durante pruebas (te abre una ventanita de chat dentro de n8n). En producción, podrías usar un Webhook (para exponer una API REST que reciba preguntas) o integraciones de mensajería (por ej., un Slack Trigger o Telegram para recibir mensajes de usuarios). Por ahora, añade un Chat Trigger como inicio del segundo flujo (la parte de preguntas/respuestas) y conéctalo a nuestro siguiente nodo (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). El Chat Trigger activará el flujo cuando ingresemos un mensaje (pregunta).
Vector Store Tool: n8n proporciona un nodo llamado Vector Store Tool que sirve como herramienta de un agente para buscar en una base vectorial. Este nodo encapsula la lógica de: tomar la pregunta del usuario, generar su embedding y consultar la base vectorial, devolviendo los documentos relevantes. Agrega un nodo Vector Store Tool conectado desde el Chat Trigger (en paralelo a la entrada del agente, luego veremos cómo se orquesta) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Configura sus parámetros: pon un Name descriptivo (ej. “GitHub_OpenAPI_Specification”) y en Description indica al agente cuándo usar esta herramienta, por ejemplo: “Use esta herramienta para obtener información sobre la API de GitHub. Contiene especificaciones OpenAPI v3” (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Fija Limit = 4 para que solo recupere los 4 documentos más similares (evita demasiado contexto) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog).

(Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) Configuración del nodo Vector Store Tool: En la captura, el nodo se nombró “GitHub_OpenAPI_Specification” con la descripción en inglés que le indica al agente su propósito, y limit=4. Esta descripción es importante ya que el LLM decidirá invocar esta herramienta cuando necesite datos de la API de GitHub.

Conectar la base vectorial al Tool: Ahora añadiremos de nuevo un nodo Pinecone Vector Store, esta vez en modo Retrieve. Configura el nodo Pinecone con Operation Mode: Retrieve Documents (As Vector Store for Chain/Tool) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Esto lo prepara para usarse como fuente de vectores. Conecta la misma credencial Pinecone e índice que usaste al insertar (así busca en el mismo conjunto de vectores). Además, necesitamos especificar cómo generar el embedding de la consulta: la forma más sencilla es reutilizar el Embeddings OpenAI que ya teníamos. En el nodo Pinecone (Retrieve) podrás elegir o conectar un nodo de embeddings; en nuestro flujo conectaremos el nodo Embeddings OpenAI existente (asegurándonos de configurar su modelo igual que durante la indexación, p. ej. text-embedding-ada-002 para coherencia) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Esto hará que, al ejecutarse, Pinecone node tome la pregunta entrante, llame al embedding model para obtener su vector, y luego busque en Pinecone los vectores más cercanos, retornando esos documentos.

(Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) Configuración de Embeddings & Pinecone para búsqueda: Asegúrate que el nodo de Generate Embeddings (OpenAI) sigue seleccionado con el mismo modelo (en la imagen anterior estaba text-embedding-3-small) para generar el vector de la pregunta del usuario, y que el nodo Pinecone está en modo Retrieve Documents. De este modo, el Vector Store Tool podrá usar este nodo Pinecone+Embeddings como su backend.

Salida de la búsqueda: El nodo Pinecone (Retrieve) entregará típicamente una lista de documentos (los textos de los fragmentos encontrados) posiblemente con sus puntuaciones. Esta información estará disponible para el siguiente paso.

En lugar de armar manualmente esta combinación, podríamos haber utilizado directamente un nodo llamado Question and Answer Chain que ofrece n8n, el cual internamente hace la consulta vectorial y el LLM, pero aquí lo haremos de forma más explícita para entender el proceso. (El nodo Q&A Chain es útil para simplificar, pero vamos a configurar un agente más flexible con herramientas.)

3.5 Generación de la respuesta final con el LLM

Finalmente, con los documentos relevantes recuperados, usaremos el modelo de lenguaje (GPT-4) para producir la respuesta al usuario, incorporando la información encontrada:

Agente AI para orquestar las acciones: n8n cuenta con un nodo AI Agent que implementa agentes estilo LangChain. Este nodo puede recibir la pregunta del usuario, decidir usar herramientas (como nuestro Vector Store Tool) y luego componer la respuesta con la ayuda del LLM. Vamos a usar el AI Agent node en modo Tools Agent. Conecta el Chat Trigger al AI Agent node (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). En sus parámetros, selecciona Agent Type: Tools Agent. Puedes proporcionar un System Message inicial (prompt de sistema) para guiar el comportamiento del agente (por ejemplo: “Eres un asistente útil que proporciona información sobre la API de GitHub usando la documentación OpenAPI v3 proporcionada”) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Esto establece el contexto y personalidad del agente.
Conectar el modelo de lenguaje principal: El AI Agent node necesita un modelo para razonar y generar respuestas. Conecta el nodo OpenAI Chat Model (GPT-4) que configuraste antes al AI Agent (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). En la interfaz, verás que el AI Agent tiene entradas para Chat Model (el LLM que usa), Tools (las herramientas que puede usar), y Memory. Conecta el OpenAI Chat Model a la entrada Chat Model del agente.
Conectar la herramienta de vector store: Conecta el nodo Vector Store Tool al AI Agent, marcándolo como una Tool disponible (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). En la interfaz de n8n, arrastra una conexión desde el AI Agent node hasta el Vector Store Tool node; debería aparecer como conexión de tipo Tool. Ahora el agente “sabe” que tiene esa herramienta (y la descripción que le dimos le indica cuándo usarla).
Memoria (opcional): Para permitir conversaciones con seguimiento, podemos añadir memoria de chat. n8n tiene un nodo Window Buffer Memory que almacena las últimas N interacciones. Conéctalo al AI Agent en la entrada Memory (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). La configuración por defecto suele bastar (ej. almacenar los últimos 5 mensajes). Esto permite que el agente recuerde lo preguntado previamente en una misma sesión de chat.
Secuencia de ejecución: Cuando el Chat Trigger recibe una pregunta, pasará al AI Agent. El agente, con su prompt de sistema y la pregunta del usuario, decidirá usar la herramienta vectorial (gracias a la descripción, sabrá que para preguntas sobre GitHub API debe usarla). Entonces el Vector Store Tool tomará la pregunta, el Pinecone node buscará los top 4 fragmentos relacionados, y devolverá esos datos al agente. Luego, el agente los pasará junto con la pregunta al modelo GPT-4 (OpenAI Chat Model) para obtener la respuesta final (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog).
Formateo de la respuesta: Por defecto, el AI Agent node manejará internamente la inserción de los documentos en el prompt al LLM. También es posible que hayamos insertado un paso de Resumen de contexto si los documentos son muy largos – de hecho, en el ejemplo de la documentación n8n, tras recuperar los fragmentos, conectan otro nodo OpenAI Chat para resumirlos antes de la respuesta final (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Esto puede ser útil para reducir tokens. Si lo deseas, podrías añadir un nodo Summarize (n8n tiene uno) o un nodo OpenAI Chat adicional para condensar la info recuperada y luego alimentar esa síntesis al agente principal. Para mantenerlo sencillo, supondremos que los fragmentos caben en el prompt sin sumarización.

Ahora, ya tenemos todo el pipeline: pregunta -> (opcional memoria) -> agente -> [usa herramienta vectorial -> Pinecone busca -> devuelve textos] -> agente + GPT-4 -> respuesta.

4. Automatización del flujo de trabajo (agente autónomo en tiempo real)

El agente RAG está diseñado para trabajar de forma autónoma, reaccionando a nuevas consultas o tareas automáticamente. Para lograr esto en n8n debemos configurar triggers apropiados y activar el workflow:

Trigger adecuado: En pruebas usamos Chat Trigger manual, pero en producción querrás un mecanismo automático. Opciones:
- Webhook Trigger: expone un URL público para recibir peticiones. Puedes enviarle una solicitud POST con la pregunta y devolver la respuesta generada. Esto permitiría integrar tu agente en cualquier aplicación (por ejemplo, una página web chat, un bot de Discord usando webhooks, etc.). Solo tienes que mapear la entrada del webhook (campo de pregunta) a la entrada del AI Agent. Recuerda configurar N8N_HOST y quizás WEBHOOK_URL para que n8n genere URLs correctos, y abrir el puerto en tu servidor.
- Trigger de mensajería: n8n tiene nodos trigger para Slack, Telegram, Discord, etc. Por ejemplo, Telegram Trigger escucha mensajes a un bot de Telegram. Podrías iniciar el flujo con ese nodo y pasar el texto al agente. Así tu agente RAG contesta directo en la app de chat.
- Email Trigger / IMAP: si quieres un agente que responda emails, n8n puede revisar una bandeja de correo y responder automáticamente con el flujo RAG.
- Programación o condiciones: También se puede usar Schedule Trigger si el agente debe ejecutar periódicamente (por ej., actualizar su índice cada noche leyendo una base de datos), o Cron triggers. Incluso se puede encadenar que el agente se llame a sí mismo si tuviera una lista de tareas por hacer (aunque cuidado con bucles infinitos).
Autonomía del agente: Gracias al nodo AI Agent, nuestro agente decide por sí mismo cuándo usar la herramienta de búsqueda o simplemente responder. Esto lo acerca a un autónomo reactivo. No obstante, un agente completamente autónomo tipo AutoGPT implicaría que genere sus propios objetivos y busque nuevas herramientas. En n8n, podemos predefinir una serie de herramientas (nodos) y el agente tomará decisiones entre ellas (siguiendo el enfoque ReAct). Por ejemplo, podríamos añadir más Tools al agente: quizá un Calculator Tool (n8n tiene nodos AI para cálculos), o una API Tool (otra herramienta para hacer peticiones HTTP generales si el agente lo requiere). Mientras más herramientas definamos, más versátil pero también más complejo de controlar. Comienza con la herramienta de vector DB y asegúrate que el agente responda preguntas con datos.
Prueba interactiva: En n8n 2025 existe un modo Chat integrado: al hacer clic en “Chat” en la esquina inferior, puedes conversar con tu agente (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Activa el workflow (debes guardarlo y activarlo con el switch verde). Luego abre la ventana de chat y escribe una pregunta de prueba, p. ej.: “¿Cómo creo una GitHub App a partir de un manifiesto?”. El flujo deberá dispararse: el agente usará Pinecone para buscar en la spec de GitHub y GPT-4 generará una respuesta paso a paso sobre cómo hacerlo (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog). Si todo va bien, obtendrás una respuesta correcta basada en la documentación, demostrando el poder del RAG: el LLM responde con conocimiento específico y actualizado de GitHub API, en lugar de inventar.
Respuesta a través del trigger: Si usas webhook, la respuesta del agente hay que retornarla vía un nodo Respond to Webhook para contestar la petición HTTP. Si es Slack/Telegram, agrega un nodo Slack Message o Telegram Send Message conectado a la salida del AI Agent (formateando la respuesta) para que envíe la contestación al chat original. n8n hace fácil estas integraciones (por ejemplo, puedes conectar Slack con el agente para enviar la respuesta automáticamente al canal) (Traverx AI – Innovate, automate, elevate) (Traverx AI – Innovate, automate, elevate). Ajusta el flujo según el método de entrada/salida que prefieras.

En este punto, tenemos un agente que escucha continuamente (vía webhook o triggers) y procesa las consultas en tiempo real de manera autónoma. ¡El núcleo funcional está completo!

5. Conexión con otras herramientas y APIs para ampliar funcionalidad

Uno de los mayores beneficios de usar n8n es su facilidad para integrar múltiples servicios en un flujo. Tu agente RAG puede enriquecerse o actuar sobre otros sistemas, por ejemplo:

Acciones tras la respuesta: El agente no solo puede responder texto, también podría desencadenar acciones. Por ejemplo, si la pregunta fue “crea un ticket de soporte para X”, podrías detectar esa intención con el LLM y luego usar un nodo de Jira o GitHub para crear una issue. Esto requeriría un poco de ingeniería de prompt o lógica adicional. Una forma es usar el LLM para clasificar la petición y luego un Switch node para ramificar: si es acción, llama al API correspondiente; si es solo pregunta informativa, responde normalmente. Gracias a las 1000+ integraciones de n8n, puedes conectar prácticamente cualquier API o herramienta de terceros (OpenAI integrations | Workflow automation with n8n).
Más herramientas para el agente: Podemos registrar nodos adicionales como herramientas en el AI Agent node. Por ejemplo, un HTTP Request Tool que el agente pueda usar para hacer browsing (consultas web) si le entrenamos para eso, o herramientas específicas: una calculadora, un scraper, etc. En 2025, n8n incluye varios AI Tools nativos: por ejemplo Browser Tool, Calculator Tool, SQL DB Tool (para que el agente pueda ejecutar queries SQL directos) (Tools AI Agent node documentation | n8n Docs) (SQL AI Agent node documentation – n8n Docs). Agregar una herramienta es tan sencillo como configurarla (credenciales si aplica, descripción de cuándo usarla) y conectarla al AI Agent igual que hicimos con el Vector Store Tool. Así, tu agente podría, por ejemplo, buscar información en internet (si integras una API de búsqueda), o realizar acciones en tu sistema (crear archivos, mandar emails) todo autónomamente.
Flujos paralelos o subsistemas: Puedes combinar el agente RAG con otros flujos de n8n. Ejemplo: si quieres que el agente tenga siempre información fresca de cierto sistema, crea un workflow programado que cada X tiempo extraiga datos nuevos (p.ej., nuevos PDFs añadidos a una carpeta, o nuevos registros de DB) y los inserte en Pinecone (actualizando la base vectorial). Así el agente consultará un conocimiento actualizado. Otro ejemplo: si el agente genera una respuesta y quieres guardarla para auditoría, puedes en paralelo tomar la salida y guardarla en una Google Sheet o base de datos con un simple nodo Append.

En definitiva, la interconexión es ilimitada. n8n te permite orquestar todas estas piezas sin código complejo: arrastrando nodos y estableciendo parámetros. Nuestra solución aprovecha eso integrando LLMs, vectordb y cualquier API necesaria en un solo flujo.

6. Monitoreo, escalabilidad y despliegue en producción

Al llevar este agente a producción, debemos considerar:

Monitoreo de ejecuciones: n8n proporciona un panel de Ejecuciones donde puedes ver el historial de runs (con fecha, duración, resultado). Si alguna ejecución falla (por error de API, credencial, etc.), puedes inspeccionar el log detallado paso a paso en la UI para depurar. Para alertar de errores en producción, puedes crear un Workflow de error global: n8n tiene el nodo Error Trigger que se activa cuando falla otro workflow (Error handling – n8n Docs). Por ejemplo, podrías tener un flujo con Error Trigger que envíe un mensaje de Slack/email con la info del fallo (Successful workflows triggering the Error workflow – n8n Community). Así te enteras si el agente encuentra algún problema (por ejemplo, si Pinecone API falla, etc.). También puedes registrar ciertas métricas manualmente, e.g. contar cuántas preguntas se responden al día (usando un nodo Increment en una BD).
Escalabilidad: Si el uso de tu agente crece (muchas consultas concurrentes), la instancia única de n8n puede volverse insuficiente. n8n soporta un modo de ejecución en cola (queue mode) que permite escalar horizontalmente. En este modo, tienes un proceso principal y varios workers (incluso en múltiples servidores) leyendo de una cola Redis tareas de workflow (Automation: n8n strikes back). Esto habilita procesar muchas peticiones en paralelo de forma segura. Según la documentación, el queue mode es la opción de mayor escalabilidad (Queue mode environment variables | n8n Docs ). Para activarlo, configuras EXECUTIONS_MODE=queue y detalles de Redis (host, puerto, etc.) en las variables de entorno, levantas un contenedor para el main (editor + disparador) y N contenedores para workers. Pinecone u otras APIs escalarán aparte según su servicio, pero n8n podrá manejar más carga. En entornos de Kubernetes o ECS, consulta la guía de n8n para su despliegue distribuido. Si tu agente requiere altísima disponibilidad, considera balancear entradas (webhooks) y duplicar instancias en distintos data centers.
Despliegue seguro: Asegúrate de securizar las credenciales (usa N8N_ENCRYPTION_KEY y si es posible almacena secretos en variables de entorno o vaults). Habilita autenticación en n8n para que nadie no autorizado acceda a tu editor. Si expones webhooks públicamente, restringe el acceso mediante tokens o encabezados API Key (puedes hacer que el webhook espere cierto token en la query y validarlo en el flujo antes de procesar la pregunta). Mantén n8n actualizado; en 2025 se lanzan versiones frecuentes con mejoras (por ejemplo, soporte a nuevas funciones de OpenAI, etc.).
Pruebas y calidad: Prueba tu agente con variedad de preguntas, especialmente bordes: preguntas fuera del dominio (debería quizás responder que no sabe), preguntas ambiguas (ver cómo reacciona). Puedes integrar un paso de “moderación” usando la API de moderación de OpenAI o filtros de contenido, antes de pasar la pregunta al agente, para evitar que procese consultas maliciosas. Igualmente, monitorea posibles alucinaciones: aunque RAG reduce esto, si la base de conocimiento es incompleta el LLM podría inventar. Considera añadir en el prompt del sistema algo como “Si no encuentras información relevante en la base de datos, responde que no sabes en lugar de inventar.”
Mantenimiento de la base de conocimientos: Tu workflow de ingesta puede necesitar re-ejecutarse para incorporar nuevos datos. Puedes automatizarlo (como mencionamos, con un trigger periódico o evento, e.g. al subir un nuevo archivo a Drive, lanzar flujo de indexado). Pinecone y otras DBs vectoriales suelen admitir upsert de documentos; en nuestro flujo, simplemente al insertar un fragmento con misma ID lo actualiza (asegúrate de definir un ID único por documento, quizás basado en hash de contenido). Ten un plan de actualización para que el agente no se quede desfasado respecto a la info real.

Finalmente, desplegar en producción podría ser tan sencillo como alojar tu docker-compose en un servidor (DigitalOcean, AWS, etc.), o usar n8n Cloud (servicio alojado oficial) que te evita la gestión de infraestructura – puedes importar tu workflow allí y configurar credenciales de manera segura.

Conclusión: Hemos creado un agente autónomo con RAG en n8n, integrando la potencia de GPT-4 con una base de conocimiento específica. Este agente es capaz de recibir consultas en tiempo real, buscar información relevante en documentos (OpenAPI de GitHub en nuestro ejemplo) y generar respuestas precisas y fundamentadas, todo de forma automatizada. Además, gracias a n8n, podemos conectar este agente con cualquier otra herramienta o API, haciendo posible construir asistentes mucho más útiles (que no solo conversan, sino que también actúan). La escalabilidad y monitorización están respaldadas por las características empresariales de n8n, por lo que este enfoque puede llevarse a entornos de producción reales en 2025.

¡Ahora te toca a ti! Puedes adaptar este tutorial a tus propios datos (p. ej., cargar PDFs empresariales en lugar de la API de GitHub) y crear agentes especializados (soporte al cliente, búsqueda documental, asistente interno, etc.). n8n te ofrece la base para innovar rápidamente en el campo de agentes de IA autónomos con muy poco código.

Referencias:

Documentación oficial n8n – Advanced AI (RAG, vector stores) (Populate a Pinecone vector database from a website | n8n Docs ) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog)
Blog n8n – Ejemplo práctico de chatbot RAG (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog) (Build a Custom Knowledge RAG Chatbot using n8n – n8n Blog)
Traverx AI – Guía RAG Chatbot con n8n (Traverx AI – Innovate, automate, elevate) (Traverx AI – Innovate, automate, elevate)
Blog Kalvad – Autenticación y configuración de n8n en producción (Automation: n8n strikes back) (Automation: n8n strikes back)
Documentación n8n – Ollama (Llama 2 local) node (Ollama Model node documentation | n8n Docs ), Queue Mode (Queue mode environment variables | n8n Docs ).

Xavier Lopez