Agente IA para WhatsApp en tu empresa: cómo implementarlo con Evolution API y n8n
Montar un agente IA para WhatsApp en una empresa real no es tan complicado como parece, pero sí requiere tomar decisiones técnicas correctas desde el principio. En nacaIA hemos implementado esta arquitectura para varios clientes — peluquerías, talleres, academias, clínicas — y en este artículo explicamos exactamente cómo funciona la combinación de Evolution API y n8n para construir un agente conversacional en WhatsApp sin depender de los costes variables de la API oficial de Meta.
El resultado es un agente que responde 24 horas al día, mantiene el hilo de la conversación, consulta la información del negocio y deriva a un humano cuando el caso lo requiere. Todo corriendo en tu propia infraestructura, con costes predecibles y sin plataformas intermedias.
Por qué Evolution API y no la API oficial de WhatsApp Business
La API oficial de WhatsApp Business de Meta tiene un modelo de precios por conversación que puede dispararse rápidamente en negocios con volumen medio-alto. Para una empresa que recibe 200 mensajes al día, la factura mensual empieza a ser significativa incluso antes de añadir los costes del LLM. Evolution API resuelve este problema siendo una solución open source que actúa como intermediario, conectando tu servidor directamente con WhatsApp sin pasar por los costes por mensaje de Meta.
Esto tiene una implicación técnica importante: Evolution API funciona conectando una sesión de WhatsApp estándar — el QR de toda la vida — en lugar de usar el canal oficial de Business API. Para la mayoría de pequeñas y medianas empresas esto es perfectamente válido y representa un ahorro sustancial desde el primer mes. La arquitectura resultante es limpia: Evolution API recibe y envía mensajes, n8n orquesta el flujo completo, y un LLM (Claude, GPT-4o o similar) proporciona la inteligencia conversacional.
Dicho esto, si tu empresa necesita enviar mensajes proactivos masivos o cumplir con políticas estrictas de plataformas reguladas, la API oficial sigue siendo la opción más sólida. En nacaIA trabajamos con ambas según el caso de uso del cliente. Puedes ver más sobre las distintas arquitecturas en nuestros servicios de chatbot IA para empresa.
Arquitectura del agente: los tres componentes clave
Antes de entrar en la implementación, es importante entender cómo encajan las piezas. Un agente IA para WhatsApp construido con Evolution API y n8n tiene tres capas bien diferenciadas que trabajan en conjunto: la capa de mensajería, la capa de orquestación y la capa de inteligencia.
Capa 1 — Evolution API: el puente con WhatsApp
Evolution API es el componente que gestiona la conexión con WhatsApp. Se instala en tu propio servidor (un VPS básico de 4GB de RAM es suficiente para empezar), expone una API REST y un sistema de webhooks, y actúa como puente bidireccional: recibe los mensajes entrantes y los reenvía a n8n, y también envía las respuestas de vuelta al usuario. La instalación se hace con Docker en menos de 15 minutos. Una vez levantado el contenedor, escaneas el código QR desde la app de WhatsApp de tu empresa y la instancia queda vinculada.
El webhook de Evolution API se configura apuntando a n8n para que cada mensaje nuevo dispare el workflow automáticamente. La carga útil que llega incluye el número de teléfono del remitente, el contenido del mensaje, el tipo (texto, audio, imagen, documento) y el timestamp. Con eso es más que suficiente para que n8n tome el control del flujo completo.
Capa 2 — n8n: el cerebro de la orquestación
n8n recibe el webhook de Evolution API y decide qué hacer con cada mensaje. Aquí reside toda la lógica del agente: identificar si es un cliente nuevo o recurrente, consultar la base de conocimiento o el CRM, llamar al LLM con el contexto adecuado, formatear la respuesta y enviarla de vuelta a través de Evolution API. En nacaIA usamos n8n self-hosted para garantizar que todos los datos del cliente permanecen en la infraestructura del negocio, sin pasar por terceros.
El workflow base para un agente conversacional tiene entre 8 y 12 nodos: el trigger de webhook, un nodo de validación del mensaje, la recuperación del historial de conversación almacenado en Redis o PostgreSQL, la llamada al LLM vía HTTP Request, el formateo de la respuesta, y el envío vía Evolution API. Para agentes más avanzados con RAG, se añaden nodos de búsqueda vectorial que consultan la documentación del negocio antes de generar cada respuesta. Puedes ver esta arquitectura aplicada en detalle en el artículo sobre cómo automatizar WhatsApp en talleres mecánicos con RAG y n8n.
Capa 3 — El LLM: la inteligencia del agente
El LLM es el componente que convierte el historial de conversación y la base de conocimiento en respuestas coherentes y útiles. En la mayoría de implementaciones que hacemos en nacaIA usamos Claude de Anthropic por su capacidad de seguir instrucciones complejas de forma consistente, aunque también trabajamos con GPT-4o según las preferencias del cliente. La clave está en el prompt de sistema: un buen system prompt define la personalidad del agente, los límites de lo que puede responder, el tono de comunicación y las instrucciones para situaciones específicas como derivar a un humano cuando el cliente lo solicite explícitamente.
Implementación paso a paso: de cero al primer mensaje
Esta es la secuencia que seguimos en nacaIA cuando montamos esta arquitectura para un cliente. Los tiempos son reales para un equipo con experiencia; si es tu primera vez, multiplica por dos o tres.
Paso 1 — Servidor y Docker (30 min): Un VPS con Ubuntu 22.04, 4GB RAM y 20GB de disco es suficiente para empezar. Se instala Docker y Docker Compose, y se levanta Evolution API con su fichero docker-compose.yml. La interfaz web de Evolution API queda disponible en el puerto configurado.
Paso 2 — Instancia y vinculación de WhatsApp (10 min): Desde el panel de Evolution API se crea una instancia nueva, se accede al endpoint del QR y se escanea con el teléfono del negocio. La sesión queda activa hasta que se cierre manualmente o expire por inactividad prolongada.
Paso 3 — n8n y el workflow base (2-3 horas): Se instala n8n también con Docker y se construye el workflow con el nodo Webhook como disparador. Los nodos clave son: extracción del número y mensaje, consulta del historial de conversación, llamada al LLM vía HTTP Request, y envío de respuesta a Evolution API. En esta fase se define también la gestión de memoria conversacional para que el agente mantenga contexto entre mensajes.
Paso 4 — Prompt y base de conocimiento (1-2 días): Este es el paso que más tiempo lleva y más impacto tiene en la calidad del agente. Se redacta el system prompt con las instrucciones del negocio, los casos de uso habituales, el tono de respuesta y los límites del agente. Si el negocio tiene documentación (catálogos, FAQs, tarifas, protocolos), se carga en un sistema RAG para que el agente pueda consultarla antes de responder.
Paso 5 — Pruebas y ajustes (1-2 días): Se prueban los flujos habituales y los casos límite: mensajes ambiguos, solicitudes fuera del alcance del agente, múltiples mensajes seguidos, emojis, audios. Se ajusta el prompt y la lógica de n8n según lo que aparezca en las pruebas antes de pasar a producción.
Caso real: agente IA en una clínica de fisioterapia
Un cliente de nacaIA, una clínica de fisioterapia en Cádiz, nos contactó porque su recepcionista dedicaba más del 60% de su tiempo a responder las mismas preguntas por WhatsApp: horarios, tarifas, tipos de sesiones, cómo pedir cita. La solución fue un agente IA con Evolution API + n8n + Claude que gestiona los primeros mensajes de forma autónoma.
El agente responde preguntas frecuentes consultando una base de conocimiento con la información de la clínica, gestiona las solicitudes de cita derivando al sistema de reservas, y detecta mensajes urgentes — dolor agudo, empeoramiento repentino — para alertar al fisioterapeuta de turno. En los primeros 30 días, el 74% de las consultas entrantes se resolvieron sin intervención humana. La recepcionista ahora solo gestiona los casos que realmente requieren criterio clínico y las citas que necesitan valoración previa.
Este tipo de implementaciones son exactamente lo que ofrecemos desde nacaIA como parte de nuestros servicios de agentes IA para empresa. Cada proyecto parte de un análisis de los flujos de conversación habituales del negocio antes de diseñar la arquitectura.
Qué puedes automatizar con este agente en tu empresa
La versatilidad de esta arquitectura permite cubrir casos de uso muy distintos según el sector. En todos los casos, el agente trabaja 24 horas al día sin coste marginal por mensaje adicional, lo que supone un retorno claro desde el primer mes de operación.
Para negocios con cita previa — peluquerías, clínicas, consultas, academias — el agente gestiona la agenda respondiendo sobre disponibilidad, confirmando citas y enviando recordatorios automáticos sin intervención humana. Para comercios y tiendas, responde sobre catálogo, stock, precios y estado de pedidos integrando la consulta con el sistema de gestión existente. Para empresas de servicios, cualifica leads automáticamente antes de pasarlos al equipo comercial, recopilando la información relevante (tipo de servicio, urgencia, presupuesto estimado) en la primera conversación.
Si te interesa aprender a construir estas arquitecturas tú mismo, en nacaIA Academy tenemos formación específica sobre automatizaciones con n8n y agentes conversacionales. Puedes consultar los cursos disponibles en nuestra sección de formación.
Preguntas frecuentes
¿Es legal usar Evolution API con WhatsApp para una empresa?
Evolution API conecta con WhatsApp a través de una sesión estándar de usuario, no mediante la API oficial de Meta. Técnicamente esto se encuentra en un área gris respecto a los términos de servicio de WhatsApp, que prohíben el uso de clientes no oficiales para cuentas de negocio. Para empresas que necesitan máxima seguridad legal, la opción correcta es la API oficial de WhatsApp Business a través de un proveedor autorizado. Evolution API es la opción habitual en proyectos de tamaño pequeño y mediano donde prima el coste sobre la conformidad estricta con los TOS.
¿Cuánto cuesta montar un agente IA para WhatsApp con esta arquitectura?
Los costes principales son el servidor (un VPS básico entre 5 y 20€/mes), el uso del LLM (Claude o GPT-4o cobran por tokens; para un volumen de 500-1.000 mensajes al día el coste ronda los 20-60€/mes) y n8n (gratuito en self-hosted). El coste de implementación con nacaIA varía entre 800 y 2.500€ según la complejidad del agente. El retorno es inmediato si el negocio dedica más de 2 horas al día a atención por WhatsApp.
¿El agente puede manejar audios e imágenes, no solo texto?
Sí. Evolution API recibe todos los tipos de mensajes de WhatsApp: texto, audio, imágenes, documentos y ubicaciones. En n8n se puede añadir un nodo de transcripción de audio con Whisper para convertir los mensajes de voz en texto antes de pasarlos al LLM. Las imágenes se analizan con modelos multimodales como GPT-4o Vision o Claude 3, lo que abre casos de uso como diagnósticos visuales en talleres o lectura de documentos enviados por foto.
¿Cómo se gestiona la privacidad de los datos de los clientes?
Al usar n8n y Evolution API en infraestructura propia, todos los datos de las conversaciones permanecen en tus servidores y no pasan por plataformas de terceros. Esto es especialmente relevante para sectores como salud, legal o financiero donde la confidencialidad es crítica. En nacaIA recomendamos servidor ubicado en la UE para cumplir con el RGPD y almacenamiento de datos de conversación en PostgreSQL con cifrado en reposo.
¿Cuánto tiempo tarda en estar operativo el agente?
Un agente básico que responde preguntas frecuentes puede estar funcionando en 3-5 días hábiles. Un agente más complejo con RAG, integración con CRM y gestión de citas puede requerir 2-3 semanas. El tiempo más largo no es el técnico sino el de diseño del prompt y la base de conocimiento: definir qué debe saber el agente, qué no debe responder y cómo comportarse en cada situación es el trabajo que marca la diferencia entre un agente útil y uno frustrante.
Conclusión
Si tu empresa quiere implementar un agente IA para WhatsApp y no tiene grandes volúmenes ni requerimientos regulatorios estrictos, la combinación de Evolution API + n8n + LLM es el punto de entrada más racional en 2026. Es rápida de montar, económica de mantener y lo suficientemente flexible para crecer en complejidad a medida que el negocio lo necesite.
En nacaIA llevamos tiempo implementando esta arquitectura para clientes de distintos sectores y hemos documentado los patrones que funcionan y los errores que hay que evitar. Si quieres que analicemos tu caso y te propongamos una solución a medida, puedes contactar con nosotros aquí. Y si prefieres aprender a implementarlo tú mismo, tienes el camino de formación disponible en nacaIA Academy.