Arquitectura de Agentes Autónomos Locales
INIT_AGENT_PROTOCOL
Depender de la API de OpenAI (GPT-4) para desarrollar agentes autónomos es rápido, pero tiene dos problemas mortales para despliegues empresariales: privacidad de datos y costos de inferencia exponenciales.
En este apunte detallo mi stack de IA On-Premise, diseñado para correr agentes como Hermes o OpenClaw directamente en el homelab.
El Stack Tecnológico
El Motor (Ollama): Corriendo en un contenedor LXC en Proxmox con GPU passthrough. Ollama gestiona los pesos de los modelos (ej. Llama 3, Mistral) y los expone vía API.
El Traductor (LiteLLM): Muchos frameworks de agentes están codificados hardcoded para la API de OpenAI. LiteLLM actúa como un proxy inverso; recibe solicitudes formato OpenAI y las traduce al formato Ollama.
El Cerebro (Framework): Python puro ejecutando ciclos de Razonamiento y Acción (ReAct).
Configuración del Proxy (LiteLLM)
Levantar el proxy es cuestión de un comando Docker:
docker run -d -p 4000:4000
-e OLLAMA_API_BASE=“http://10.0.0.50:11434”
litellm/litellm
—model ollama/llama3
Ahora, tu script de Python piensa que está hablando con OpenAI:
import openai
client = openai.OpenAI( api_key=“sk-nada”, # No se requiere key real base_url=“http://localhost:4000” )
response = client.chat.completions.create( model=“ollama/llama3”, messages=[{“role”: “user”, “content”: “Analiza este log del servidor…”}] )
En próximos posts abordaremos la inyección de contexto (RAG) usando bases de datos vectoriales locales.