Arquitectura de Agentes Autónomos Locales

INIT_AGENT_PROTOCOL

Depender de la API de OpenAI (GPT-4) para desarrollar agentes autónomos es rápido, pero tiene dos problemas mortales para despliegues empresariales: privacidad de datos y costos de inferencia exponenciales.

En este apunte detallo mi stack de IA On-Premise, diseñado para correr agentes como Hermes o OpenClaw directamente en el homelab.

El Stack Tecnológico

El Motor (Ollama): Corriendo en un contenedor LXC en Proxmox con GPU passthrough. Ollama gestiona los pesos de los modelos (ej. Llama 3, Mistral) y los expone vía API.

El Traductor (LiteLLM): Muchos frameworks de agentes están codificados hardcoded para la API de OpenAI. LiteLLM actúa como un proxy inverso; recibe solicitudes formato OpenAI y las traduce al formato Ollama.

El Cerebro (Framework): Python puro ejecutando ciclos de Razonamiento y Acción (ReAct).

Configuración del Proxy (LiteLLM)

Levantar el proxy es cuestión de un comando Docker:

docker run -d -p 4000:4000
-e OLLAMA_API_BASE=“http://10.0.0.50:11434”
litellm/litellm
—model ollama/llama3

Ahora, tu script de Python piensa que está hablando con OpenAI:

import openai

client = openai.OpenAI( api_key=“sk-nada”, # No se requiere key real base_url=“http://localhost:4000” )

response = client.chat.completions.create( model=“ollama/llama3”, messages=[{“role”: “user”, “content”: “Analiza este log del servidor…”}] )

En próximos posts abordaremos la inyección de contexto (RAG) usando bases de datos vectoriales locales.