En un entorno donde la privacidad de los datos y los costes de las APIs cloud (OpenAI, Anthropic) son preocupaciones constantes, la IA Local ha pasado de ser un hobby de entusiastas a una solución viable para desarrolladores y empresas.
Ejecutar LLMs (Large Language Models) en tu propio hardware no solo garantiza la privacidad total, sino que elimina la latencia de red y los costes por token.
IA Local vs. Cloud: ¿Cuándo elegir cada una?
IA en cloud (API)
- La configuración es prácticamente instantánea.
- Tiene una escalabilidad muy alta, incluso para modelos enormes.
- La privacidad depende del proveedor que uses.
- Funciona con pago por uso, normalmente por tokens o peticiones.
IA Local (Self-hosted)
- Ofrece privacidad total porque todo corre en tu propio hardware.
- Requiere una inversión inicial en GPU o equipos potentes.
- Necesita configuración técnica y mantenimiento.
- La capacidad está limitada por tu VRAM y potencia de hardware.
Elige IA Local si:
- Manejas datos sensibles o privados.
- Tienes hardware compatible como GPU NVIDIA o Apple Silicon.
- Quieres experimentar sin límites de cuotas o costes por uso.
Elige Cloud si:
- Necesitas alto throughput o modelos gigantes (405B+).
- No tienes GPU dedicada.
- Buscas prototipado rápido y despliegue inmediato.
Principales Frameworks para Inferencia Local
Para ejecutar modelos locales, no necesitas escribir código C++ desde cero. Existen frameworks que abstraen la complejidad:
Ollama: La puerta de entrada
- Setup: Instalación en un solo comando.
- Uso: ollama run qwen3.6:35b y listo.
- Ventaja: Gestión automática de memoria y API compatible con OpenAI.
LM Studio: Interfaz gráfica completa
- Setup: Descarga e instalación desde lmstudio.ai
- Uso: Buscador integrado de modelos, descarga directa de GGUF, interfaz de chat visual.
- Ventaja: Ideal para usuarios que prefieren no usar terminal, soporta GGUF/GPTQ/AWQ, API local incluida.
llama.cpp: El estándar de eficiencia
- Formato GGUF: Reduce precisión de pesos (FP16 → INT4) con poca pérdida de calidad.
- Hardware: Optimización para CPU y GPU.
vLLM: Para alta disponibilidad y throughput
- PagedAttention: Optimiza KV cache, más requests concurrentes.
- Uso: Servidores profesionales , producción.
Comparativa de Modelos Open Source
No todos los modelos destacan en las mismas tareas. Aquí tienes una comparativa de los principales referentes actuales en IA:
Qwen3.6 35B 35B A3b MoE: Coding, Math, Multimodal. Ideal para Apple Silicon / DGX Spark y memoria unificada, ~22 GB
Qwen3.6 27B Dense 27B: Razonamiento profundo, tareas agenticas con contexto completo en Q4. Perfecto para gpus ~18 GB
Gemma 4 31B: Creatividad, instrucciones, estilo natural ~20 GB
Qwen3.6 9B: Equilibrio calidad y velocidad, útil para tareas generales ~8 GB
Nemotron 4B: Ultra ligero, edge devices, respuestas rápidas ~4 GB
Requisitos de Hardware: ¿Qué necesitas realmente?
El rendimiento de la IA local depende de dos factores críticos: VRAM y ancho de banda de memoria (memory bandwidth).
La VRAM determina si puedes cargar el modelo. El ancho de banda determina cuántos tokens por segundo genera. Una GPU con mucha VRAM pero poco ancho de banda cargará el modelo pero generará lento.
| Nivel | Hardware | VRAM / Memoria | Ancho de banda | Modelo práctico (Q4) | Tokens/s estimados* |
|---|---|---|---|---|---|
| Básico | RTX 4060 | 8 GB | 272–288 GB/s | 7B–9B | ~40–65 |
| Intermedio | 4070 Ti Super | 16 GB | 672 GB/s | 14B cómodo / 27B ajustado | ~20–45 |
| Avanzado | RTX 4090 | 24 GB | 1008 GB/s | 27B cómodo / MoE medianos | ~45–70 |
| Top | RTX 5090 | 32 GB | 1792 GB/s | 27B holgado / 70B Q3 | ~60–100+ |
| Apple Silicon | Apple M4 Max | 128 GB unificada | 546 GB/s | 70B cuantizado viable | ~20–40 |
Nota: Los tokens por segundo varían según el modelo, cuantización y longitud de contexto. El bandwidth es el factor limitante en decode (generación token a token).
Contexto y KV Cache: el factor oculto de la VRAM
Muchos usuarios creen que si un modelo “cabe” en la VRAM, ya está todo resuelto. Pero en inferencia local existe otro consumidor crítico de memoria: el KV cache.
El KV cache almacena el contexto de la conversación para que el modelo no tenga que recalcular todos los tokens anteriores en cada generación. Cuanto más largo es el contexto (‘4K’, ’32K’, ‘128K’ tokens), más memoria consume.
Esto significa que:
- Un modelo 27B que funciona bien en 24 GB con contexto ‘4K’ puede quedarse sin memoria en ’32K’ o ‘128K’.
- Contextos largos reducen la velocidad de generación (tokens/s).
- La concurrencia en servidores locales (‘vLLM’, ‘TGI’) también depende del tamaño del KV cache.
En workflows modernos, especialmente agénticos o RAG-heavy, el KV cache puede consumir tanta memoria como los propios pesos cuantizados.
- 4K–8K Uso estándar, menor VRAM
- 32K Más memoria y menor throughput
- 128K+ Requiere GPUs de alta VRAM o memoria unificada
Por eso, al elegir hardware para IA local, no basta con mirar únicamente el tamaño del modelo. El contexto máximo y el número de usuarios concurrentes también determinan los requisitos reales de memoria.
Workflow: Setup Rápido de Inferencia Local
Línea de comandos (Ollama):
1. Instalar:
curl -fsSL https://ollama.com/install.sh | sh
2. Ejecutar modelo: ‘ollama run qwen3.6:35b’ (automáticamente descarga y usa la versión que cabe en tu hardware)
3. API local: Disponible en ‘localhost:11434’ , compatible con OpenAI API. Cualquier app que use la API puede apuntar a Ollama cambiando el endpoint.
Interfaz gráfica (LM Studio):
1. Descargar: desde lmstudio.ai
2. Buscar y descargar modelos GGUF directamente desde la app.
3. Chat visual y API local incluida en ‘localhost:1234’
Integración con herramientas externas:
Cursor , Windsurf , Claude Code: Configura el provider como Ollama o LM Studio para usar modelos locales.
n8n , Dify , Langflow: Conecta la API local para workflows automatizados.
Python: Usa la librería ‘openai’ apuntando a ‘http://localhost:1234/v1’
FAQ: Preguntas Frecuentes sobre IA Local
¿Puedo ejecutar IA local sin GPU?
Tecnicamente sí. ‘llama.cpp’ permite usar la RAM del sistema (CPU), pero en la práctica es inutilizable para escenarios reales. Un modelo 9B en CPU genera ~5-10 tokens por segundo, lo que significa esperar 5-10 segundos por cada frase. Para uso casual mínimo quizás tolerable con contextos muy pequeños, pero para desarrollo, trabajo productivo o tareas agénticas, la experiencia es frustrante. La GPU no es opcional si quieres IA local utilizable.
¿Qué es la cuantización?
Es el proceso de reducir la precisión numérica de los pesos del modelo (por ejemplo, de FP16 a INT4) para que ocupe menos memoria y corra más rápido, con una pérdida ligera de calidad. Un modelo de 27B en Q4 ocupa ~18 GB en lugar de ~54 GB en FP16.
¿Cuál es el mejor modelo para programar en local?
Actualmente, Qwen3.6 27B Dense es la opción más equilibrada para coding en hardware de gama alta. Para setups más modestos, Qwen3.6 9B ofrece buen rendimiento en tareas de programación.
¿Es seguro descargar modelos de internet?
Usa formatos estándar como GGUF y descarga de fuentes confiables como Hugging Face. Busca autores verificados como Unsloth o Bartowski y modelos con muchas descargas y buenas valoraciones.
¿La IA local consume mucha electricidad?
Durante la inferencia, la GPU trabaja al máximo. Una RTX 4090 consume ~450W bajo carga, mientras que la RTX 5090 alcanza ~600W de pico. Significativo, pero sigue siendo mucho menor que el coste operativo de un centro de datos cloud y, en uso prolongado, puede ser más económico que pagar APIs.
¿Cuánto espacio en disco necesito?
Depende de los modelos. Un modelo 9B en Q4 ocupa ~6 GB, uno de 27B ~18 GB, y uno de 35B MoE ~22 GB. Ten al menos 100 GB libres si planeas rotar entre varios modelos.
¿Puedo fine-tunear modelos en local?
Sí, pero requiere hardware considerable. El fine-tuning para un modelo 9B necesita al menos 24 GB de VRAM (con optimizaciones como QLoRA). Para modelos más grandes, se recomiendan setups multi-GPU o Apple Silicon con 128 GB de memoria unificada.
Conclusiones
La IA Local ya no es un experimento. Para el desarrollador moderno, dominar herramientas como Ollama, LM Studio y llama.cpp, y entender la relación entre VRAM, ancho de banda y tamaño de modelo, es fundamental para construir aplicaciones privadas, rápidas y sin costes por token.
El ecosistema de modelos open source en 2026 ofrece opciones de alta calidad para cada nivel de hardware: desde Nemotron 4B en dispositivos edge hasta Qwen3.6 35B MoE en setups con memoria unificada. La clave es elegir el modelo correcto para tu hardware y aprovechar la cuantización sin comprometer la calidad.
¿Qué modelo local usas en tu setup? Cuéntanos tu configuración: GPU, RAM y modelo. Abajo en los comentarios.
