Tu Primer Setup con LM Studio y Open WebUI

Para configurar IA local en 2026 necesitas tres componentes: LM Studio como motor de inferencia, Open WebUI como interfaz de chat, y una GPU con mínimo 8 GB de VRAM. El setup completo toma entre 20 y 30 minutos. Una vez funcionando, tendrás un chat privado con modelos open source como Qwen 3.6 o Gemma 4, sin enviar datos a servidores externos y sin suscripción mensual.

En esta guía cubrimos todo desde la instalación hasta la búsqueda web integrada, dejando la puerta abierta a setups mas avanzados: agentes autónomos, multi-GPU y fine-tuning.

Que es la IA Local y por que importa en 2026

IA local significa ejecutar modelos de lenguaje (LLMs) en tu propio hardware, en lugar de depender de APIs en la nube como ChatGPT, Claude o Gemini. En 2026, los modelos open source han alcanzado un nivel donde un setup domestico con GPU dedicada puede manejar tareas de redacción, análisis de código y asistencia general con calidad comparable a los servicios comerciales.

Las ventajas practicas son:

Privacidad total: Ningún dato sale de tu código. Ideal para documentos sensibles, código propietario o conversaciones privadas.
Sin costo recurrente: Tras la inversión inicial en hardware, no hay suscripción mensual ni límites de tokens.
Sin censura ni bloqueos: Tu modelo, tus reglas. No hay filtros de seguridad impuestos por terceros.
Funciona offline: Una vez descargados los modelos, no necesitas conexión a internet.

Nota: Los modelos locales no son gratuitos — el hardware tiene un costo real. Una RTX 5070 Ti ronda los 1000€ y una RTX 5090 supera los 4000€ a día de hoy. Pero el ahorro en suscripciones y api(GPT-5.5, Claude Pro 20-200€/mes) empieza a compensar si usas la IA diariamente.

Requisitos de hardware

El factor más importante es la VRAM (memoria de video). Los modelos se cargan en la GPU y la VRAM determina que tamanos de modelo puedes correr. El ancho de banda de memoria (bandwidth) determina la velocidad de respuesta.

Nivel	GPU	VRAM	Bandwidth	Modelo recomendado	Velocidad estimada
Entrada	RTX 4060	8 GB GDDR6	272 GB/s	Qwen3.6 9B, Gemma 4 9B	25-40 tok/s
Intermedio	RTX 5070 Ti	16 GB GDDR7	800 GB/s	Qwen3.6 27B, Gemma 4 27B	18-30 tok/s
Power user	RTX 5090	32 GB GDDR7	1792 GB/s	Qwen3.6 35B MoE, Gemma 4 31B	22-35 tok/s

Requisitos adicionales:

RAM del sistema: Minimo 16 GB (32 GB recomendado). El sistema necesita memoria adicional para el SO y las aplicaciones.
Almacenamiento: Cada modelo ocupa entre 5 y 25 GB en formato GGUF. Con 3-4 modelos necesitas 100 GB libres como minimo.
CPU: Cualquier CPU moderna con soporte AVX2. No es el cuello de botella pero ayuda en la carga inicial del modelo.
Fuente de alimentación: Para RTX 5070 Ti, mínimo 750W. Para RTX 5090, mínimo 1000W.

Sin GPU dedicada: Puedes correr modelos solo con CPU, pero la velocidad cae a 2-5 tokens por segundo — prácticamente inutilizable para conversaciones fluidas. Si no tienes GPU dedicada, espera a poder invertir en una antes de empezar.

1 Instalar LM Studio

LM Studio es la aplicación que se encarga de ejecutar los modelos de lenguaje en tu GPU. Proporciona una interfaz gráfica para descargar modelos, configurar parámetros de inferencia y exponer una API compatible con OpenAI.

Descarga e instalación

Visita lmstudio.ai/download
Descarga la versión para tu sistema operativo (Windows, macOS, Linux)
Ejecuta el instalador y sigue los pasos por defecto
Abre LM Studio

Activar el servidor local

LM Studio incluye un servidor API que Open WebUI usara como backend. Para activarlo:

Haz click en el icono de Server (icono de </> en la barra lateral izquierda)
En la seccion «Local Server», selecciona el modelo que descargaste
Verifica que el puerto sea 1234 (por defecto)
Haz click en Start Server

El servidor expone un endpoint compatible con OpenAI en http://localhost:1234/v1. Puedes verificar que funciona ejecutando:

curl http://localhost:1234/v1/models

Deberias ver una lista con el modelo cargado.

Descargar tu primer modelo

En la barra lateral, ve a la sección de búsqueda (icono de lupa) y busca el modelo según tu GPU:

Tu GPU	Modelo recomendado	Buscar en LM Studio
RTX 4060 (8 GB)	Qwen3.6 9B	`qwen3.6 9b gguf`
RTX 5070 Ti (16 GB)	Qwen3.6 27B	`qwen3.6 27b gguf`
RTX 5090 (32 GB)	Qwen3.6 27B	`qwen3.6 27b gguf`

Selecciona la version Q4_K_M (cuantificacion 4-bit) — ofrece el mejor equilibrio entre calidad y rendimiento. Haz click en el icono de descarga y espera.

Formato GGUF: Los modelos en LM Studio se descargan en formato GGUF (GGML Universal File), optimizado para inferencia local en CPU/GPU. Es el estándar de facto para IA local.

2 Instalar Open WebUI

Open WebUI es una interfaz de chat moderna que se conecta a LM Studio como backend. Proporciona una experiencia similar a ChatGPT pero completamente local, con soporte para multiples modelos, historial de conversaciones, plugins y búsqueda web.

Instalacion via Docker

La forma mas limpia de instalar Open WebUI es con Docker. Si no tienes Docker instalado, descarga Docker Desktop para tu sistema.

# Descargar la imagen de Open WebUI
docker pull ghcr.io/open-webui/open-webui:main

# Ejecutar el contenedor
docker run -d -p 3000:8080 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Si usas Windows con Docker Desktop, el comando es el mismo. Open WebUI se accedera desde http://localhost:3000.

La primera vez que entres, Open WebUI te pedira crear una cuenta. Crea tu admin y prosigue.

Conectar Open WebUI a LM Studio

Ahora conectamos Open WebUI al servidor de LM Studio:

En Open WebUI, ve a Settings (icono de engranaje) → Admin Settings
En Model Providers, haz click en OpenAI
En Base URL, escribe: http://localhost:1234/v1
En API Key, escribe cualquier valor (LM Studio no requiere autenticacion local, pero el campo es obligatorio) — usa lmstudio
Haz click en Save

Ve a la lista de modelos (icono de modelo en la barra superior) y haz click en Refresh Models. Deberías ver el modelo que cargaste en LM Studio.

Verificación: Si ves tu modelo en la lista de Open WebUI, la conexión esta funcionando. Abre un nuevo chat y prueba con un mensaje sencillo.

3 Personalizar Open WebUI

Open WebUI tiene opciones de configuración que mejoran significativamente la experiencia. Ajustemos las mas importantes:

Configuración del modelo por defecto

Ve a Settings → Default Models
Selecciona tu modelo como predeterminado para Chat

Parámetros de generación

En Settings → Advanced, ajusta estos parametros:

Parametro	Valor recomendado	Que hace
Temperature	0.7	Creatividad. 0.3 = mas determinista, 1.0 = mas creativo
Max Tokens	4096	Longitud maxima de la respuesta
Top P	0.9	Nucleo de muestreo. 0.9 es un buen equilibrio
Context Length	8192	Tamano de ventana de contexto (mas = mas memoria usada)

Context Length y VRAM: Aumentar el contexto consume mas VRAM. Con 8 GB de VRAM, no subas de 4096. Con 16 GB, 8192 es seguro. Con 32 GB, puedes probar 16384.

4 Añadir búsqueda web con SearXNG

Los modelos locales tienen conocimiento limitado a su fecha de entrenamiento. Para que tu chat pueda buscar información actual, conectamos SearXNG como motor de búsqueda web.

Que es SearXNG

SearXNG es un motor de búsqueda metasearch de código abierto que agrega resultados de multiples fuentes (Google, Bing, DuckDuckGo, Wikipedia) sin rastrear tu actividad. Corre en tu propia máquina y no requiere cuenta ni API key.

Instalación de SearXNG

Usamos Docker Compose para una instalación limpia:

# Crear un directorio para SearXNG
mkdir searxng
cd searxng

# Descargar los archivos de configuracion oficial
curl -fsSLO https://raw.githubusercontent.com/searxng/searxng/master/container/docker-compose.yml
curl -fsSLO https://raw.githubusercontent.com/searxng/searxng/master/container/.env.example

# Copiar y editar la configuración
cp .env.example .env

# Iniciar SearXNG
docker compose up -d

SearXNG estará disponible en http://localhost:8080.

Conectar SearXNG a Open WebUI

Open WebUI tiene soporte nativo para búsqueda web integrada:

En Open WebUI, ve a Settings → Admin Settings → Features
Activa Web Search
En SearXNG URL, escribe: http://searxng-web:8080/search?q=&format=json
Haz click en Save
Verifica que en el archivo settings.yml de searxng tengas en la sección de search:

    formats:
      - html 
      - json

Nota sobre la URL de SearXNG: Si SearXNG corre en el mismo host que Open WebUI y ambos usan Docker, usa http://searxng-web:8080. Si SearXNG corre fuera de Docker, usa http://localhost:8080.

Ahora, cuando hagas una pregunta en Open WebUI, el modelo podra buscar información actual en la web antes de responder.

Troubleshooting: Problemas comunes y soluciones

Si algo no funciona como esperabas, revisa estos problemas frecuentes. La mayoría tienen solución rápida.

Open WebUI no puede conectar a LM Studio

El error mas común es «Connection refused» o «Failed to fetch models» en Open WebUI.

Solución:

Verifica que el servidor de LM Studio este activo (veras un check verde en el panel de Server)
Confirma que la URL en Open WebUI sea exactamente http://localhost:1234/v1 — sin barra final, sin typo
Prueba desde terminal: curl http://localhost:1234/v1/models. Si responde con una lista de modelos, la conexión funciona
Si usas Linux, asegúrate de que no haya un firewall bloqueando el puerto 1234

El modelo no cabe en la GPU (error de memoria / OOM)

Si ves mensajes como «Out of memory» o el modelo carga pero la generación es extremadamente lenta, el modelo es demasiado grande para tu VRAM.

Solución:

Descarga una versión mas pequeña del mismo modelo (cambia de Q8 a Q4_K_M o Q3_K_M )
Elige un modelo con menos parámetros (de 27B a 9B, por ejemplo)
Reduce el Context Length en LM Studio a 4096 o menos — cada token de contexto consume VRAM
En LM Studio, ve al panel de Server y verifica cuantos GB de VRAM se están usando
Intenta utilizar algo de offload a RAM (ralentizara la inferencia pero en modelos MoE puede ser una pérdida de rendimiento aceptable)

Regla practica: VRAM (en GB) ≈ Parámetros (en miles de millones) × (bits efectivos por peso ÷ 8) Un modelo de 9B en Q4_K_M necesita ~6 GB de VRAM. Un modelo de 27B en Q4_K_M necesita ~17 GB. Un modelo de 35B MoE en Q4_K_M necesita ~20 GB. Siempre deja 2-3 GB libres para el sistema.

La generación es muy lenta (menos de 10 tokens por segundo)

Si la velocidad es baja, puede deberse a varias causas:

Solución:

Verifica que el modelo este cargado en la GPU y no solo en CPU — en LM Studio, el panel de Server muestra «GPU offload». Deberia estar cerca del 100%
Cierra otras aplicaciones que usen la GPU (navegador con muchas pestañas, juegos, editores de video)
Reduce el Context Length — un contexto de 16K consume significativamente mas VRAM y ancho de banda
Si usas Windows, verifica que los drivers de NVIDIA estén actualizados

SearXNG devuelve resultados vacíos o sin contenido

Es común que SearXNG devuelva resultados pero sin texto util, o que las respuestas del modelo digan «no encontré información» aunque la búsqueda se haya ejecutado.

Causas y soluciones:

Motor de búsqueda desactivado: SearXNG viene con algunos motores desactivados por defecto. Edita el archivo settings.yml del contenedor y activa mas motores en la sección engines. Reinicia el contenedor despues: docker compose restart
Rate limiting de fuentes: Si haces muchas búsquedas rápidas, Google/Bing pueden bloquear temporalmente. Espera unos minutos o reduce la frecuencia de búsquedas.
Formato de respuesta: Verifica que la URL de busqueda incluya &format=json al final. Sin esto, SearXNG devuelve HTML en lugar de JSON y Open WebUI no puede procesarlo.
Prueba la API: Ejecuta curl "http://localhost:8080/search?q=internet&format=json" y revisa que el JSON devuelto tenga un array results con contenido

SearXNG no busca nada (Open WebUI no activa la búsqueda web)

A veces el modelo simplemente ignora la herramienta de búsqueda web y responde solo con su conocimiento interno.

Causas y soluciones:

El modelo no esta configurado para usar herramientas: No todos los modelos soportan function calling. Modelos como Qwen3.6 27B y 35B lo soportan bien. Modelos mas pequeños pueden ignorar las herramientas
Web Search desactivada en Open WebUI: Ve a Settings → Admin Settings → Features y verifica que «Web Search» este activada
No se generó ninguna consulta de búsqueda: Verifica que la longitud de contexto no sea demasiado baja.
La búsqueda no devuelve resultados: Es posible que algunos sitios web estén bloqueando el acceso a herramientas automatizadas (bots o scrapers), por lo que quizá necesites usar soluciones especializadas de scraping, como Firecrawl

SearXNG falla con error de red desde Open WebUI

Si ambos corren en Docker pero Open WebUI no puede alcanzar SearXNG:

Solución:

Si usan el mismo docker-compose.yml, la URL es http://searxng-web:8080 (nombre del servicio)
Si estan en networks diferentes, conecta ambos a la misma red: docker network connect red_compartida searxng-web
Si SearXNG corre fuera de Docker (en el host), usa http://host.docker.internal:8080 en macOS/Windows o http://172.17.0.1:8080 en Linux

Docker da error de permisos o el contenedor no arranca

En Linux, es comun recibir «permission denied» al ejecutar comandos de Docker.

Solución:

Agrega tu usuario al grupo docker: sudo usermod -aG docker $USER y reinicia la sesión
Si el contenedor falla al iniciar, revisa los logs: docker logs open-webui
Si hay conflicto de puerto 3000, cambia el mapeo: -p 3001:8080 en lugar de -p 3000:8080

Tu setup ya funciona — ¿Qué sigue?

Ya tienes un sistema de IA local completo: motor de inferencia (LM Studio), interfaz de chat (Open WebUI) y búsqueda web (SearXNG). A partir de aquí, puedes profundizar en varias direcciones:

Agentes autónomos: Configurar tu modelo para que ejecute acciones autónomas — buscar información, escribir código, interactuar con APIs.
Multi-GPU: Distribuir modelos grandes entre varias GPUs para correr modelos de 70B+ parámetros.
Fine-tuning básico: Entrenar tu propio modelo con datos especificos para tu dominio.
Hardware alternativo: Configurar IA local en Mac M-series con Apple Silicon, o en servidores con GPUs AMD.

Tip: Si estas empezando, dale tiempo a tu setup actual. Usa el chat diariamente, experimenta con diferentes modelos y parámetros. Cuando sientas que has agotado las posibilidades de este nivel, estarás listo para los tutoriales avanzados.

Preguntas frecuentes

¿Cuanta VRAM necesito para IA local en 2026?

Mínimo 8 GB de VRAM (RTX 4060 o equivalente) para modelos de 9B parametros. Con 16 GB (RTX 5070 Ti) puedes correr modelos de 27B. Con 32 GB (RTX 5090) llegas a modelos de 27B fp8 o 35b MoE. Sin GPU dedicada, la velocidad con CPU sola será de 5-10 tokens por segundo — prácticamente inutilizable para conversaciones fluidas.

¿Funciona la IA local sin internet?

Sí. Una vez descargado el modelo, LM Studio y Open WebUI funcionan completamente offline. La única conexión necesaria es para descargar los modelos la primera vez y para la búsqueda web con SearXNG.

¿Es legal usar modelos open source localmente?

Sí. Modelos como Qwen3.6 (licencia Apache 2.0), Gemma 4 (licencia de Google) y Nemotron 4B (licencia de NVIDIA) permiten uso personal y comercial local. Cada modelo tiene su licencia específica — revísala antes de usarlo en producción.

¿Puedo usar IA local para trabajo profesional?

Sí, con salvedades. Los modelos locales de 27B-35B parámetros son competitivos para redacción, análisis de código y resumen de documentos. Para tareas críticas (medico, legal), siempre verifica las respuestas. No tienen el mismo nivel de razonamiento que GPT-5.5 o Claude Opus 4.7.

¿Cuanto espacio en disco necesito?

Cada modelo en formato GGUF ocupa entre 5 GB (modelos de 9B en Q4) y 25 GB (modelos de 35B en Q4). Con 3-4 modelos necesitas 100 GB libres como mínimo. Un SSD NVMe es imprescindible para tiempos de carga mas rápidos.

¿Puedo cambiar de modelo sobre la marcha?

Si. En LM Studio, ve al panel de Server, selecciona otro modelo y haz click en «Reload». Open WebUI detectara automáticamente el nuevo modelo en la siguiente actualización de la lista.

Fundamentos de LLM: Una serie sobre cómo funcionan los modelos de lenguaje por dentro, cómo ejecutarlos localmente, y cómo explotar sus capacidades en sistemas reales.

Tu Primer Setup con LM Studio y Open WebUI