{"id":61,"date":"2026-05-19T22:45:08","date_gmt":"2026-05-19T20:45:08","guid":{"rendered":"https:\/\/atlaszn.com\/blog\/?p=61"},"modified":"2026-07-05T04:40:26","modified_gmt":"2026-07-05T02:40:26","slug":"setup-lm-studio","status":"publish","type":"post","link":"https:\/\/atlaszn.com\/blog\/setup-lm-studio\/","title":{"rendered":"Tu Primer Setup con LM Studio y Open WebUI"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Para configurar IA local en 2026 necesitas tres componentes: <strong>LM Studio<\/strong> como motor de inferencia, <strong>Open WebUI<\/strong> como interfaz de chat, y una GPU con m\u00ednimo 8 GB de VRAM. El setup completo toma entre 20 y 30 minutos. Una vez funcionando, tendr\u00e1s un chat privado con modelos open source como Qwen 3.6 o Gemma 4, sin enviar datos a servidores externos y sin suscripci\u00f3n mensual.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En esta gu\u00eda cubrimos todo desde la instalaci\u00f3n hasta la b\u00fasqueda web integrada, dejando la puerta abierta a setups mas avanzados: agentes aut\u00f3nomos, multi-GPU y fine-tuning.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Que es la IA Local y por que importa en 2026<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">IA local significa ejecutar modelos de lenguaje (LLMs) en tu propio hardware, en lugar de depender de APIs en la nube como ChatGPT, Claude o Gemini. En 2026, los modelos open source han alcanzado un nivel donde un setup domestico con GPU dedicada puede manejar tareas de redacci\u00f3n, an\u00e1lisis de c\u00f3digo y asistencia general con calidad comparable a los servicios comerciales.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Las ventajas practicas son:<\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li><strong>Privacidad total:<\/strong> Ning\u00fan dato sale de tu c\u00f3digo. Ideal para documentos sensibles, c\u00f3digo propietario o conversaciones privadas.<\/li>\n\n\n\n<li><strong>Sin costo recurrente:<\/strong> Tras la inversi\u00f3n inicial en hardware, no hay suscripci\u00f3n mensual ni l\u00edmites de tokens.<\/li>\n\n\n\n<li><strong>Sin censura ni bloqueos:<\/strong> Tu modelo, tus reglas. No hay filtros de seguridad impuestos por terceros.<\/li>\n\n\n\n<li><strong>Funciona offline:<\/strong> Una vez descargados los modelos, no necesitas conexi\u00f3n a internet.<\/li>\n<\/ul>\n\n\n\n<div class=\"callout\"><strong>Nota:<\/strong> Los modelos locales no son gratuitos \u2014 el hardware tiene un costo real. Una RTX 5070 Ti ronda los 1000\u20ac y una RTX 5090 supera los 4000\u20ac a d\u00eda de hoy. Pero el ahorro en suscripciones y api(GPT-5.5, Claude Pro 20-200\u20ac\/mes) empieza a compensar si usas la IA diariamente.<\/div>\n\n\n\n<h2 class=\"wp-block-heading\">Requisitos de hardware<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El factor m\u00e1s importante es la <strong>VRAM (memoria de video)<\/strong>. Los modelos se cargan en la GPU y la VRAM determina que tamanos de modelo puedes correr. El ancho de banda de memoria (bandwidth) determina la velocidad de respuesta.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\">Nivel<\/th><th class=\"has-text-align-left\" data-align=\"left\">GPU<\/th><th class=\"has-text-align-left\" data-align=\"left\">VRAM<\/th><th class=\"has-text-align-left\" data-align=\"left\">Bandwidth<\/th><th class=\"has-text-align-left\" data-align=\"left\">Modelo recomendado<\/th><th class=\"has-text-align-left\" data-align=\"left\">Velocidad estimada<\/th><\/tr><\/thead><tbody><tr><td>Entrada<\/td><td>RTX 4060<\/td><td>8 GB GDDR6<\/td><td>272 GB\/s<\/td><td>Qwen3.6 9B, Gemma 4 9B<\/td><td>25-40 tok\/s<\/td><\/tr><tr><td>Intermedio<\/td><td>RTX 5070 Ti<\/td><td>16 GB GDDR7<\/td><td>800 GB\/s<\/td><td>Qwen3.6 27B, Gemma 4 27B<\/td><td>18-30 tok\/s<\/td><\/tr><tr><td>Power user<\/td><td>RTX 5090<\/td><td>32 GB GDDR7<\/td><td>1792 GB\/s<\/td><td>Qwen3.6 35B MoE, Gemma 4 31B<\/td><td>22-35 tok\/s<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Requisitos adicionales:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li><strong>RAM del sistema:<\/strong> Minimo 16 GB (32 GB recomendado). El sistema necesita memoria adicional para el SO y las aplicaciones.<\/li>\n\n\n\n<li><strong>Almacenamiento:<\/strong> Cada modelo ocupa entre 5 y 25 GB en formato GGUF. Con 3-4 modelos necesitas 100 GB libres como minimo.<\/li>\n\n\n\n<li><strong>CPU:<\/strong> Cualquier CPU moderna con soporte AVX2. No es el cuello de botella pero ayuda en la carga inicial del modelo.<\/li>\n\n\n\n<li><strong>Fuente de alimentaci\u00f3n:<\/strong> Para RTX 5070 Ti, m\u00ednimo 750W. Para RTX 5090, m\u00ednimo 1000W.<\/li>\n<\/ul>\n\n\n\n<div class=\"callout warning\"><strong>Sin GPU dedicada:<\/strong> Puedes correr modelos solo con CPU, pero la velocidad cae a 2-5 tokens por segundo \u2014 pr\u00e1cticamente inutilizable para conversaciones fluidas. Si no tienes GPU dedicada, espera a poder invertir en una antes de empezar.<\/div>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"step-marker\">1<\/span> Instalar LM Studio<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">LM Studio es la aplicaci\u00f3n que se encarga de ejecutar los modelos de lenguaje en tu GPU. Proporciona una interfaz gr\u00e1fica para descargar modelos, configurar par\u00e1metros de inferencia y exponer una API compatible con OpenAI.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Descarga e instalaci\u00f3n<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Visita <a href=\"https:\/\/lmstudio.ai\/download\" target=\"_blank\" rel=\"noopener\">lmstudio.ai\/download<\/a><\/li>\n\n\n\n<li>Descarga la versi\u00f3n para tu sistema operativo (Windows, macOS, Linux)<\/li>\n\n\n\n<li>Ejecuta el instalador y sigue los pasos por defecto<\/li>\n\n\n\n<li>Abre LM Studio<\/li>\n<\/ol>\n\n\n\n<div class=\"wp-block-group is-layout-constrained wp-block-group-is-layout-constrained\">\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"584\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-1024x584.webp\" alt=\"\" class=\"wp-image-65\" style=\"width:693px;height:auto\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-1024x584.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-scaled-600x342.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-300x171.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-768x438.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-1536x876.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/1-2048x1168.webp 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading\">Activar el servidor local<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">LM Studio incluye un servidor API que Open WebUI usara como backend. Para activarlo:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Haz click en el icono de <strong>Server<\/strong> (icono de &lt;\/&gt; en la barra lateral izquierda)<\/li>\n\n\n\n<li>En la seccion \u00abLocal Server\u00bb, selecciona el modelo que descargaste<\/li>\n\n\n\n<li>Verifica que el puerto sea <code>1234<\/code> (por defecto)<\/li>\n\n\n\n<li>Haz click en <strong>Start Server<\/strong><\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"575\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2-1024x575.webp\" alt=\"\" class=\"wp-image-67\" style=\"aspect-ratio:1.7808990625103522;object-fit:cover;width:693px\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2-1024x575.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2-600x337.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2-300x169.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2-768x432.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2-1536x863.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/2.webp 1920w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">El servidor expone un endpoint compatible con OpenAI en <code>http:\/\/localhost:1234\/v1<\/code>. Puedes verificar que funciona ejecutando:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>curl http:\/\/localhost:1234\/v1\/models<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Deberias ver una lista con el modelo cargado.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Descargar tu primer modelo<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En la barra lateral, ve a la secci\u00f3n de b\u00fasqueda (icono de lupa) y busca el modelo seg\u00fan tu GPU:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\">Tu GPU<\/th><th class=\"has-text-align-left\" data-align=\"left\">Modelo recomendado<\/th><th class=\"has-text-align-left\" data-align=\"left\">Buscar en LM Studio<\/th><\/tr><\/thead><tbody><tr><td>RTX 4060 (8 GB)<\/td><td>Qwen3.6 9B<\/td><td><code>qwen3.6 9b gguf<\/code><\/td><\/tr><tr><td>RTX 5070 Ti (16 GB)<\/td><td>Qwen3.6 27B<\/td><td><code>qwen3.6 27b gguf<\/code><\/td><\/tr><tr><td>RTX 5090 (32 GB)<\/td><td>Qwen3.6 27B<\/td><td><code><code>qwen3.6 27b gguf<\/code><\/code><\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Selecciona la version <strong>Q4_K_M<\/strong> (cuantificacion 4-bit) \u2014 ofrece el mejor equilibrio entre calidad y rendimiento. Haz click en el icono de descarga y espera.<\/p>\n\n\n\n<div class=\"callout\"><strong>Formato GGUF:<\/strong> Los modelos en LM Studio se descargan en formato GGUF (GGML Universal File), optimizado para inferencia local en CPU\/GPU. Es el est\u00e1ndar de facto para IA local.<\/div>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"step-marker\">2<\/span> Instalar Open WebUI<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Open WebUI es una interfaz de chat moderna que se conecta a LM Studio como backend. Proporciona una experiencia similar a ChatGPT pero completamente local, con soporte para multiples modelos, historial de conversaciones, plugins y b\u00fasqueda web.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Instalacion via Docker<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">La forma mas limpia de instalar Open WebUI es con Docker. Si no tienes Docker instalado, descarga <a href=\"https:\/\/www.docker.com\/products\/docker-desktop\/\" target=\"_blank\" rel=\"noopener\">Docker Desktop<\/a> para tu sistema.<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code># Descargar la imagen de Open WebUI\ndocker pull ghcr.io\/open-webui\/open-webui:main\n\n# Ejecutar el contenedor\ndocker run -d -p 3000:8080 --name open-webui --restart always ghcr.io\/open-webui\/open-webui:main<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Si usas Windows con Docker Desktop, el comando es el mismo. Open WebUI se accedera desde <code>http:\/\/localhost:3000<\/code>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"575\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3-1024x575.webp\" alt=\"\" class=\"wp-image-68\" style=\"width:693px\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3-1024x575.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3-600x337.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3-300x169.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3-768x432.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3-1536x863.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/3.webp 1920w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">La primera vez que entres, Open WebUI te pedira crear una cuenta. Crea tu admin y prosigue.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Conectar Open WebUI a LM Studio<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ahora conectamos Open WebUI al servidor de LM Studio:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>En Open WebUI, ve a <strong>Settings<\/strong> (icono de engranaje) \u2192 <strong>Admin Settings<\/strong><\/li>\n\n\n\n<li>En <strong>Model Providers<\/strong>, haz click en <strong>OpenAI<\/strong><\/li>\n\n\n\n<li>En <strong>Base URL<\/strong>, escribe: <code>http:\/\/localhost:1234\/v1<\/code><\/li>\n\n\n\n<li>En <strong>API Key<\/strong>, escribe cualquier valor (LM Studio no requiere autenticacion local, pero el campo es obligatorio) \u2014 usa <code>lmstudio<\/code><\/li>\n\n\n\n<li>Haz click en <strong>Save<\/strong><\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"639\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-1024x639.webp\" alt=\"\" class=\"wp-image-69\" style=\"width:693px\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-1024x639.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-scaled-600x375.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-300x187.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-768x479.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-1536x959.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/4-2048x1279.webp 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Ve a la lista de modelos (icono de modelo en la barra superior) y haz click en <strong>Refresh Models<\/strong>. Deber\u00edas ver el modelo que cargaste en LM Studio.<\/p>\n\n\n\n<div class=\"callout success\"><strong>Verificaci\u00f3n:<\/strong> Si ves tu modelo en la lista de Open WebUI, la conexi\u00f3n esta funcionando. Abre un nuevo chat y prueba con un mensaje sencillo.<\/div>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"639\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-1024x639.webp\" alt=\"\" class=\"wp-image-70\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-1024x639.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-scaled-600x374.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-300x187.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-768x479.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-1536x958.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/5-2048x1277.webp 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"step-marker\">3<\/span> Personalizar Open WebUI<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Open WebUI tiene opciones de configuraci\u00f3n que mejoran significativamente la experiencia. Ajustemos las mas importantes:<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Configuraci\u00f3n del modelo por defecto<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Ve a <strong>Settings<\/strong> \u2192 <strong>Default Models<\/strong><\/li>\n\n\n\n<li>Selecciona tu modelo como predeterminado para <strong>Chat<\/strong><\/li>\n<\/ol>\n\n\n\n<h3 class=\"wp-block-heading\">Par\u00e1metros de generaci\u00f3n<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En <strong>Settings<\/strong> \u2192 <strong>Advanced<\/strong>, ajusta estos parametros:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\">Parametro<\/th><th class=\"has-text-align-left\" data-align=\"left\">Valor recomendado<\/th><th class=\"has-text-align-left\" data-align=\"left\">Que hace<\/th><\/tr><\/thead><tbody><tr><td>Temperature<\/td><td>0.7<\/td><td>Creatividad. 0.3 = mas determinista, 1.0 = mas creativo<\/td><\/tr><tr><td>Max Tokens<\/td><td>4096<\/td><td>Longitud maxima de la respuesta<\/td><\/tr><tr><td>Top P<\/td><td>0.9<\/td><td>Nucleo de muestreo. 0.9 es un buen equilibrio<\/td><\/tr><tr><td>Context Length<\/td><td>8192<\/td><td>Tamano de ventana de contexto (mas = mas memoria usada)<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<div class=\"callout\"><strong>Context Length y VRAM:<\/strong> Aumentar el contexto consume mas VRAM. Con 8 GB de VRAM, no subas de 4096. Con 16 GB, 8192 es seguro. Con 32 GB, puedes probar 16384.<\/div>\n\n\n\n<h2 class=\"wp-block-heading\"><span class=\"step-marker\">4<\/span> A\u00f1adir b\u00fasqueda web con SearXNG<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Los modelos locales tienen conocimiento limitado a su fecha de entrenamiento. Para que tu chat pueda buscar informaci\u00f3n actual, conectamos SearXNG como motor de b\u00fasqueda web.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Que es SearXNG<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">SearXNG es un motor de b\u00fasqueda metasearch de c\u00f3digo abierto que agrega resultados de multiples fuentes (Google, Bing, DuckDuckGo, Wikipedia) sin rastrear tu actividad. Corre en tu propia m\u00e1quina y no requiere cuenta ni API key.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Instalaci\u00f3n de SearXNG<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Usamos Docker Compose para una instalaci\u00f3n limpia:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code># Crear un directorio para SearXNG\nmkdir searxng\ncd searxng\n\n# Descargar los archivos de configuracion oficial\ncurl -fsSLO https:\/\/raw.githubusercontent.com\/searxng\/searxng\/master\/container\/docker-compose.yml\ncurl -fsSLO https:\/\/raw.githubusercontent.com\/searxng\/searxng\/master\/container\/.env.example\n\n# Copiar y editar la configuraci\u00f3n\ncp .env.example .env\n\n# Iniciar SearXNG\ndocker compose up -d<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">SearXNG estar\u00e1 disponible en <code>http:\/\/localhost:8080<\/code>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"639\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-1024x639.webp\" alt=\"\" class=\"wp-image-71\" style=\"width:693px\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-1024x639.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-scaled-600x374.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-300x187.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-768x479.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-1536x958.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/6-2048x1277.webp 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">Conectar SearXNG a Open WebUI<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Open WebUI tiene soporte nativo para b\u00fasqueda web integrada:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>En Open WebUI, ve a <strong>Settings<\/strong> \u2192 <strong>Admin Settings<\/strong> \u2192 <strong>Features<\/strong><\/li>\n\n\n\n<li>Activa <strong>Web Search<\/strong><\/li>\n\n\n\n<li>En <strong>SearXNG URL<\/strong>, escribe: <code>http:\/\/searxng-web:8080\/search?q=&amp;format=json<\/code><\/li>\n\n\n\n<li>Haz click en <strong>Save<\/strong><\/li>\n\n\n\n<li>Verifica que en el archivo settings.yml de searxng tengas en la secci\u00f3n de search:<\/li>\n<\/ol>\n\n\n\n<pre class=\"wp-block-code\"><code>    formats:\n      - html \n      - json<\/code><\/pre>\n\n\n\n<div class=\"callout warning\"><strong>Nota sobre la URL de SearXNG:<\/strong> Si SearXNG corre en el mismo host que Open WebUI y ambos usan Docker, usa <code>http:\/\/searxng-web:8080<\/code>. Si SearXNG corre fuera de Docker, usa <code>http:\/\/localhost:8080<\/code>.<\/div>\n\n\n\n<p class=\"wp-block-paragraph\">Ahora, cuando hagas una pregunta en Open WebUI, el modelo podra buscar informaci\u00f3n actual en la web antes de responder.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"665\" src=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-1024x665.webp\" alt=\"\" class=\"wp-image-66\" srcset=\"https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-1024x665.webp 1024w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-scaled-600x390.webp 600w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-300x195.webp 300w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-768x499.webp 768w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-1536x998.webp 1536w, https:\/\/atlaszn.com\/blog\/wp-content\/uploads\/2026\/05\/8-2048x1330.webp 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 id=\"troubleshooting\" class=\"wp-block-heading\">Troubleshooting: Problemas comunes y soluciones<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Si algo no funciona como esperabas, revisa estos problemas frecuentes. La mayor\u00eda tienen soluci\u00f3n r\u00e1pida.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Open WebUI no puede conectar a LM Studio<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">El error mas com\u00fan es \u00abConnection refused\u00bb o \u00abFailed to fetch models\u00bb en Open WebUI.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Soluci\u00f3n:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li>Verifica que el servidor de LM Studio este activo (veras un check verde en el panel de Server)<\/li>\n\n\n\n<li>Confirma que la URL en Open WebUI sea exactamente <code>http:\/\/localhost:1234\/v1<\/code> \u2014 sin barra final, sin typo<\/li>\n\n\n\n<li>Prueba desde terminal: <code>curl http:\/\/localhost:1234\/v1\/models<\/code>. Si responde con una lista de modelos, la conexi\u00f3n funciona<\/li>\n\n\n\n<li>Si usas Linux, aseg\u00farate de que no haya un firewall bloqueando el puerto 1234<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">El modelo no cabe en la GPU (error de memoria \/ OOM)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Si ves mensajes como \u00abOut of memory\u00bb o el modelo carga pero la generaci\u00f3n es extremadamente lenta, el modelo es demasiado grande para tu VRAM.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Soluci\u00f3n:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li>Descarga una versi\u00f3n mas peque\u00f1a del mismo modelo (cambia de Q8 a Q4_K_M o Q3_K_M )<\/li>\n\n\n\n<li>Elige un modelo con menos par\u00e1metros (de 27B a 9B, por ejemplo)<\/li>\n\n\n\n<li>Reduce el Context Length en LM Studio a 4096 o menos \u2014 cada token de contexto consume VRAM<\/li>\n\n\n\n<li>En LM Studio, ve al panel de Server y verifica cuantos GB de VRAM se est\u00e1n usando<\/li>\n\n\n\n<li>Intenta utilizar algo de offload a RAM  (ralentizara la inferencia pero en modelos MoE puede ser una p\u00e9rdida de rendimiento aceptable)<\/li>\n<\/ul>\n\n\n\n<div class=\"callout warning\">\n<strong>Regla practica:<\/strong> VRAM (en GB) \u2248 Par\u00e1metros (en miles de millones) \u00d7 (bits efectivos por peso \u00f7 8)  \nUn modelo de 9B en Q4_K_M necesita ~6 GB de VRAM. Un modelo de 27B en Q4_K_M necesita ~17 GB. Un modelo de 35B MoE en Q4_K_M necesita ~20 GB. Siempre deja 2-3 GB libres para el sistema. \n\n\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading\">La generaci\u00f3n es muy lenta (menos de 10 tokens por segundo)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Si la velocidad es baja, puede deberse a varias causas:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Soluci\u00f3n:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li>Verifica que el modelo este cargado en la GPU y no solo en CPU \u2014 en LM Studio, el panel de Server muestra \u00abGPU offload\u00bb. Deberia estar cerca del 100%<\/li>\n\n\n\n<li>Cierra otras aplicaciones que usen la GPU (navegador con muchas pesta\u00f1as, juegos, editores de video)<\/li>\n\n\n\n<li>Reduce el Context Length \u2014 un contexto de 16K consume significativamente mas VRAM y ancho de banda<\/li>\n\n\n\n<li>Si usas Windows, verifica que los drivers de NVIDIA est\u00e9n actualizados<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">SearXNG devuelve resultados vac\u00edos o sin contenido<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Es com\u00fan que SearXNG devuelva resultados pero sin texto util, o que las respuestas del modelo digan \u00abno encontr\u00e9 informaci\u00f3n\u00bb aunque la b\u00fasqueda se haya ejecutado.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Causas y soluciones:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li><strong>Motor de b\u00fasqueda desactivado:<\/strong> SearXNG viene con algunos motores desactivados por defecto. Edita el archivo <code>settings.yml<\/code> del contenedor y activa mas motores en la secci\u00f3n <code>engines<\/code>. Reinicia el contenedor despues: <code>docker compose restart<\/code><\/li>\n\n\n\n<li><strong>Rate limiting de fuentes:<\/strong> Si haces muchas b\u00fasquedas r\u00e1pidas, Google\/Bing pueden bloquear temporalmente. Espera unos minutos o reduce la frecuencia de b\u00fasquedas.<\/li>\n\n\n\n<li><strong>Formato de respuesta:<\/strong> Verifica que la URL de busqueda incluya <code>&amp;format=json<\/code> al final. Sin esto, SearXNG devuelve HTML en lugar de JSON y Open WebUI no puede procesarlo.<\/li>\n\n\n\n<li><strong>Prueba la API:<\/strong> Ejecuta <code>curl \"http:\/\/localhost:8080\/search?q=internet&amp;format=json\"<\/code> y revisa que el JSON devuelto tenga un array <code>results<\/code> con contenido<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">SearXNG no busca nada (Open WebUI no activa la b\u00fasqueda web)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">A veces el modelo simplemente ignora la herramienta de b\u00fasqueda web y responde solo con su conocimiento interno.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Causas y soluciones:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li><strong>El modelo no esta configurado para usar herramientas:<\/strong> No todos los modelos soportan function calling. Modelos como Qwen3.6 27B y 35B lo soportan bien. Modelos mas peque\u00f1os pueden ignorar las herramientas<\/li>\n\n\n\n<li><strong>Web Search desactivada en Open WebUI:<\/strong> Ve a Settings \u2192 Admin Settings \u2192 Features y verifica que \u00abWeb Search\u00bb este activada<\/li>\n\n\n\n<li><strong>No se gener\u00f3 ninguna consulta de b\u00fasqueda:<\/strong> Verifica que la longitud de contexto no sea demasiado baja.<\/li>\n\n\n\n<li><strong>La b\u00fasqueda no devuelve resultados:<\/strong> Es posible que algunos sitios web est\u00e9n bloqueando el acceso a herramientas automatizadas (bots o scrapers), por lo que quiz\u00e1 necesites usar soluciones especializadas de scraping, como&nbsp;<a href=\"https:\/\/www.firecrawl.dev\/\" target=\"_blank\" rel=\"noreferrer noopener\">Firecrawl<\/a><\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">SearXNG falla con error de red desde Open WebUI<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Si ambos corren en Docker pero Open WebUI no puede alcanzar SearXNG:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Soluci\u00f3n:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li>Si usan <strong>el mismo docker-compose.yml<\/strong>, la URL es <code>http:\/\/searxng-web:8080<\/code> (nombre del servicio)<\/li>\n\n\n\n<li>Si estan en <strong>networks diferentes<\/strong>, conecta ambos a la misma red: <code>docker network connect red_compartida searxng-web<\/code><\/li>\n\n\n\n<li>Si SearXNG corre <strong>fuera de Docker<\/strong> (en el host), usa <code>http:\/\/host.docker.internal:8080<\/code> en macOS\/Windows o <code>http:\/\/172.17.0.1:8080<\/code> en Linux<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Docker da error de permisos o el contenedor no arranca<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En Linux, es comun recibir \u00abpermission denied\u00bb al ejecutar comandos de Docker.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Soluci\u00f3n:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li>Agrega tu usuario al grupo docker: <code>sudo usermod -aG docker $USER<\/code> y reinicia la sesi\u00f3n<\/li>\n\n\n\n<li>Si el contenedor falla al iniciar, revisa los logs: <code>docker logs open-webui<\/code><\/li>\n\n\n\n<li>Si hay conflicto de puerto 3000, cambia el mapeo: <code>-p 3001:8080<\/code> en lugar de <code>-p 3000:8080<\/code><\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Tu setup ya funciona \u2014 \u00bfQu\u00e9 sigue?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Ya tienes un sistema de IA local completo: motor de inferencia (LM Studio), interfaz de chat (Open WebUI) y b\u00fasqueda web (SearXNG). A partir de aqu\u00ed, puedes profundizar en varias direcciones:<\/p>\n\n\n\n<ul class=\"wp-block-list\" class=\"wp-block-list\">\n<li><strong>Agentes aut\u00f3nomos:<\/strong> Configurar tu modelo para que ejecute acciones aut\u00f3nomas \u2014 buscar informaci\u00f3n, escribir c\u00f3digo, interactuar con APIs.<\/li>\n\n\n\n<li><strong>Multi-GPU:<\/strong> Distribuir modelos grandes entre varias GPUs para correr modelos de 70B+ par\u00e1metros.<\/li>\n\n\n\n<li><strong>Fine-tuning b\u00e1sico:<\/strong> Entrenar tu propio modelo con datos especificos para tu dominio. <\/li>\n\n\n\n<li><strong>Hardware alternativo:<\/strong> Configurar IA local en Mac M-series con Apple Silicon, o en servidores con GPUs AMD. <\/li>\n<\/ul>\n\n\n\n<div class=\"callout\"><strong>Tip:<\/strong> Si estas empezando, dale tiempo a tu setup actual. Usa el chat diariamente, experimenta con diferentes modelos y par\u00e1metros. Cuando sientas que has agotado las posibilidades de este nivel, estar\u00e1s listo para los tutoriales avanzados.<\/div>\n\n\n\n<h2 class=\"wp-block-heading\">Preguntas frecuentes<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfCuanta VRAM necesito para IA local en 2026?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00ednimo 8 GB de VRAM (RTX 4060 o equivalente) para modelos de 9B parametros. Con 16 GB (RTX 5070 Ti) puedes correr modelos de 27B. Con 32 GB (RTX 5090) llegas a modelos de 27B fp8 o 35b MoE. Sin GPU dedicada, la velocidad con CPU sola ser\u00e1 de 5-10 tokens por segundo \u2014 pr\u00e1cticamente inutilizable para conversaciones fluidas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfFunciona la IA local sin internet?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">S\u00ed. Una vez descargado el modelo, LM Studio y Open WebUI funcionan completamente offline. La \u00fanica conexi\u00f3n necesaria es para descargar los modelos la primera vez y para la b\u00fasqueda web con SearXNG.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfEs legal usar modelos open source localmente?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">S\u00ed. Modelos como Qwen3.6 (licencia Apache 2.0), Gemma 4 (licencia de Google) y Nemotron 4B (licencia de NVIDIA) permiten uso personal y comercial local. Cada modelo tiene su licencia espec\u00edfica \u2014 rev\u00edsala antes de usarlo en producci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfPuedo usar IA local para trabajo profesional?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">S\u00ed, con salvedades. Los modelos locales de 27B-35B par\u00e1metros son competitivos para redacci\u00f3n, an\u00e1lisis de c\u00f3digo y resumen de documentos. Para tareas cr\u00edticas (medico, legal), siempre verifica las respuestas. No tienen el mismo nivel de razonamiento que GPT-5.5 o Claude Opus 4.7.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfCuanto espacio en disco necesito?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Cada modelo en formato GGUF ocupa entre 5 GB (modelos de 9B en Q4) y 25 GB (modelos de 35B en Q4). Con 3-4 modelos necesitas 100 GB libres como m\u00ednimo. Un SSD NVMe es imprescindible para tiempos de carga mas r\u00e1pidos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfPuedo cambiar de modelo sobre la marcha?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Si. En LM Studio, ve al panel de Server, selecciona otro modelo y haz click en \u00abReload\u00bb. Open WebUI detectara autom\u00e1ticamente el nuevo modelo en la siguiente actualizaci\u00f3n de la lista.<\/p>\n\n\n<div class=\"acb-callout acb-callout--default\"><div class=\"acb-callout__content\"><a href=\"https:\/\/atlaszn.com\/blog\/fundamentos-de-llm\/\">Fundamentos de LLM:<\/a> Una serie sobre c\u00f3mo funcionan los modelos de lenguaje por dentro, c\u00f3mo ejecutarlos localmente, y c\u00f3mo explotar sus capacidades en sistemas reales.<\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Gu\u00eda para montar un entorno de IA local en 2026 usando LM Studio y Open WebUI, desde elegir hardware hasta configurar modelos GGUF, el servidor de inferencia y la interfaz para probar rendimiento y privacidad.<\/p>\n","protected":false},"author":1,"featured_media":60,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[14,19,10,16,9,21,13,15,20],"class_list":["post-61","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia-automatizacion","tag-gemma-4","tag-hardware","tag-ia-local","tag-lm-studio","tag-ollama","tag-open-webui","tag-qwen3-6","tag-rtx-5090","tag-searxng"],"_links":{"self":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/posts\/61","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/comments?post=61"}],"version-history":[{"count":13,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/posts\/61\/revisions"}],"predecessor-version":[{"id":828,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/posts\/61\/revisions\/828"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/media\/60"}],"wp:attachment":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/media?parent=61"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/categories?post=61"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/tags?post=61"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}