Contacto

Año: 2026

Parametros

Parámetros de generación

Los modelos de lenguaje no piensan antes de escribir: Generan token por token. Los parámetros de generación determinan cómo elige entre miles de posibilidades en cada paso.

Leer más
prompt_chaining_b

Prompt Chaining: cuando un solo prompt no alcanza

Prompt Chaining descompone tareas complejas en pasos secuenciales para evitar instruction neglect, contextual drift y error propagation. Guía práctica con código Python, patrones de producción y Context Engineering.

Leer más
Avanzado

Casos de Uso Avanzados: RAG, Agentes y Fine-tuning

Guía técnica sobre casos de uso avanzados de LLM locales: RAG, agentes con herramientas, fine-tuning con LoRA/QLoRA, modelos multimodales y programación con IA local.

Leer más
Ejecucion

Ejecución Local de LLM: Runtimes, Operación y Cuantización

Guía completa sobre ejecución local de LLM en 2026: runtimes (llama.cpp, vLLM, SGLang), cuantización (Q4-Q8), formatos de archivo (GGUF, safetensors), selección de modelos y operaciones.

Leer más
Fundamentos

Cómo piensan los LLM: Fundamentos de Inferencia

Guía técnica sobre cómo funcionan los LLM localmente: tokens, transformers, atención, caché KV, prefill y decodificación. Fundamentos esenciales para ejecutar IA local en 2026.

Leer más
Inference Engines

Motores de Inferencia para LLMs y Hardware de IA Local

Motores de inferencia para LLMs en 2026: guia completa de llama.cpp, vLLM, TensorRT-LLM, SGLang, ExLlamaV3, MLX y TGI. Como elegir el motor correcto segun tu hardware y carga de trabajo.

Leer más
Ancho de Banda Memoria

Ancho de banda de memoria para IA local

El rendimiento de la IA local depende más del ancho de banda de memoria que de los FLOPs. La velocidad a la que los pesos viajan desde la VRAM hacia la GPU determina los tokens por segundo y el rendimiento real de los modelos.

Leer más
Setup

Tu Primer Setup con LM Studio y Open WebUI

Guía para montar un entorno de IA local en 2026 usando LM Studio y Open WebUI, desde elegir hardware hasta configurar modelos GGUF, el servidor de inferencia y la interfaz para probar rendimiento y privacidad.

Leer más
Inferencia Local

IA Local en 2026: LM Studio, llama.cpp y LLMs Open Source

IA Local en 2026. LM Studio, Ollama, llama.cpp. Modelos open source como Qwen3.6, Gemma 4 y requisitos de hardware.

Leer más