Contacto

Entradas

  • Parámetros de generación

    Los modelos de lenguaje no piensan antes de escribir: Generan token por token. Los parámetros de generación determinan cómo elige entre miles de posibilidades en cada paso.


  • Prompt Chaining: cuando un solo prompt no alcanza

    Prompt Chaining descompone tareas complejas en pasos secuenciales para evitar instruction neglect, contextual drift y error propagation. Guía práctica con código Python, patrones de producción y Context Engineering.


  • Casos de Uso Avanzados: RAG, Agentes y Fine-tuning

    Guía técnica sobre casos de uso avanzados de LLM locales: RAG, agentes con herramientas, fine-tuning con LoRA/QLoRA, modelos multimodales y programación con IA local.


  • Ejecución Local de LLM: Runtimes, Operación y Cuantización

    Guía completa sobre ejecución local de LLM en 2026: runtimes (llama.cpp, vLLM, SGLang), cuantización (Q4-Q8), formatos de archivo (GGUF, safetensors), selección de modelos y operaciones.


  • Cómo piensan los LLM: Fundamentos de Inferencia

    Guía técnica sobre cómo funcionan los LLM localmente: tokens, transformers, atención, caché KV, prefill y decodificación. Fundamentos esenciales para ejecutar IA local en 2026.