Fundamentos de LLM

Una serie sobre cómo funcionan los modelos de lenguaje por dentro, cómo ejecutarlos localmente, y cómo explotar sus capacidades en sistemas reales.

Ancho de banda de memoria para IA local: Qué pasa cuando un LLM procesa un prompt. Arquitectura de transformadores, atención, capas de feed-forward, y el proceso de generación token por token. La base para entender todo lo que viene después.

Motores de Inferencia para LLMs y Hardware de IA Local: llama.cpp, vLLM, TensorRT-LLM, SGLang, ExLlamaV3, MLX y TGI. Como elegir el motor correcto segun tu hardware y carga de trabajo.

Cómo piensan los LLM: Fundamentos de Inferencia: Qué pasa cuando un LLM procesa un prompt. Arquitectura de transformadores, atención, capas de feed-forward, y el proceso de generación token por token. La base para entender todo lo que viene después.

Ejecución Local de LLM: Runtimes, Operación y Cuantización: Cómo ejecutar modelos de lenguaje en hardware local. Comparativa de runtimes (Ollama, LM Studio, llama.cpp), estrategias de cuantización (GGUF, AWQ, GPTQ), y las decisiones reales entre precisión y rendimiento.

Casos de Uso Avanzados: RAG, Agentes y Fine-tuning: Más allá del chat: cómo integrar LLMs en sistemas de producción. Retrieval-Augmented Generation para conocimiento específico, agentes con capacidad de acción, y cuándo fine-tuning tiene sentido frente a prompt engineering.

Parámetros de generación: Temperatura, top-p, top-k, repetition penalty, y los demás parámetros que controlan cómo un LLM genera texto. Cómo cada uno afecta la distribución de probabilidad y cuándo ajustar cada uno en función del caso de uso.