Referencia consolidada de los términos técnicos utilizados en la serie de artículos sobre modelos de lenguaje, ejecución local y patrones de diseño para sistemas con agentes de IA. Organizado en seis capas conceptuales: Desde los fundamentos de la arquitectura Transformer hasta la evaluación y alineamiento de agentes en producción.
Índice de Contenido
Fundamentos de LLM
Los fundamentos de LLM describen cómo un modelo de lenguaje procesa texto, genera respuestas y gestiona su propio estado interno. Comprender estos conceptos es el prerrequisito para tomar decisiones informadas sobre hardware, software y estrategia de despliegue.
Autoatención (Self-Attention)
Mecanismo central del Transformer donde cada token evalúa las representaciones de todos los tokens previos y decide qué información es relevante para su predicción. Calcula pesos de atención mediante productos punto escalados entre consultas y llaves, ponderando los valores correspondientes.
Bloque MLP (Feed-Forward)
Computación no lineal densa dentro de cada capa del Transformer que expande y comprime las representaciones. Recibe la salida de la atención y la transforma mediante dos capas lineales con una función de activación intermedia. Una gran fracción de los parámetros del modelo reside en estos bloques.
BOS / EOS
Marcadores de control: BOS (Beginning Of Sequence) indica el inicio de una secuencia de tokens; EOS (End Of Sequence) señala su final. Son críticos para que el modelo distinga dónde comienza y termina una entrada o respuesta. Usar los tokens incorrectos genera interpretaciones erróneas.
BPE (Byte-Pair Encoding)
Algoritmo de tokenización que fusiona iterativamente los pares de bytes o tokens más frecuentes. Comienza con un vocabulario de caracteres individuales y va construyendo unidades cada vez más grandes. Es la base de los tokenizadores de GPT y Llama.
Bucle de inferencia
Ciclo repetitivo que sigue un LLM de solo decodificador durante la generación. En cada iteración, el modelo convierte el texto en tokens, calcula puntuaciones para cada posible siguiente token, elige uno mediante una política de decodificación y lo añade a la secuencia. El proceso se repite hasta que el modelo emita un token de parada, se alcance el límite de tokens o el usuario interrumpa la generación.
Caché KV (Key-Value Cache)
Memoria de trabajo del modelo durante la generación que almacena los estados de atención llave y valor para los tokens anteriores. Evita recomputar todo el historial desde cero en cada token generado. Su tamaño crece proporcionalmente con el número de tokens, capas, cabezas KV y precisión numérica.
Conexiones Residuales
Atajos que suman la entrada de un sub-bloque a su salida, permitiendo que la información fluya directamente a través de múltiples capas. Sin conexiones residuales, las redes profundas tendrían dificultades para preservar señales a través de docenas o cientos de capas apiladas.
Embeddings de Token
Los IDs de tokens se convierten en vectores de dimensión fija antes de entrar en las capas del modelo. Cada token del vocabulario tiene un vector asociado aprendido durante el entrenamiento. Los embeddings son la representación numérica que el modelo procesa internamente.
GQA (Grouped-Query Attention)
Variantes de atención donde grupos de cabezas comparten los mismos estados de llave y valor. Reduce el tamaño del caché KV de forma moderada sin sacrificar significativamente la calidad del modelo. Es el enfoque predominante en modelos modernos como Llama 3 y Mistral.
Inferencia
Proceso de ejecutar un modelo de lenguaje para generar una respuesta a partir de una entrada. A diferencia del entrenamiento, donde el modelo aprende de datos, la inferencia aplica los pesos ya aprendidos para producir texto nuevo. Es la operación que el usuario final experimenta directamente.
Logits
Puntuaciones crudas producidas por la proyección de salida, antes de cualquier normalización. Cada logit corresponde a un token del vocabulario y representa la afinidad no normalizada del modelo con ese token como siguiente en la secuencia. No son probabilidades directas.
Marcadores Especiales
Tokens reservados con funciones específicas: Indicar el inicio o fin de una secuencia, separar roles de conversación, marcar instrucciones o señalar el fin de la generación. Cada familia de modelo define sus propios marcadores y su uso incorrecto causa comportamientos inesperados.
MHA (Multi-Head Attention)
Atención multi-cabezal completa donde cada cabeza mantiene estados de llave y valor separados. Proporciona al modelo flexibilidad para atender diferentes aspectos del contexto simultáneamente, pero hace que el caché KV sea grande. Es el diseño original de los Transformers.
Modelo Base
Modelo preentrenado sin ajuste adicional para seguir instrucciones o conversar. Se entrena para predecir el siguiente token a partir de grandes volúmenes de texto. Es el punto de partida para fine-tuning y pipelines personalizados. No está optimizado para interacción directa con usuarios.
Modelo Chat
Modelo optimizado para diálogos de múltiples turnos con historial conversacional. Fue entrenado con datos de conversación estructurados en formato de roles (sistema, usuario, asistente). Es el punto de partida recomendado para asistentes conversacionales y la mayoría de aplicaciones interactivas.
Modelo Instruct
Modelo ajustado para seguir instrucciones directas mediante entrenamiento con pares de entrada-salida. Responde de forma útil a peticiones puntuales y preguntas concretas. Es adecuado para tareas específicas como Q&A, clasificación o extracción de información.
Modelo Reasoning
Modelo entrenado para razonamiento multietapa con cadenas de pensamiento internas. Supera el emparejamiento de patrones simple para abordar problemas de matemáticas, lógica y verificación. Genera procesos de razonamiento extensos antes de producir la respuesta final.
Modelo Tool-tuned
Modelo ajustado específicamente para llamadas a herramientas estructuradas. Fue entrenado con ejemplos de uso de funciones, generación de JSON y esquemas de herramientas. Es la opción recomendada para agentes que necesitan interactuar con APIs, bases de datos o sistemas externos de forma fiable.
MQA (Multi-Query Attention)
Extrema de la eficiencia en atención donde todas las cabezas comparten una única llave y un único valor. Produce la reducción máxima del caché KV, pero puede degradar la calidad del modelo en tareas que requieren atención muy especializada. Se usa en algunos modelos optimizados para inferencia.
Multimodalidad
Capacidad de un modelo de procesar entradas no textuales como imágenes, audio o vídeo además del texto. La entrada no textual se convierte en tokens también: Los codificadores de visión añaden memoria y los parches de imagen consumen contexto. Los modelos VLM pequeños pueden alucinar detalles visuales y la fiabilidad del OCR varía.
Normalización de Capa
Técnica que estabiliza el entrenamiento y la inferencia normalizando las activaciones dentro de cada capa. Controla la escala de las representaciones para evitar que los gradientes exploten o se desvanezcan en redes profundas. Se aplica antes o después de los sub-bloques de atención y MLP.
Paso hacia adelante (Forward Pass)
Una pasada completa de los datos de entrada a través de todas las capas del modelo, desde los embeddings iniciales hasta la proyección de salida. En cada iteración del bucle de inferencia se ejecuta un forward pass que produce logits sobre el vocabulario completo.
Plantilla de Chat
Formato de conversación específico con el que un modelo fue entrenado, que define cómo se estructuran los mensajes del sistema, usuario y asistente mediante marcadores especiales. Usar la plantilla incorrecta causa galimatías, confusión de roles o ignorancia del prompt de sistema. Es un contrato de API entre el modelo y el runtime.
Proyección de Salida
Capa final que convierte el estado oculto del último token en logits sobre el vocabulario completo. Es una transformación lineal que mapea la dimensión del modelo al tamaño del vocabulario del tokenizador. Los logits resultantes son las puntuaciones crudas antes de aplicar softmax.
RoPE (Rotary Position Embeddings)
Método de codificación posicional que aplica rotaciones de frecuencia a los vectores de consulta y llave. Permite que el modelo generalice a longitudes de contexto no vistas durante el entrenamiento, ya que la posición se codifica mediante relaciones angulares en lugar de embeddings absolutos.
SentencePiece
Framework de tokenización que opera directamente sobre texto Unicode sin depender de una segmentación de palabras previa. Utiliza BPE o unigram como estrategia interna. Es el enfoque detrás de los tokenizadores de modelos como T5, PaLM y Gemini.
Softmax
Función que convierte los logits en una distribución de probabilidad válida, donde todas las probabilidades son positivas y suman uno. Permite interpretar las puntuaciones del modelo como probabilidades de cada token del vocabulario. La temperatura modifica la distribución antes de aplicar softmax.
Solo decodificador (Decoder-only)
Variante de Transformer que solo contiene el decodificador, sin la parte del codificador. Predice el siguiente token mirando exclusivamente hacia atrás en la secuencia. Es la arquitectura predominante en modelos de chat locales como Llama, Mistral y Qwen.
Tokenizador (Tokenizer)
Algoritmo que convierte texto en secuencias de tokens (IDs numéricos) y viceversa. El tokenizador determina cómo se fragmenta el texto, cuántos tokens ocupa un documento y qué tan eficiente es el modelo con diferentes idiomas o código. Cada familia de modelo tiene su propio tokenizador.
Tokens
Unidad mínima de texto que un LLM procesa. Un token puede ser una palabra completa, un fragmento de palabra, un signo de puntuación o un carácter individual. Los modelos no operan sobre texto bruto, sino sobre secuencias de IDs numéricos que representan tokens.
Transformer
Arquitectura de red neuronal basada en mecanismos de atención que sustituye a las recurrentes (RNN) y convolucionales (CNN) como base de los LLM modernos. Su diseño permite procesar secuencias de forma paralela y capturar dependencias de largo alcance entre tokens. Los LLM de chat son típicamente Transformers de solo decodificador.
Ventana de Contexto
Número máximo de tokens a los que un modelo puede prestar atención simultáneamente. Determina cuánta información puede considerar al generar una respuesta. El contexto soportado no equivale a un contexto barato, rápido o igualmente preciso: La calidad puede decaer con la distancia.
Vocabulario del Tokenizador
Conjunto completo de tokens que un tokenizador reconoce y puede mapear a IDs. Los vocabularios típicos de LLM modernos van desde 30.000 hasta 150.000 tokens. Un vocabulario más grande puede comprimir texto en menos tokens, pero incrementa el tamaño de los embeddings y la proyección de salida.
YaRN (Yet another RoPE extension)
Extensión de RoPE que permite extrapolación de contexto más allá del límite de entrenamiento del modelo. Aplica interpolación de frecuencia adaptativa para mantener la calidad a longitudes superiores a las vistas durante el preentrenamiento, aunque con degradación de calidad predecible.
Inferencia y Runtime
La capa de operación abarca cuantización, formatos de archivo, motores de inferencia y gestión de recursos. Elegir el runtime adecuado vincula al formato de modelo y determina el rendimiento real del sistema.
Cuantización
Técnica que almacena los pesos del modelo en una precisión numérica menor para reducir la memoria requerida y, en algunos casos, mejorar el rendimiento. El impacto aparece primero en matemáticas, razonamiento multietapa, corrección de código, fiabilidad de uso de herramientas y adherencia a esquemas JSON.
Cuantización de Pesos
Almacenamiento de los parámetros del modelo en una precisión numérica menor para reducir la memoria requerida. Los pesos se representan con menos bits (por ejemplo, 4 bits en lugar de 16), lo que permite cargar modelos más grandes o mejorar el rendimiento. La cuantización agresiva puede degradar la calidad en matemáticas, código y tareas estructuradas.
Cuantización del Caché KV
Reducción de la precisión numérica del caché KV (por ejemplo, a FP8 o INT8) para disminuir la memoria del contexto activo. Es un mecanismo distinto de la cuantización de pesos: Esta última reduce el tamaño del modelo almacenado, mientras que esta reduce la memoria de trabajo durante la generación.
Decode (Decodificación)
Fase de generación donde el modelo produce nuevos tokens uno a la vez de forma secuencial. Cada nuevo token depende de la secuencia completa hasta el momento. Suele ser la fase que determina si un modelo se percibe como rápido o lento, y está limitada por el ancho de banda de memoria.
Decodificación Codiciosa (Greedy Decoding)
Estrategia que siempre selecciona el token con mayor probabilidad en cada paso, sin explorar alternativas. Produce salidas deterministas y reproducibles, pero puede quedar atrapada en bucles o generar respuestas genéricas. Para evaluaciones se usan configuraciones deterministas; para ideación, mayor variabilidad.
Decodificación Especulativa
Técnica que propone tokens de bajo costo mediante un modelo borrador y los valida en paralelo con el modelo principal. Si las predicciones del borrador son correctas, se aceptan en lote y se ahorran pasos de inferencia. Mejora la velocidad de decodificación sin alterar la distribución de salida del modelo.
Despliegue en el Borde
Ejecución de modelos en dispositivos con restricciones: Teléfonos, portátiles, robots, puertas de enlace IoT, vehículos o aplicaciones de navegador. Requiere modelos pequeños (0.5B a 4B), cuantización agresiva, prompts cortos, esquemas fijos y sin historial de chat innecesario. Cuando la conectividad cae, un modelo local que sigue funcionando es más valioso que uno más grande que falla.
EXL2 / GPTQ / AWQ
Formatos de cuantización especializados para inferencia local en GPU: EXL2 es el formato de ExLlamaV2 con soporte para cuantización por grupo; GPTQ cuantiza columnas de pesos con calibración; AWQ aplica cuantización ponderada por activación. Cada uno requiere kernels optimizados en el motor objetivo.
ExLlamaV2 / ExLlamaV3
Motores de cuantización CUDA optimizados para GPU de consumo. ExLlamaV2 extrae máximo rendimiento de una sola RTX con formato EXL2, incorporando paged attention, dynamic batching y decodificación especulativa. ExLlamaV3 extiende la filosofía hacia configuraciones multinodo (2-4 GPUs) e inferencia MoE local con formato EXL3 basado en QTIP.
FlashAttention
Kernel optimizado que reduce el tráfico de memoria de la atención evitando escribir la matriz completa a la VRAM. Emplea tiling consciente de E/S para procesar bloques de la matriz de atención de forma eficiente. Es crítico en contexto largo donde la atención puede ser el cuello de botella real.
FP16 / BF16
Precisión numérica de 16 bits: FP16 (IEEE half-precision) y BF16 (Brain Floating Point). Representan la mejor calidad disponible para inferencia y son la línea base para evaluación. Requieren aproximadamente dos bytes por parámetro, por lo que un modelo de 7B ocupa cerca de 14 GiB.
Frequency Penalty
Penalización proporcional a la frecuencia de aparición de un token en el texto generado. Combate las muletillas y repeticiones sistemáticas: Cuanto más se repite un token, mayor es la penalización aplicada.
GGUF
Formato de archivo diseñado para llama.cpp y LM Studio, optimizado para inferencia local con soporte nativo de cuantización. Es seguro (no ejecuta código durante la carga) y permite cargar modelos cuantizados directamente sin conversión previa.
Harbor
Stack local completo para ejecutar modelos de IA con interfaz integrada. Soporta formatos GGUF y safetensors. Está orientado a usuarios que buscan un entorno de desarrollo local unificado con capacidades de chat, gestión de modelos y servidor API.
llama.cpp
Runtime de inferencia en C++ diseñado para portabilidad máxima. Soporta CPU, Apple Silicon, GPU NVIDIA, AMD, RISC-V, Vulkan y offload híbrido. Domina el segmento de hardware heterogéneo y operación offline. Su formato nativo es GGUF. No está diseñado para servicio de producción multinodo.
LM Studio
Aplicación de escritorio con interfaz gráfica para ejecutar modelos GGUF localmente. Orientada a principiantes y usuarios que buscan conveniencia sin configurar líneas de comando. Soporta búsqueda de modelos, chat interactivo y servidor API local.
LMDeploy
Kit de herramientas centrado en CUDA con TurboMind para rendimiento y PyTorch para accesibilidad. Ofrece una alternativa a vLLM, SGLang y TensorRT-LLM para usuarios de CUDA que buscan un stack más ligero con funcionalidades de servicio.
Min_p
Umbral mínimo de probabilidad relativa: Un token solo se considera si su probabilidad es al menos una fracción de la probabilidad del token más probable. Evita la selección de tokens absurdamente improbables sin imponer un límite fijo de candidatos.
MLC LLM
Motor de despliegue universal basado en compilador con APIs compatibles con OpenAI en REST, Python, JavaScript, iOS y Android. Está orientado a navegadores, dispositivos móviles y aplicaciones nativas. WebLLM es su variante para ejecución directa en el navegador.
MLX / MLX-LM
Framework de arrays de Apple diseñado para Apple Silicon (MLX) y su paquete de LLM (MLX-LM). Aprovecha la memoria unificada para alojar modelos que exceden la capacidad de cualquier VRAM de consumo. Incluye integración con Hugging Face Hub, cuantización, LoRA y ajuste fino completo.
MoE (Mixture of Experts)
Arquitectura donde el modelo contiene múltiples especialistas y un mecanismo de enrutamiento selecciona qué expertos procesan cada token. Los parámetros totales son grandes, pero los parámetros activos por token son menores. El enrutamiento de expertos y la interconexión de alta velocidad son los cuellos de botella principales.
NVIDIA Dynamo
Capa de orquestación distribuida que opera sobre motores como vLLM, SGLang y TensorRT-LLM. Coordina flotas de motores, gestiona la desagregación de prefill y decode, implementa enrutamiento inteligente y caché KV multinivel. Se usa cuando un motor individual ya no es suficiente para la escala requerida.
Ollama
Herramienta de desarrollo local que simplifica la descarga, gestión y ejecución de modelos mediante una interfaz de línea de comandos y API compatible con OpenAI. Es práctica para pruebas rápidas y prototipos, pero no está diseñada para servicio de producción riguroso.
ONNX
Formato abierto de intercambio de modelos que permite ejecutar redes neuronales en múltiples plataformas y frameworks. ONNX Runtime GenAI implementa el ciclo generativo completo sobre esta base. Facilita el despliegue en entornos heterogéneos: CPU, GPU, dispositivos edge y navegadores.
ONNX Runtime GenAI
Implementa el ciclo generativo completo sobre ONNX Runtime, permitiendo despliegue en CPU, CUDA, DirectML, TensorRT-RTX, OpenVINO, QNN, WebGPU y GPU AMD. Potencia Foundry Local, Windows ML y VS Code AI Toolkit.
OpenVINO GenAI
Solución optimizada de Intel para CPUs Xeon, GPUs Arc, Core Ultra y NPUs. Ofrece servicio compatible con OpenAI con continuous batching y paged attention. Es la opción recomendada para hardware Intel de servidor y consumo.
Paralelismo de Tensores
Técnica que divide los pesos del modelo entre múltiples GPUs para procesarlos concurrentemente. Requiere operaciones all-reduce frecuentes entre dispositivos. En ausencia de NVLink o NVSwitch, el paralelismo de tubería puede ofrecer mejor rendimiento que el de tensores.
Prefill
Fase inicial de la inferencia que procesa el prompt completo y construye la caché KV antes de generar el primer token de respuesta. Es relativamente paralelizable, por lo que las GPUs pueden procesarlo eficientemente. El tiempo que esperas antes de que aparezca la primera palabra es generalmente el tiempo de prefill.
Presence Penalty
Penalización aplicada a tokens que ya aparecen en el contexto, independientemente de su frecuencia. Empuja al modelo hacia ideas nuevas en lugar de reutilizar conceptos ya mencionados. Útil para generación creativa o exploración de alternativas.
Q3 / Q2
Niveles de cuantización agresiva de 3 y 2 bits con degradación notable de calidad. Se reservan para situaciones donde es imprescindible hacer caber un modelo grande en hardware limitado. El impacto en matemáticas, código y tareas estructuradas es significativo.
Q4
Cuantización a 4 bits, el sweet spot para chat y documentos. Proporciona buena calidad con una reducción de memoria sustancial. Es el nivel más utilizado en despliegues locales porque equilibra rendimiento, calidad y consumo de recursos de forma práctica.
Q6 / Q5
Niveles de cuantización de 6 y 5 bits que ofrecen excelente calidad. Constituyen el punto medio sólido entre calidad y memoria. Un modelo de 7B en Q6 puede superar a un modelo de 13B en Q2 en tareas de razonamiento mientras usa menos memoria y corre más rápido.
Q8 / INT8
Cuantización a 8 bits que produce casi sin pérdida de calidad. Es el punto donde la reducción de memoria comienza a ser significativa sin comprometer el comportamiento del modelo. Recomendado cuando hay VRAM disponible y se busca pérdida mínima.
Repeat Penalty
Mecanismo que reduce la probabilidad de tokens ya utilizados recientemente, rompiendo bucles de repetición. Aplica una penalización multiplicativa a tokens que aparecen en el historial reciente de generación.
Safetensors
Formato seguro de almacenamiento de tensores para PyTorch y Transformers que evita los riesgos de ejecución de código asociados con pickle. Es el formato preferido por vLLM, SGLang y la mayoría de motores de producción. Los archivos .bin de PyTorch basados en pickle pueden ejecutar código arbitrario.
SDPA (Scaled Dot-Product Attention)
Implementación eficiente de atención que combina escalado, cálculo de productos punto y masking en una operación unificada. Las versiones modernas de PyTorch incluyen optimizaciones automáticas de SDPA que seleccionan el kernel más rápido disponible según el hardware y la configuración.
SGLang
Motor orientado a cargas de trabajo complejas: Salidas estructuradas, contexto extenso, arquitecturas MoE y desagregación de fases. Su elemento diferenciador es la separación de prefill y decode en instancias especializadas. Incorpora RadixAttention para caché de preficientes y batching multi-LoRA.
Temperature
Control de la aleatoriedad en la generación del modelo. Valores bajos (0.0-0.1) producen salidas deterministas y reproducibles, adecuadas para pipelines estructurados. Valores altos aumentan la creatividad pero reducen la consistencia. En producción, la mayoría de pasos utilitarios operan con temperatura cercana a cero.
TensorRT-LLM
Stack de rendimiento máximo de NVIDIA con kernels personalizados para atención, GEMMs y MoE. Está optimizado para flotas clase H100/H200/B200/GB200/GB300. Soporta cuantización FP8/FP4, desagregación prefill-decode y decodificación especulativa. Se intercambia portabilidad por rendimiento.
Top_k
Filtro rígido que limita la selección a los k tokens más probables. A diferencia de Top_p, siempre considera exactamente k candidatos independientemente de su distribución de probabilidad. Es más predecible pero menos flexible que Top_p.
Top_p
Muestreo por probabilidad acumulada: El modelo solo considera tokens cuya probabilidad acumulada no supera el umbral especificado. Es un filtro adaptativo: A diferencia de Top_k, el número de candidatos varía según la distribución de probabilidad de cada paso.
vLLM
Motor de servicio de producción open-source con PagedAttention, continuous batching, chunked prefill y soporte extensivo de cuantización. Es el punto de partida predeterminado para desplegar modelos abiertos en producción. Soporta paralelismo de tensor, tubería, datos y expertos, además de múltiples plataformas de hardware.
VRAM (Memoria de Video)
Memoria dedicada de la GPU donde residen los pesos del modelo, el caché KV y la sobrecarga del runtime. Determina si un modelo cabe. El ancho de banda de la VRAM, no solo su capacidad, determina la velocidad de decodificación. La memoria unificada de Apple Silicon ofrece capacidad excepcional con compensaciones en ancho de banda.
Retrieval y Memoria
Estas técnicas conectan a los modelos con conocimiento externo y gestionan la información a lo largo del tiempo. Incluyen estrategias de recuperación, almacenamiento persistente y control del contexto activo.
Agentic RAG
Variante de RAG que introduce un agente de razonamiento activo entre la recuperación y la generación. El agente valida fuentes, reconcilia conflictos entre documentos recuperados, descompone consultas complejas en subconsultas y llena lagunas de conocimiento activando herramientas externas. Supera las limitaciones del RAG tradicional cuando las consultas requieren razonamiento multietapa o múltiples fuentes de datos.
BM25
Algoritmo de recuperación basado en palabras clave, frecuentemente combinado con búsqueda vectorial en sistemas RAG híbridos. Puntúa documentos por frecuencia de términos y longitud, proporcionando robustez cuando la búsqueda semántica falla en coincidencias exactas.
Chunking
División de documentos grandes en fragmentos semánticamente significativos para recuperación dirigida en pipelines RAG. La estrategia de fragmentación es el factor más subestimado en RAG: Los fragmentos de tamaño fijo sin solapamiento pueden dividir frases y perder contexto. El chunking semántico o jerárquico suele funcionar mejor.
Context Window Management
Gestión activa del espacio de contexto disponible para prevenir que el modelo pierda acceso a información relevante. La estrategia subyacente consiste en priorizar qué información conservar y qué descartar. Las implementaciones concretas incluyen ventanas deslizantes con prioridad, resumido progresivo y poda de datos efímeros.
Contextual Drift
Pérdida del objetivo original a medida que el contexto se acumula durante múltiples turnos. El modelo se distrae con información reciente y olvida la intención inicial. Se mitiga con anclaje explícito del objetivo en cada iteración.
Embeddings
Representaciones vectoriales numéricas de texto que capturan significado semántico para búsqueda de similitud. Documentos con contenido similar producen vectores cercanos en el espacio vectorial, independientemente de las palabras exactas utilizadas.
Ephemeral Data Pruning
Eliminación selectiva de datos temporales del contexto: Resultados intermedios de herramientas, pasos de razonamiento ya completados o datos que ya no son relevantes para la tarea actual. Reduce el ruido sin perder información estructural.
Episodic Memory
Registro de secuencias de interacciones pasadas y ejemplos few-shot. Se almacena en bases de datos vectoriales con metadatos temporales. Permite al agente recuperar episodios relevantes como contexto para situaciones similares futuras.
GraphRAG
Variantes de RAG que utiliza un grafo de conocimiento (nodos y aristas) en lugar de únicamente un almacén vectorial. Navega relaciones explícitas entre entidades para síntesis entre documentos. Supera las limitaciones de RAG tradicional en consultas que requieren comprensión de relaciones.
Hybrid Retrieval
Combinación de búsqueda semántica (vectorial) con búsqueda por palabras clave (BM25) y filtros de metadatos. La robustez viene de la complementariedad: La búsqueda vectorial captura significado, BM25 captura términos exactos.
Ingestión de Documentos
Proceso de carga, análisis y preparación de documentos para un sistema RAG: Se extrae texto de archivos PDF, DOCX, TXT, HTML, se preserva la estructura de metadatos y se fragmenta semánticamente. La calidad de la ingestión determina directamente la calidad de la recuperación.
Knowledge Retrieval (RAG)
Conectar LLMs a bases de conocimiento externas antes de generar una respuesta: Recuperar, augmentar, generar. Las subvariantes evolucionan desde RAG Naive (búsqueda simple) hasta Agentic RAG (agente activo entre recuperación y generación) y GraphRAG (navegación de relaciones explícitas entre entidades mediante grafos de conocimiento).
Memory Decay
Deterioro de la utilidad de la memoria almacenada con el tiempo. Tres tipos de datos obsoletos: Preferencias desactualizadas, episodios irrelevantes y contradicciones acumuladas. Las defensas incluyen marcas temporales, detección de contradicciones y expiración automática.
Memory Management
Arquitectura de doble capa: Memoria a corto plazo (contexto de sesión, efímera, acceso inmediato) y memoria a largo plazo (almacenamiento persistente que requiere recuperación explícita). Incluye gestión de la ventana de contexto mediante ventanas deslizantes con prioridad, resumido progresivo y poda de datos efímeros.
Procedural Memory
Instrucciones del agente que pueden auto-actualizarse mediante reflexión. Se versiona en almacenes clave-valor. Es la capacidad de un agente de mejorar sus propios procedimientos basándose en experiencia acumulada.
Progressive Summarization
Compresión progresiva del historial de interacciones para controlar el crecimiento del contexto. Cada cierto número de turnos, el sistema genera un resumen que reemplaza los mensajes originales, reduciendo el consumo de tokens mientras preserva la información esencial. Es una de las estrategias principales de gestión de la ventana de contexto en conversaciones largas.
RAG (Retrieval-Augmented Generation)
Generación Aumentada por Recuperación: En lugar de meter toda la información en el prompt, se recuperan fragmentos relevantes de una base de conocimiento externa y se dan solo esos al modelo. Es más eficiente en memoria, más rápido y produce respuestas más fundamentadas porque el modelo solo ve la evidencia relevante.
Reranking
Reordenamiento de los resultados de recuperación por relevancia antes de construir el prompt final. Un buen reranker puede rescatar una recuperación mediocre, pero no puede crear información que no estaba en los fragmentos originales. Se aplica después de la búsqueda vectorial o híbrida.
Semantic Memory
Hechos y preferencias del usuario almacenados de forma persistente. En producción, se implementa como almacén clave-valor o base de datos vectorial. Es la taxonomía más cercana a lo que un sistema conoce como «conocimiento factual».
Sliding Windows with Priority
Estrategia de gestión de contexto que mantiene una ventana de tokens limitada, priorizando la información más relevante y descartando contenido menos importante. La prioridad se determina por relevancia contextual, antigüedad o importancia declarada.
Vector Database
Base de datos especializada en almacenar y consultar embeddings (vectores numéricos). Permite búsqueda por similitud semántica: Encontrar documentos conceptualmente cercanos aunque no compartan palabras exactas. Ejemplos: Pinecone, Weaviate, Milvus, Chroma.
Índice Vectorial
Estructura de datos que almacena embeddings y permite búsqueda por similitud semántica. Convierte texto en vectores numéricos y encuentra documentos conceptualmente cercanos aunque no compartan palabras exactas. Es el componente central de cualquier sistema RAG.
Agentes y Orquestación
Los patrones agénticos estructuran la interacción entre modelos de lenguaje y sus componentes: Herramientas, memoria, otros agentes o procesos externos. No son frameworks específicos, sino enfoques arquitectónicos reutilizables.
Agent Card
Descriptor JSON que define la identidad de un agente: capacidades, habilidades, URL de endpoint y requisitos de autenticación. Es la identidad digital utilizada en el descubrimiento A2A. Permite que agentes de diferentes frameworks se conozcan y negocien tareas.
Agent-as-Tool
Envolver un agente especializado en una interfaz de herramienta para que otro agente pueda invocarlo de forma programática. La complejidad interna del agente se oculta detrás de una interfaz estable, permitiendo la composición jerárquica de sistemas agénticos. Es el mecanismo principal para reducir la redundancia y reutilizar lógica de razonamiento entre componentes.
AgentExecutor
Runtime de LangChain que invoca agentes y gestiona el ciclo de ejecución de herramientas: El LLM decide, la herramienta se ejecuta, el resultado se devuelve. En versiones modernas de LangChain, el comportamiento depende de la configuración: LangGraph ha reemplazado a AgentExecutor como el estándar para flujos agénticos complejos, aunque AgentExecutor sigue disponible para casos simples.
AgentScratchpad
Espacio de razonamiento interno donde un agente rastrea pasos de uso de herramientas, observaciones y pensamientos intermedios. Es el historial de trabajo que el modelo consulta antes de cada decisión, similar al papel de borrador de un matemático.
Alignment entre Agentes
Cada agente optimiza localmente, pero los óptimos locales no componen en óptimos globales. Un agente SEO maximiza keywords, un agente escritor maximiza claridad, un agente legal maximiza cumplimiento: La salida combinada es técnicamente correcta pero funcionalmente inutilizable. Se resuelve con un objetivo global explícito como criterio de síntesis.
Cascading Failures
Fallos en cascada donde un error inicial desencadena una cadena de fallos subsiguientees. En sistemas agénticos, un mal routing puede llevar a un handler incorrecto, que produce salida inválida, que el pipeline siguiente no puede procesar. Los circuit breakers y validaciones intermedias rompen la cadena.
Chain of Debates (CoD)
Framework de debate multimodelo donde varios LLMs deliberan, critican el razonamiento mutuo y convergen en una solución validada. Cada modelo aporta una perspectiva diferente; la tensión entre posiciones produce resultados más robustos que un modelo aislado.
Chain-of-Thought (CoT)
Técnica que pide al modelo generar pasos de razonamiento intermedios explícitos antes de producir la respuesta final. Es la técnica de razonamiento base. Un prompt simple como ‘piensa paso a paso’ puede mejorar el razonamiento en muchos modelos, aunque la efectividad varía según la familia del modelo, la tarea y la longitud de la cadena de pensamiento generada.
Communication Cost O(N²)
En topologías peer-to-peer, cada agente debe comunicarse con todos los demás, produciendo un coste cuadrático. Es por esto que las arquitecturas reales terminan siendo jerárquicas o parcialmente conectas: El supervisor central reduce la comunicación a O(N).
Context Engineering
Diseño macro del entorno informativo que rodea al modelo: Prompts de sistema, documentos recuperados, salidas de herramientas, datos implícitos del usuario y gestión de la ventana de contexto. A diferencia de Prompt Chaining (que estructura el flujo), Context Engineering se ocupa de la calidad y composición de la información que el modelo recibe en cada paso.
Context Explosion
Crecimiento exponencial del contexto cuando múltiples herramientas, agentes o iteraciones agregan datos sin poda. Un agente que ejecuta cinco herramientas que devuelven 200 líneas cada una puede exceder la ventana de contexto en pocas iteraciones. La gestión activa de contexto es obligatoria.
Contractor Paradigm
Uso de contratos formalizados (más allá de prompts) para definir entregables del agente, alcance, fuentes de datos, costo computacional y línea temporal. Permite comportamiento determinista y rendición de cuentas. Los agentes pueden negociar dinámicamente términos cuando las fuentes de datos son inaccesibles o los requisitos son ambiguos.
Convergence Point
El paso donde los resultados paralelos se agregan en una salida unificada. Es el fan-in del patrón Parallelization. La convergencia es costosa: Requiere otra llamada al modelo y puede introducir inconsistencias semánticas entre las ramas.
Coordination Overhead
Coste adicional de comunicar y sincronizar múltiples agentes. En topologías peer-to-peer, el coste de comunicación es O(N²). En la práctica, la mayoría de sistemas agénticos reales usan muy poca coordinación emergente porque explode el coste y reduce la predictibilidad.
Coordinator Pattern
Agente central que clasifica las peticiones entrantes y las enruta a handlers especializados. Es la base del patrón Routing: Un entry-point que distribuye el trabajo según la intención o categoría de la entrada.
CrewAI
Framework para equipos multi-agente basados en roles con dependencias de tareas, procesos secuenciales o paralelos y guardrails integrados. Es particularmente útil para definir equipos especializados con roles claros y flujos de handoff explícitos.
Divide-and-Conquer
Estrategia de descomposición que rompe la complejidad distribuyendo el trabajo entre múltiples llamadas al modelo, cada una enfocada en un subproblema específico. Reduce la carga cognitiva por llamada y mejora la precisión de cada paso individual. Se aplica dentro de Prompt Chaining o como patrón independiente cuando las sub-tareas son verdaderamente independientes.
Error Propagation
Acumulación de errores entre pasos de un pipeline: Un error en el paso N se amplifica en los pasos subsiguientees. Las salidas estructuradas con validación intermedia son la defensa principal: Detectar y corregir errores antes de que propaguen.
Escalation Policy
Protocolo que define cuándo un agente transfiere el control a un operador humano: Baja confianza, alta complejidad, decisiones críticas o patrones de error persistente. La política debe ser explícita y medible, no subjetiva.
Evaluation and Monitoring
Medición continua y multidimensional del rendimiento de agentes en producción: Precisión, latencia, consumo de recursos, análisis de trayectorias y calidad subjetiva. LLM-as-a-Judge evalúa cualidades subjetivas con rúbricas estructuradas. El Contractor Paradigm usa contratos formalizados para definir entregables, alcance y costos de forma determinista.
Exception Handling and Recovery
Mecanismos de manejo de errores en operaciones agénticas: Try-catch en cada paso, reintento con backoff exponencial, estrategias de fallback y circuit breakers. La distinción crítica es entre errores recuperables y fatales. La degradación elegante mantiene funcionalidad parcial cuando la recuperación completa no es posible.
Exploration and Discovery
Patrón de generación proactiva de conocimiento: Los agentes buscan información novedosa, generan hipótesis y descubren desconocidos en lugar de simplemente ejecutar tareas conocidas. El ciclo Generate-Debate-Evolve es la iteración central: Las hipótesis se generan, evalúan críticamente y refinan según la retroalimentación.
Fan-out / Fan-in
Par de operaciones complementarias en Parallelization. Fan-out distribuye una entrada en múltiples ramas paralelas. Fan-in agrega los resultados de esas ramas en una salida coherente. Juntos forman el esqueleto de cualquier pipeline concurrente.
FastMCP
Framework Python de alto nivel para construir servidores MCP rápidamente con sintaxis basada en decoradores y schemas auto-generados. Simplifica la creación de herramientas MCP sin escribir boilerplate de protocolo.
Feedback Loop
Estructura de control que permite la autocorrección iterativa: Producir, criticar, refinar, repetir. Es el mecanismo central de Reflection y Learning. Requiere criterios de parada explícitos para evitar bucles infinitos.
Function Calling
Mecanismo técnico donde el LLM genera solicitudes estructuradas (JSON) para invocar funciones externas. Es la capa de comunicación entre el modelo y el código ejecutable. No es lo mismo que Tool Use: Function Calling es el mecanismo, Tool Use es el concepto más amplio.
Generate-Debate-Evolve Cycle
Iteración central en exploración y descubrimiento: Las hipótesis se generan, se evalúan críticamente a través de debate estructurado y se refinan según la retroalimentación recibida. Es el motor de los sistemas de investigación autónoma.
Goal Setting and Monitoring
Dar a los agentes objetivos explícitos con criterios de éxito medibles y un bucle de retroalimentación para medir el progreso. Los objetivos deben ser descomponibles y cuantificables. El marco SICA (Specific, Intelligent, Contextual, Achievable) proporciona estructura para definiciones claras.
Google ADK
Agent Development Kit de Google para construir, desplegar y evaluar sistemas agénticos. Proporciona SequentialAgent, ParallelAgent, LoopAgent, MCPToolset y herramientas de evaluación integradas. Soporta Auto-Flow para delegación impulsada por LLM a sub-agentes.
Graph of Debates (GoD)
Red de debate no lineal donde los argumentos son nodos conectados por aristas de soporte o refutación. A diferencia de CoD (lineal), GoD permite relaciones cruzadas entre argumentos: Un argumento puede apoyar uno y refutar otro simultáneamente.
Human-in-the-Loop (HITL)
Patrón que integra supervisión humana, intervención y retroalimentación en los flujos de trabajo de los agentes. Define puertas de aprobación, pausa la ejecución del agente y espera input humano antes de continuar. La variante Human-on-the-Loop establece guardrails de política a alto nivel mientras la IA ejecuta autónomamente dentro de esos límites.
Instruction Neglect
Tendencia de los LLMs a saltarse partes de prompts largos y complejos. Es uno de los fallos más comunes en pipelines: El modelo ignora instrucciones intermedias y produce salida incompleta. La mitigación se logra con prompts más cortos por etapa, salidas estructuradas y validación intermedia entre pasos.
Inter-Agent Communication (A2A)
Protocolo HTTP abierto que permite a agentes construidos sobre frameworks distintos descubrirse entre sí, delegar tareas e intercambiar información mediante JSON-RPC 2.0. Las Agent Cards describen las capacidades de cada agente. A2A es para protocolo inter-agente; MCP es para protocolo de herramientas. Se complementan.
LangChain
Framework Python para construir aplicaciones potenciadas por LLM. Proporciona cadenas, agentes, llamada de herramientas, memoria y herramientas de evaluación. Es más rápido para prototipos; en producción, las implementaciones custom suelen tener mejor observabilidad y control de errores.
LangChain Expression Language (LCEL)
Sintaxis compositiva para encadenar componentes ejecutables en LangChain usando el operador pipe (|). Permite construir pipelines declarativos: Prompt | llm | parser. Los constructos RunnableBranch y RunnableParallel son parte de LCEL.
LangGraph
Motor de orquestación basado en máquinas de estado y grafos de LangChain para construir flujos de trabajo agénticos complejos con gestión de estado y routing. Es la herramienta principal para coordinación simbólica entre agentes y gestión de memoria persistente.
Model Context Protocol (MCP)
Interfaz cliente-servidor estandarizada que permite el descubrimiento dinámico de herramientas, recursos y prompts entre aplicaciones y proveedores de LLM. No es arquitectura de agente ni framework de razonamiento: Reduce el coste de conectar herramientas. El descubrimiento es semi-dinámico, requiere configuración estática del cliente.
Multi-Agent Collaboration
Estructura el sistema como un conjunto cooperativo de agentes especializados con roles, herramientas y protocolos de comunicación distintos. Dos paradigmas de coordinación: Simbólica (explícita y determinista, como LangGraph) y emergente (negociación dinámica entre pares). La especialización no garantiza mejora automática: El coste de coordinación debe ser menor que la ganancia de expertise.
PALMs
Program-Aided Language Models: Delegar cómputo a ejecución de código. El LLM escribe Python, lo ejecuta y usa el resultado determinista para cálculos precisos. Evita los errores aritméticos inherentes a la generación de texto.
Parallelization
Patrón que identifica componentes independientes y los ejecuta concurrentemente, agregando los resultados en un punto de convergencia. Los tres tipos principales son paralelismo de tareas, fan-out/fan-in y map-reduce. Reduce la latencia total cuando las ramas son verdaderamente independientes.
Pipeline Pattern
Implementación estructurada de Prompt Chaining donde los pasos se ejecutan en orden lineal, formando una tubería de procesamiento. Cada nodo del pipeline transforma los datos y los pasa al siguiente. La simplicidad lineal facilita la depuración, aunque limita la flexibilidad ante cambios dinámicos. Se implementa con LCEL (LangChain) o grafos de estado (LangGraph).
Planning
Patrón que permite a los agentes formular secuencias de acciones de forma autónoma, adaptando los planes conforme llega nueva información. Existe un espectro entre planificación fija (plan generado una vez y ejecutado) y adaptación iterativa (re-planificación cuando el contexto cambia). Deep Research es un caso aplicado de este patrón.
Prioritization
Equipar a los agentes con criterios sistemáticos para evaluar, clasificar y reordenar dinámicamente tareas bajo restricciones de recursos. Un pipeline de tres niveles (estratégico, táctico, operacional) permite re-evaluación cuando el contexto cambia. Las funciones de puntuación aportan objetividad a las decisiones.
Prompt Chaining
Patrón base que descompone tareas complejas en secuencias de prompts enfocados, donde la salida de cada paso alimenta el siguiente. Cada etapa tiene un rol específico y utiliza salidas estructuradas para prevenir fallos en cascada. Es el patrón fundamental sobre el que se construyen Pipeline Pattern y Divide-and-Conquer.
Pydantic
Biblioteca Python para validación de datos. En sistemas LLM, se usa para parsear salidas JSON en objetos Python validados mediante type hints y model_validate_json(). Proporciona la capa de validación estructural que previene fallos en cascada cuando el modelo genera formato incorrecto.
ReAct
Ciclo operacional central: Thought (razonamiento), Action (ejecución), Observation (resultado). Habilita el uso de herramientas y la adaptación de planes en tiempo real. Es el bucle que convierte un generador de texto en un agente que interactúa con su entorno.
Reasoning Techniques
Técnicas para tareas que requieren razonamiento mult Paso más allá del emparejamiento de patrones simple. Incluye Chain-of-Thought (paso a paso), Tree-of-Thought (exploración ramificada), ReAct (ciclo razonar-actuar-observar), PALMs (programa-asistido) y RLVR (refuerzo con recompensas verificables). La técnica debe coincidir con el tipo de problema.
Reflection
Bucle de retroalimentación donde el agente evalúa su propio trabajo, identifica fallos y genera una versión mejorada de forma iterativa. Puede ser auto-reflexión (un solo modelo genera y critica) o critic separado (modelos distintos para generación y evaluación). Requiere criterios de parada explícitos.
Resource-Aware Optimization
Gestión dinámica de presupuestos computacionales, temporales y financieros. Un Router Agent selecciona el nivel de modelo adecuado (económico y rápido para tareas sencillas, capaz y costoso para razonamiento complejo). La Scaling Inference Law establece que el rendimiento mejora con más cómputo en tiempo de inferencia, aunque con retornos decrecientes.
Role Assignment
Asignar al modelo una persona distinta en cada paso para enfocar su razonamiento. «Actúa como editor técnico» produce salida diferente a «Actúa como revisor de seguridad». Es una técnica simple pero efectiva dentro de Prompt Chaining.
Role Separation
Usar agentes o modelos diferentes para generación versus evaluación para reducir sesgo de confirmación. El mismo modelo que genera tiende a ser indulgente con su propia salida; un modelo separado evalúa con mayor objetividad.
Routing
Patrón que introduce lógica condicional: El agente evalúa la entrada y selecciona entre múltiples rutas, herramientas o sub-agentes. Los métodos de routing incluyen clasificación basada en LLM, búsqueda semántica con embeddings, reglas deterministas y clasificadores de machine learning entrenados.
RunnableBranch
Constructo de LCEL para branching condicional basado en clasificación de entrada. Implementa el patrón Routing dentro de LangChain: Evalúa la entrada y selecciona entre múltiples ramas de procesamiento.
RunnableParallel
Constructo de LCEL que agrupa múltiples componentes ejecutándose concurrentemente. Implementa el patrón Parallelization dentro de LangChain: Ejecuta varias operaciones simultáneamente y agrega los resultados.
Self-Consistency
Ejecutar el mismo prompt CoT múltiples veces a temperatura elevada, luego seleccionar por votación mayoritaria entre caminos de razonamiento diversos. La diversidad de rutas compensa los errores individuales de cualquier trayectoria única.
Self-Correction
Capacidad del agente de ajustar su plan, lógica o parámetros basándose en datos de monitoreo o señales de fallo. Es el mecanismo central de Reflection y Exception Handling. Requiere criterios de parada claros para evitar bucles de corrección infinitos.
Shared State Inconsistency
Problema donde múltiples agentes modifican estado compartido con conocimiento parcial en momentos diferentes. Es literalmente un problema de sistemas distribuidos: Requiere versionado de estado, schemas inmutables para handoffs y validación de consistencia antes de la síntesis.
State Management
Preservación del contexto entre pasos mediante almacenes clave-valor con alcance definido (prefijos user:, app:, temp:). El versionado de estado y los schemas inmutables para handoffs entre agentes previenen inconsistencias cuando múltiples componentes modifican datos compartidos.
Step-Back Prompting
Primero pedir al modelo un principio general, luego usarlo como contexto para la tarea específica. Funciona particularmente bien en preguntas que requieren abstracción: El modelo identifica el concepto subyacente antes de aplicar detalles concretos.
Stopping Condition
Criterio que termina un bucle iterativo: Máximo de iteraciones, umbral de calidad alcanzado o señal explícita. Sin condiciones de parada, los bucles de Reflection o Planning pueden ejecutarse indefinidamente, consumiendo recursos y tiempo.
Structured Output
Formateo JSON o XML entre pasos para garantizar parseabilidad por máquina y prevenir fallos en cascada. Es el mecanismo de handoff entre etapas de un pipeline: Cada paso produce salida estructurada que el siguiente paso consume de forma determinista.
Supervisor Pattern
Agente central que supervisa la asignación de tareas, delegación y resolución de conflictos entre agentes especializados. Es la columna vertebral de la coordinación simbólica: Decisiones explícitas y deterministas sobre qué agente hace qué.
Tool Calling
Concepto más amplio que incluye funciones, APIs, bases de datos y otros agentes como capacidades invocables. Tool Calling abarca Function Calling pero también mecanismos como MCP, A2A y Agent-as-Tool.
Tool Use
Patrón que habilita a los agentes para interactuar con sistemas externos: APIs, bases de datos, ejecutores de código o herramientas especializadas. El ciclo completo incluye definición de herramientas, decisión del LLM, generación de la llamada, ejecución y reintegro del resultado al contexto.
Tree-of-Thought (ToT)
Extensión de CoT que ramifica en múltiples caminos de razonamiento, los evalúa y retrocede desde los callejones sin salida. Permite exploración deliberativa: El modelo puede probar varias líneas de pensamiento y elegir la más prometedora.
Vertex AI
Plataforma de IA gestionada de Google Cloud. Proporciona Memory Bank (extracción asíncrona de hechos y preferencias), Extensions (wrappers API con seguridad enterprise) y herramientas de evaluación integradas para sistemas agénticos en producción.
Optimización y Eficiencia
Métodos para adaptar el comportamiento del modelo, reducir recursos de entrenamiento y mejorar el rendimiento mediante inversión computacional en tiempo de inferencia.
Auto-evaluación
Proceso donde un agente evalúa la calidad de sus propios outputs. Cuando el mismo modelo genera y juzga, se crea un sesgo de confirmación: El modelo racionaliza sus errores y se declara satisfecho con resultados defectuosos. Separar generador y evaluador es el cambio que hace funcionar los sistemas de autoevaluación.
Few-shot Learning
Técnica que proporciona al modelo un pequeño número de ejemplos dentro del prompt para guiar su comportamiento en la tarea actual. Los ejemplos demuestran el patrón de entrada-salida esperado sin requerir reentrenamiento. Es rápido, barato y limitado al contexto disponible y al conocimiento base del modelo.
Fine-tuning (Ajuste Fino)
Entrenamiento adicional del modelo con datos específicos para cambiar su comportamiento. Se usa para estilo de escritura constante, formatos de salida de dominio, clasificación repetitiva, fiabilidad de llamadas a herramientas o adaptación que el RAG no puede resolver. Se recomienda probar RAG y mejores prompts antes de considerar fine-tuning.
LoRA (Low-Rank Adaptation)
Método de fine-tuning que congela el modelo base y entrena pequeños adaptadores de bajo rango. Reduce los parámetros entrenables y permite mantener múltiples adaptadores ligeros sobre un mismo modelo. Es la técnica dominante para adaptación de dominios en entornos locales.
Online Learning
Actualizaciones continuas del modelo a partir de datos en streaming, permitiendo ajustes en tiempo real ante cambios en la distribución de datos. Útil para detección de drift y adaptación continua, pero requiere infraestructura de entrenamiento en línea. Es un nivel de adaptación más profundo que few-shot pero menos costoso que fine-tuning completo.
QLoRA
Extensión de LoRA que entrena adaptadores sobre un modelo base cuantizado en 4 bits. Permite fine-tuning con recursos de memoria limitados: Un modelo de 7B cuantizado puede ajustarse en una sola GPU de consumo. Combina cuantización de pesos con adaptadores de bajo rango.
Scaling Inference Law
Observación empírica de que el rendimiento del modelo mejora al invertir más cómputo en tiempo de inferencia: Un modelo más pequeño con más tiempo de pensamiento puede superar a uno más grande con menos. Tiene retornos decrecientes: El punto de inflexión varía según la tarea y el modelo. No es una ley formalmente demostrada, sino un patrón observado en experimentos de test-time compute.
Test-Time Compute Scaling
Asignación iterativa de recursos computacionales crecientes para razonar y mejorar salidas. Es la aplicación práctica de la Scaling Inference Law: Invertir más cómputo en el momento de la inferencia en lugar de entrenar modelos más grandes.
Zero-shot Learning
Capacidad del modelo de realizar una tarea sin ejemplos previos en el prompt ni entrenamiento específico. El modelo se basa exclusivamente en su conocimiento preentrenado y en la formulación de la instrucción. Funciona bien para tareas generales, pero su fiabilidad disminuye en dominios especializados o formatos muy específicos.
Evaluación y Alineamiento
Mecanismos para medir, controlar y asegurar el comportamiento de modelos y agentes en producción. Incluyen técnicas de alineamiento con preferencias humanas y defensas contra comportamientos no deseados.
Circuit Breaker
Mecanismo de detención automática ante comportamiento anómalo: Cuando un agente excede umbrales de error, latencia o consumo de recursos, el circuit breaker interrumpe la ejecución y previene daño en cascada. Es la equivalente agéntico del patrón de circuit breaker en sistemas distribuidos.
DPO (Direct Preference Optimization)
Método de alineación que elimina el modelo de reward intermedio y actualiza la política del LLM directamente desde datos de preferencia humana. Pipeline más simple que PPO, con menos componentes móviles y menos riesgo de reward hacking. El trade-off es menos flexibilidad para dominios donde las preferencias no están bien definidas.
Graceful Degradation
Mantenimiento de funcionalidad parcial cuando la recuperación completa no es posible. En lugar de fallo total, el sistema reduce capacidades y continúa operando con funcionalidad limitada. La arquitectura de fallback en capas (primario, secundario, respuesta básica) implementa este principio.
Guardrails
Mecanismos de defensa en capas que protegen a los agentes en producción: Validación de entradas, filtrado de salidas, restricción de comportamiento y limitación de acceso a herramientas. La defensa en profundidad es la norma: Un solo guardrail no es suficiente. Incluye detección de jailbreaks, principio de menor privilegio y validación adversarial contra inputs maliciosos.
Jailbreak Detection
Identificación de intentos de subvertir las instrucciones del sistema (por ejemplo, «ignora las reglas anteriores»). Incluye detección de patrones conocidos, análisis semántico de intención y monitoreo de comportamiento anómalo durante la ejecución.
LLM-as-a-Judge
Uso de un LLM separado con rúbrica estructurada para evaluar cualidades subjetivas de salida (utilidad, claridad, neutralidad) a escala. Es la herramienta principal de evaluación automatizada. Presenta sesgos documentados: Sesgo de posición (prefiere respuestas al final), preferencia por su propio estilo de generación, sensibilidad a la formulación de la rúbrica y tendencia a favorecer respuestas más largas. Requiere validación humana periódica para calibrar.
PPO (Proximal Policy Optimization)
Algoritmo de reinforcement learning para espacios de acción continuos. Su innovación clave es el mecanismo de clipping: Las actualizaciones de política se limitan a una región de confianza alrededor de la política actual, evitando divergencia catastrófica. Estable, pero complejo de implementar y costoso en cómputo.
Principle of Least Privilege
Conceder a los agentes únicamente los permisos mínimos necesarios para su tarea, reduciendo el radio de explosión ante compromiso. Un agente de búsqueda no necesita acceso a la base de datos de usuarios; un agente de análisis no necesita permisos de escritura en producción.
Reward Hacking
Fenómeno donde un agente aprende a maximizar la métrica de reward sin cumplir el objetivo real. Ejemplo: Un agente evaluado por velocidad de respuesta empieza a dar respuestas cortas e incorrectas. La métrica sube mientras la calidad baja. Se mitiga separando generador y evaluador, y usando métricas de reward alineadas con el objetivo real.
RLVR
Reinforcement Learning with Verifiable Rewards: Entrenar modelos de razonamiento en problemas con respuestas conocidas, permitiendo trayectorias de razonamiento de forma extensa con autocorrección. Las recompensas verificables eliminan la necesidad de modelos de recompensa entrenados por humanos.