{"id":725,"date":"2026-06-18T21:37:47","date_gmt":"2026-06-18T19:37:47","guid":{"rendered":"https:\/\/atlaszn.com\/blog\/?page_id=725"},"modified":"2026-06-18T21:38:58","modified_gmt":"2026-06-18T19:38:58","slug":"glosario-de-fundamentos-de-llm-y-patrones-agenticos","status":"publish","type":"page","link":"https:\/\/atlaszn.com\/blog\/glosario-de-fundamentos-de-llm-y-patrones-agenticos\/","title":{"rendered":"Glosario de Fundamentos y Patrones"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Referencia consolidada de los t\u00e9rminos t\u00e9cnicos utilizados en la serie de art\u00edculos sobre modelos de lenguaje, ejecuci\u00f3n local y patrones de dise\u00f1o para sistemas con agentes de IA. Organizado en seis capas conceptuales: Desde los fundamentos de la arquitectura Transformer hasta la evaluaci\u00f3n y alineamiento de agentes en producci\u00f3n.<\/p>\n\n\n\n<div class=\"toc\">\n<h2>\u00cdndice de Contenido<\/h2>\n<ul>\n<li><a href=\"#fundamentos-de-llm\">Fundamentos de LLM<\/a><\/li>\n<li><a href=\"#inferencia-y-runtime\">Inferencia y Runtime<\/a><\/li>\n<li><a href=\"#retrieval-y-memoria\">Retrieval y Memoria<\/a><\/li>\n<li><a href=\"#agentes-y-orquestaci\u00f3n\">Agentes y Orquestaci\u00f3n<\/a><\/li>\n<li><a href=\"#optimizaci\u00f3n-y-eficiencia\">Optimizaci\u00f3n y Eficiencia<\/a><\/li>\n<li><a href=\"#evaluaci\u00f3n-y-alineamiento\">Evaluaci\u00f3n y Alineamiento<\/a><\/li>\n<\/ul>\n<\/div>\n\n\n\n<h2 id=\"fundamentos-de-llm\" class=\"wp-block-heading\">Fundamentos de LLM<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Los fundamentos de LLM describen c\u00f3mo un modelo de lenguaje procesa texto, genera respuestas y gestiona su propio estado interno. Comprender estos conceptos es el prerrequisito para tomar decisiones informadas sobre hardware, software y estrategia de despliegue.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Autoatenci\u00f3n (Self-Attention)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismo central del Transformer donde cada token eval\u00faa las representaciones de todos los tokens previos y decide qu\u00e9 informaci\u00f3n es relevante para su predicci\u00f3n. Calcula pesos de atenci\u00f3n mediante productos punto escalados entre consultas y llaves, ponderando los valores correspondientes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Bloque MLP (Feed-Forward)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Computaci\u00f3n no lineal densa dentro de cada capa del Transformer que expande y comprime las representaciones. Recibe la salida de la atenci\u00f3n y la transforma mediante dos capas lineales con una funci\u00f3n de activaci\u00f3n intermedia. Una gran fracci\u00f3n de los par\u00e1metros del modelo reside en estos bloques.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">BOS \/ EOS<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Marcadores de control: BOS (Beginning Of Sequence) indica el inicio de una secuencia de tokens; EOS (End Of Sequence) se\u00f1ala su final. Son cr\u00edticos para que el modelo distinga d\u00f3nde comienza y termina una entrada o respuesta. Usar los tokens incorrectos genera interpretaciones err\u00f3neas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">BPE (Byte-Pair Encoding)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Algoritmo de tokenizaci\u00f3n que fusiona iterativamente los pares de bytes o tokens m\u00e1s frecuentes. Comienza con un vocabulario de caracteres individuales y va construyendo unidades cada vez m\u00e1s grandes. Es la base de los tokenizadores de GPT y Llama.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Bucle de inferencia<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ciclo repetitivo que sigue un LLM de solo decodificador durante la generaci\u00f3n. En cada iteraci\u00f3n, el modelo convierte el texto en tokens, calcula puntuaciones para cada posible siguiente token, elige uno mediante una pol\u00edtica de decodificaci\u00f3n y lo a\u00f1ade a la secuencia. El proceso se repite hasta que el modelo emita un token de parada, se alcance el l\u00edmite de tokens o el usuario interrumpa la generaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cach\u00e9 KV (Key-Value Cache)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Memoria de trabajo del modelo durante la generaci\u00f3n que almacena los estados de atenci\u00f3n llave y valor para los tokens anteriores. Evita recomputar todo el historial desde cero en cada token generado. Su tama\u00f1o crece proporcionalmente con el n\u00famero de tokens, capas, cabezas KV y precisi\u00f3n num\u00e9rica.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Conexiones Residuales<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Atajos que suman la entrada de un sub-bloque a su salida, permitiendo que la informaci\u00f3n fluya directamente a trav\u00e9s de m\u00faltiples capas. Sin conexiones residuales, las redes profundas tendr\u00edan dificultades para preservar se\u00f1ales a trav\u00e9s de docenas o cientos de capas apiladas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Embeddings de Token<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Los IDs de tokens se convierten en vectores de dimensi\u00f3n fija antes de entrar en las capas del modelo. Cada token del vocabulario tiene un vector asociado aprendido durante el entrenamiento. Los embeddings son la representaci\u00f3n num\u00e9rica que el modelo procesa internamente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">GQA (Grouped-Query Attention)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Variantes de atenci\u00f3n donde grupos de cabezas comparten los mismos estados de llave y valor. Reduce el tama\u00f1o del cach\u00e9 KV de forma moderada sin sacrificar significativamente la calidad del modelo. Es el enfoque predominante en modelos modernos como Llama 3 y Mistral.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Inferencia<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Proceso de ejecutar un modelo de lenguaje para generar una respuesta a partir de una entrada. A diferencia del entrenamiento, donde el modelo aprende de datos, la inferencia aplica los pesos ya aprendidos para producir texto nuevo. Es la operaci\u00f3n que el usuario final experimenta directamente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Logits<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Puntuaciones crudas producidas por la proyecci\u00f3n de salida, antes de cualquier normalizaci\u00f3n. Cada logit corresponde a un token del vocabulario y representa la afinidad no normalizada del modelo con ese token como siguiente en la secuencia. No son probabilidades directas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Marcadores Especiales<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Tokens reservados con funciones espec\u00edficas: Indicar el inicio o fin de una secuencia, separar roles de conversaci\u00f3n, marcar instrucciones o se\u00f1alar el fin de la generaci\u00f3n. Cada familia de modelo define sus propios marcadores y su uso incorrecto causa comportamientos inesperados.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">MHA (Multi-Head Attention)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Atenci\u00f3n multi-cabezal completa donde cada cabeza mantiene estados de llave y valor separados. Proporciona al modelo flexibilidad para atender diferentes aspectos del contexto simult\u00e1neamente, pero hace que el cach\u00e9 KV sea grande. Es el dise\u00f1o original de los Transformers.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Modelo Base<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Modelo preentrenado sin ajuste adicional para seguir instrucciones o conversar. Se entrena para predecir el siguiente token a partir de grandes vol\u00famenes de texto. Es el punto de partida para fine-tuning y pipelines personalizados. No est\u00e1 optimizado para interacci\u00f3n directa con usuarios.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Modelo Chat<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Modelo optimizado para di\u00e1logos de m\u00faltiples turnos con historial conversacional. Fue entrenado con datos de conversaci\u00f3n estructurados en formato de roles (sistema, usuario, asistente). Es el punto de partida recomendado para asistentes conversacionales y la mayor\u00eda de aplicaciones interactivas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Modelo Instruct<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Modelo ajustado para seguir instrucciones directas mediante entrenamiento con pares de entrada-salida. Responde de forma \u00fatil a peticiones puntuales y preguntas concretas. Es adecuado para tareas espec\u00edficas como Q&amp;A, clasificaci\u00f3n o extracci\u00f3n de informaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Modelo Reasoning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Modelo entrenado para razonamiento multietapa con cadenas de pensamiento internas. Supera el emparejamiento de patrones simple para abordar problemas de matem\u00e1ticas, l\u00f3gica y verificaci\u00f3n. Genera procesos de razonamiento extensos antes de producir la respuesta final.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Modelo Tool-tuned<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Modelo ajustado espec\u00edficamente para llamadas a herramientas estructuradas. Fue entrenado con ejemplos de uso de funciones, generaci\u00f3n de JSON y esquemas de herramientas. Es la opci\u00f3n recomendada para agentes que necesitan interactuar con APIs, bases de datos o sistemas externos de forma fiable.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">MQA (Multi-Query Attention)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Extrema de la eficiencia en atenci\u00f3n donde todas las cabezas comparten una \u00fanica llave y un \u00fanico valor. Produce la reducci\u00f3n m\u00e1xima del cach\u00e9 KV, pero puede degradar la calidad del modelo en tareas que requieren atenci\u00f3n muy especializada. Se usa en algunos modelos optimizados para inferencia.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Multimodalidad<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Capacidad de un modelo de procesar entradas no textuales como im\u00e1genes, audio o v\u00eddeo adem\u00e1s del texto. La entrada no textual se convierte en tokens tambi\u00e9n: Los codificadores de visi\u00f3n a\u00f1aden memoria y los parches de imagen consumen contexto. Los modelos VLM peque\u00f1os pueden alucinar detalles visuales y la fiabilidad del OCR var\u00eda.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Normalizaci\u00f3n de Capa<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnica que estabiliza el entrenamiento y la inferencia normalizando las activaciones dentro de cada capa. Controla la escala de las representaciones para evitar que los gradientes exploten o se desvanezcan en redes profundas. Se aplica antes o despu\u00e9s de los sub-bloques de atenci\u00f3n y MLP.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Paso hacia adelante (Forward Pass)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Una pasada completa de los datos de entrada a trav\u00e9s de todas las capas del modelo, desde los embeddings iniciales hasta la proyecci\u00f3n de salida. En cada iteraci\u00f3n del bucle de inferencia se ejecuta un forward pass que produce logits sobre el vocabulario completo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Plantilla de Chat<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Formato de conversaci\u00f3n espec\u00edfico con el que un modelo fue entrenado, que define c\u00f3mo se estructuran los mensajes del sistema, usuario y asistente mediante marcadores especiales. Usar la plantilla incorrecta causa galimat\u00edas, confusi\u00f3n de roles o ignorancia del prompt de sistema. Es un contrato de API entre el modelo y el runtime.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Proyecci\u00f3n de Salida<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Capa final que convierte el estado oculto del \u00faltimo token en logits sobre el vocabulario completo. Es una transformaci\u00f3n lineal que mapea la dimensi\u00f3n del modelo al tama\u00f1o del vocabulario del tokenizador. Los logits resultantes son las puntuaciones crudas antes de aplicar softmax.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">RoPE (Rotary Position Embeddings)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00e9todo de codificaci\u00f3n posicional que aplica rotaciones de frecuencia a los vectores de consulta y llave. Permite que el modelo generalice a longitudes de contexto no vistas durante el entrenamiento, ya que la posici\u00f3n se codifica mediante relaciones angulares en lugar de embeddings absolutos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">SentencePiece<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Framework de tokenizaci\u00f3n que opera directamente sobre texto Unicode sin depender de una segmentaci\u00f3n de palabras previa. Utiliza BPE o unigram como estrategia interna. Es el enfoque detr\u00e1s de los tokenizadores de modelos como T5, PaLM y Gemini.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Softmax<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Funci\u00f3n que convierte los logits en una distribuci\u00f3n de probabilidad v\u00e1lida, donde todas las probabilidades son positivas y suman uno. Permite interpretar las puntuaciones del modelo como probabilidades de cada token del vocabulario. La temperatura modifica la distribuci\u00f3n antes de aplicar softmax.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Solo decodificador (Decoder-only)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Variante de Transformer que solo contiene el decodificador, sin la parte del codificador. Predice el siguiente token mirando exclusivamente hacia atr\u00e1s en la secuencia. Es la arquitectura predominante en modelos de chat locales como Llama, Mistral y Qwen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tokenizador (Tokenizer)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Algoritmo que convierte texto en secuencias de tokens (IDs num\u00e9ricos) y viceversa. El tokenizador determina c\u00f3mo se fragmenta el texto, cu\u00e1ntos tokens ocupa un documento y qu\u00e9 tan eficiente es el modelo con diferentes idiomas o c\u00f3digo. Cada familia de modelo tiene su propio tokenizador.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tokens<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Unidad m\u00ednima de texto que un LLM procesa. Un token puede ser una palabra completa, un fragmento de palabra, un signo de puntuaci\u00f3n o un car\u00e1cter individual. Los modelos no operan sobre texto bruto, sino sobre secuencias de IDs num\u00e9ricos que representan tokens.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Transformer<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Arquitectura de red neuronal basada en mecanismos de atenci\u00f3n que sustituye a las recurrentes (RNN) y convolucionales (CNN) como base de los LLM modernos. Su dise\u00f1o permite procesar secuencias de forma paralela y capturar dependencias de largo alcance entre tokens. Los LLM de chat son t\u00edpicamente Transformers de solo decodificador.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ventana de Contexto<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">N\u00famero m\u00e1ximo de tokens a los que un modelo puede prestar atenci\u00f3n simult\u00e1neamente. Determina cu\u00e1nta informaci\u00f3n puede considerar al generar una respuesta. El contexto soportado no equivale a un contexto barato, r\u00e1pido o igualmente preciso: La calidad puede decaer con la distancia.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Vocabulario del Tokenizador<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Conjunto completo de tokens que un tokenizador reconoce y puede mapear a IDs. Los vocabularios t\u00edpicos de LLM modernos van desde 30.000 hasta 150.000 tokens. Un vocabulario m\u00e1s grande puede comprimir texto en menos tokens, pero incrementa el tama\u00f1o de los embeddings y la proyecci\u00f3n de salida.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">YaRN (Yet another RoPE extension)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Extensi\u00f3n de RoPE que permite extrapolaci\u00f3n de contexto m\u00e1s all\u00e1 del l\u00edmite de entrenamiento del modelo. Aplica interpolaci\u00f3n de frecuencia adaptativa para mantener la calidad a longitudes superiores a las vistas durante el preentrenamiento, aunque con degradaci\u00f3n de calidad predecible.<\/p>\n\n\n\n<h2 id=\"inferencia-y-runtime\" class=\"wp-block-heading\">Inferencia y Runtime<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">La capa de operaci\u00f3n abarca cuantizaci\u00f3n, formatos de archivo, motores de inferencia y gesti\u00f3n de recursos. Elegir el runtime adecuado vincula al formato de modelo y determina el rendimiento real del sistema.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cuantizaci\u00f3n<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnica que almacena los pesos del modelo en una precisi\u00f3n num\u00e9rica menor para reducir la memoria requerida y, en algunos casos, mejorar el rendimiento. El impacto aparece primero en matem\u00e1ticas, razonamiento multietapa, correcci\u00f3n de c\u00f3digo, fiabilidad de uso de herramientas y adherencia a esquemas JSON.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cuantizaci\u00f3n de Pesos<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Almacenamiento de los par\u00e1metros del modelo en una precisi\u00f3n num\u00e9rica menor para reducir la memoria requerida. Los pesos se representan con menos bits (por ejemplo, 4 bits en lugar de 16), lo que permite cargar modelos m\u00e1s grandes o mejorar el rendimiento. La cuantizaci\u00f3n agresiva puede degradar la calidad en matem\u00e1ticas, c\u00f3digo y tareas estructuradas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cuantizaci\u00f3n del Cach\u00e9 KV<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Reducci\u00f3n de la precisi\u00f3n num\u00e9rica del cach\u00e9 KV (por ejemplo, a FP8 o INT8) para disminuir la memoria del contexto activo. Es un mecanismo distinto de la cuantizaci\u00f3n de pesos: Esta \u00faltima reduce el tama\u00f1o del modelo almacenado, mientras que esta reduce la memoria de trabajo durante la generaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Decode (Decodificaci\u00f3n)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Fase de generaci\u00f3n donde el modelo produce nuevos tokens uno a la vez de forma secuencial. Cada nuevo token depende de la secuencia completa hasta el momento. Suele ser la fase que determina si un modelo se percibe como r\u00e1pido o lento, y est\u00e1 limitada por el ancho de banda de memoria.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Decodificaci\u00f3n Codiciosa (Greedy Decoding)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Estrategia que siempre selecciona el token con mayor probabilidad en cada paso, sin explorar alternativas. Produce salidas deterministas y reproducibles, pero puede quedar atrapada en bucles o generar respuestas gen\u00e9ricas. Para evaluaciones se usan configuraciones deterministas; para ideaci\u00f3n, mayor variabilidad.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Decodificaci\u00f3n Especulativa<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnica que propone tokens de bajo costo mediante un modelo borrador y los valida en paralelo con el modelo principal. Si las predicciones del borrador son correctas, se aceptan en lote y se ahorran pasos de inferencia. Mejora la velocidad de decodificaci\u00f3n sin alterar la distribuci\u00f3n de salida del modelo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Despliegue en el Borde<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ejecuci\u00f3n de modelos en dispositivos con restricciones: Tel\u00e9fonos, port\u00e1tiles, robots, puertas de enlace IoT, veh\u00edculos o aplicaciones de navegador. Requiere modelos peque\u00f1os (0.5B a 4B), cuantizaci\u00f3n agresiva, prompts cortos, esquemas fijos y sin historial de chat innecesario. Cuando la conectividad cae, un modelo local que sigue funcionando es m\u00e1s valioso que uno m\u00e1s grande que falla.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">EXL2 \/ GPTQ \/ AWQ<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Formatos de cuantizaci\u00f3n especializados para inferencia local en GPU: EXL2 es el formato de ExLlamaV2 con soporte para cuantizaci\u00f3n por grupo; GPTQ cuantiza columnas de pesos con calibraci\u00f3n; AWQ aplica cuantizaci\u00f3n ponderada por activaci\u00f3n. Cada uno requiere kernels optimizados en el motor objetivo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">ExLlamaV2 \/ ExLlamaV3<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Motores de cuantizaci\u00f3n CUDA optimizados para GPU de consumo. ExLlamaV2 extrae m\u00e1ximo rendimiento de una sola RTX con formato EXL2, incorporando paged attention, dynamic batching y decodificaci\u00f3n especulativa. ExLlamaV3 extiende la filosof\u00eda hacia configuraciones multinodo (2-4 GPUs) e inferencia MoE local con formato EXL3 basado en QTIP.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">FlashAttention<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Kernel optimizado que reduce el tr\u00e1fico de memoria de la atenci\u00f3n evitando escribir la matriz completa a la VRAM. Emplea tiling consciente de E\/S para procesar bloques de la matriz de atenci\u00f3n de forma eficiente. Es cr\u00edtico en contexto largo donde la atenci\u00f3n puede ser el cuello de botella real.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">FP16 \/ BF16<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Precisi\u00f3n num\u00e9rica de 16 bits: FP16 (IEEE half-precision) y BF16 (Brain Floating Point). Representan la mejor calidad disponible para inferencia y son la l\u00ednea base para evaluaci\u00f3n. Requieren aproximadamente dos bytes por par\u00e1metro, por lo que un modelo de 7B ocupa cerca de 14 GiB.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Frequency Penalty<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Penalizaci\u00f3n proporcional a la frecuencia de aparici\u00f3n de un token en el texto generado. Combate las muletillas y repeticiones sistem\u00e1ticas: Cuanto m\u00e1s se repite un token, mayor es la penalizaci\u00f3n aplicada.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">GGUF<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Formato de archivo dise\u00f1ado para llama.cpp y LM Studio, optimizado para inferencia local con soporte nativo de cuantizaci\u00f3n. Es seguro (no ejecuta c\u00f3digo durante la carga) y permite cargar modelos cuantizados directamente sin conversi\u00f3n previa.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Harbor<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Stack local completo para ejecutar modelos de IA con interfaz integrada. Soporta formatos GGUF y safetensors. Est\u00e1 orientado a usuarios que buscan un entorno de desarrollo local unificado con capacidades de chat, gesti\u00f3n de modelos y servidor API.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">llama.cpp<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Runtime de inferencia en C++ dise\u00f1ado para portabilidad m\u00e1xima. Soporta CPU, Apple Silicon, GPU NVIDIA, AMD, RISC-V, Vulkan y offload h\u00edbrido. Domina el segmento de hardware heterog\u00e9neo y operaci\u00f3n offline. Su formato nativo es GGUF. No est\u00e1 dise\u00f1ado para servicio de producci\u00f3n multinodo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LM Studio<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Aplicaci\u00f3n de escritorio con interfaz gr\u00e1fica para ejecutar modelos GGUF localmente. Orientada a principiantes y usuarios que buscan conveniencia sin configurar l\u00edneas de comando. Soporta b\u00fasqueda de modelos, chat interactivo y servidor API local.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LMDeploy<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Kit de herramientas centrado en CUDA con TurboMind para rendimiento y PyTorch para accesibilidad. Ofrece una alternativa a vLLM, SGLang y TensorRT-LLM para usuarios de CUDA que buscan un stack m\u00e1s ligero con funcionalidades de servicio.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Min_p<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Umbral m\u00ednimo de probabilidad relativa: Un token solo se considera si su probabilidad es al menos una fracci\u00f3n de la probabilidad del token m\u00e1s probable. Evita la selecci\u00f3n de tokens absurdamente improbables sin imponer un l\u00edmite fijo de candidatos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">MLC LLM<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Motor de despliegue universal basado en compilador con APIs compatibles con OpenAI en REST, Python, JavaScript, iOS y Android. Est\u00e1 orientado a navegadores, dispositivos m\u00f3viles y aplicaciones nativas. WebLLM es su variante para ejecuci\u00f3n directa en el navegador.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">MLX \/ MLX-LM<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Framework de arrays de Apple dise\u00f1ado para Apple Silicon (MLX) y su paquete de LLM (MLX-LM). Aprovecha la memoria unificada para alojar modelos que exceden la capacidad de cualquier VRAM de consumo. Incluye integraci\u00f3n con Hugging Face Hub, cuantizaci\u00f3n, LoRA y ajuste fino completo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">MoE (Mixture of Experts)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Arquitectura donde el modelo contiene m\u00faltiples especialistas y un mecanismo de enrutamiento selecciona qu\u00e9 expertos procesan cada token. Los par\u00e1metros totales son grandes, pero los par\u00e1metros activos por token son menores. El enrutamiento de expertos y la interconexi\u00f3n de alta velocidad son los cuellos de botella principales.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">NVIDIA Dynamo<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Capa de orquestaci\u00f3n distribuida que opera sobre motores como vLLM, SGLang y TensorRT-LLM. Coordina flotas de motores, gestiona la desagregaci\u00f3n de prefill y decode, implementa enrutamiento inteligente y cach\u00e9 KV multinivel. Se usa cuando un motor individual ya no es suficiente para la escala requerida.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ollama<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Herramienta de desarrollo local que simplifica la descarga, gesti\u00f3n y ejecuci\u00f3n de modelos mediante una interfaz de l\u00ednea de comandos y API compatible con OpenAI. Es pr\u00e1ctica para pruebas r\u00e1pidas y prototipos, pero no est\u00e1 dise\u00f1ada para servicio de producci\u00f3n riguroso.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">ONNX<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Formato abierto de intercambio de modelos que permite ejecutar redes neuronales en m\u00faltiples plataformas y frameworks. ONNX Runtime GenAI implementa el ciclo generativo completo sobre esta base. Facilita el despliegue en entornos heterog\u00e9neos: CPU, GPU, dispositivos edge y navegadores.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">ONNX Runtime GenAI<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Implementa el ciclo generativo completo sobre ONNX Runtime, permitiendo despliegue en CPU, CUDA, DirectML, TensorRT-RTX, OpenVINO, QNN, WebGPU y GPU AMD. Potencia Foundry Local, Windows ML y VS Code AI Toolkit.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">OpenVINO GenAI<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Soluci\u00f3n optimizada de Intel para CPUs Xeon, GPUs Arc, Core Ultra y NPUs. Ofrece servicio compatible con OpenAI con continuous batching y paged attention. Es la opci\u00f3n recomendada para hardware Intel de servidor y consumo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Paralelismo de Tensores<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnica que divide los pesos del modelo entre m\u00faltiples GPUs para procesarlos concurrentemente. Requiere operaciones all-reduce frecuentes entre dispositivos. En ausencia de NVLink o NVSwitch, el paralelismo de tuber\u00eda puede ofrecer mejor rendimiento que el de tensores.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Prefill<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Fase inicial de la inferencia que procesa el prompt completo y construye la cach\u00e9 KV antes de generar el primer token de respuesta. Es relativamente paralelizable, por lo que las GPUs pueden procesarlo eficientemente. El tiempo que esperas antes de que aparezca la primera palabra es generalmente el tiempo de prefill.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Presence Penalty<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Penalizaci\u00f3n aplicada a tokens que ya aparecen en el contexto, independientemente de su frecuencia. Empuja al modelo hacia ideas nuevas en lugar de reutilizar conceptos ya mencionados. \u00datil para generaci\u00f3n creativa o exploraci\u00f3n de alternativas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Q3 \/ Q2<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Niveles de cuantizaci\u00f3n agresiva de 3 y 2 bits con degradaci\u00f3n notable de calidad. Se reservan para situaciones donde es imprescindible hacer caber un modelo grande en hardware limitado. El impacto en matem\u00e1ticas, c\u00f3digo y tareas estructuradas es significativo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Q4<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Cuantizaci\u00f3n a 4 bits, el sweet spot para chat y documentos. Proporciona buena calidad con una reducci\u00f3n de memoria sustancial. Es el nivel m\u00e1s utilizado en despliegues locales porque equilibra rendimiento, calidad y consumo de recursos de forma pr\u00e1ctica.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Q6 \/ Q5<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Niveles de cuantizaci\u00f3n de 6 y 5 bits que ofrecen excelente calidad. Constituyen el punto medio s\u00f3lido entre calidad y memoria. Un modelo de 7B en Q6 puede superar a un modelo de 13B en Q2 en tareas de razonamiento mientras usa menos memoria y corre m\u00e1s r\u00e1pido.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Q8 \/ INT8<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Cuantizaci\u00f3n a 8 bits que produce casi sin p\u00e9rdida de calidad. Es el punto donde la reducci\u00f3n de memoria comienza a ser significativa sin comprometer el comportamiento del modelo. Recomendado cuando hay VRAM disponible y se busca p\u00e9rdida m\u00ednima.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Repeat Penalty<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismo que reduce la probabilidad de tokens ya utilizados recientemente, rompiendo bucles de repetici\u00f3n. Aplica una penalizaci\u00f3n multiplicativa a tokens que aparecen en el historial reciente de generaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Safetensors<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Formato seguro de almacenamiento de tensores para PyTorch y Transformers que evita los riesgos de ejecuci\u00f3n de c\u00f3digo asociados con pickle. Es el formato preferido por vLLM, SGLang y la mayor\u00eda de motores de producci\u00f3n. Los archivos .bin de PyTorch basados en pickle pueden ejecutar c\u00f3digo arbitrario.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">SDPA (Scaled Dot-Product Attention)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Implementaci\u00f3n eficiente de atenci\u00f3n que combina escalado, c\u00e1lculo de productos punto y masking en una operaci\u00f3n unificada. Las versiones modernas de PyTorch incluyen optimizaciones autom\u00e1ticas de SDPA que seleccionan el kernel m\u00e1s r\u00e1pido disponible seg\u00fan el hardware y la configuraci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">SGLang<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Motor orientado a cargas de trabajo complejas: Salidas estructuradas, contexto extenso, arquitecturas MoE y desagregaci\u00f3n de fases. Su elemento diferenciador es la separaci\u00f3n de prefill y decode en instancias especializadas. Incorpora RadixAttention para cach\u00e9 de preficientes y batching multi-LoRA.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Temperature<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Control de la aleatoriedad en la generaci\u00f3n del modelo. Valores bajos (0.0-0.1) producen salidas deterministas y reproducibles, adecuadas para pipelines estructurados. Valores altos aumentan la creatividad pero reducen la consistencia. En producci\u00f3n, la mayor\u00eda de pasos utilitarios operan con temperatura cercana a cero.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">TensorRT-LLM<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Stack de rendimiento m\u00e1ximo de NVIDIA con kernels personalizados para atenci\u00f3n, GEMMs y MoE. Est\u00e1 optimizado para flotas clase H100\/H200\/B200\/GB200\/GB300. Soporta cuantizaci\u00f3n FP8\/FP4, desagregaci\u00f3n prefill-decode y decodificaci\u00f3n especulativa. Se intercambia portabilidad por rendimiento.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Top_k<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Filtro r\u00edgido que limita la selecci\u00f3n a los k tokens m\u00e1s probables. A diferencia de Top_p, siempre considera exactamente k candidatos independientemente de su distribuci\u00f3n de probabilidad. Es m\u00e1s predecible pero menos flexible que Top_p.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Top_p<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Muestreo por probabilidad acumulada: El modelo solo considera tokens cuya probabilidad acumulada no supera el umbral especificado. Es un filtro adaptativo: A diferencia de Top_k, el n\u00famero de candidatos var\u00eda seg\u00fan la distribuci\u00f3n de probabilidad de cada paso.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">vLLM<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Motor de servicio de producci\u00f3n open-source con PagedAttention, continuous batching, chunked prefill y soporte extensivo de cuantizaci\u00f3n. Es el punto de partida predeterminado para desplegar modelos abiertos en producci\u00f3n. Soporta paralelismo de tensor, tuber\u00eda, datos y expertos, adem\u00e1s de m\u00faltiples plataformas de hardware.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">VRAM (Memoria de Video)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Memoria dedicada de la GPU donde residen los pesos del modelo, el cach\u00e9 KV y la sobrecarga del runtime. Determina si un modelo cabe. El ancho de banda de la VRAM, no solo su capacidad, determina la velocidad de decodificaci\u00f3n. La memoria unificada de Apple Silicon ofrece capacidad excepcional con compensaciones en ancho de banda.<\/p>\n\n\n\n<h2 id=\"retrieval-y-memoria\" class=\"wp-block-heading\">Retrieval y Memoria<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Estas t\u00e9cnicas conectan a los modelos con conocimiento externo y gestionan la informaci\u00f3n a lo largo del tiempo. Incluyen estrategias de recuperaci\u00f3n, almacenamiento persistente y control del contexto activo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Agentic RAG<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Variante de RAG que introduce un agente de razonamiento activo entre la recuperaci\u00f3n y la generaci\u00f3n. El agente valida fuentes, reconcilia conflictos entre documentos recuperados, descompone consultas complejas en subconsultas y llena lagunas de conocimiento activando herramientas externas. Supera las limitaciones del RAG tradicional cuando las consultas requieren razonamiento multietapa o m\u00faltiples fuentes de datos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">BM25<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Algoritmo de recuperaci\u00f3n basado en palabras clave, frecuentemente combinado con b\u00fasqueda vectorial en sistemas RAG h\u00edbridos. Punt\u00faa documentos por frecuencia de t\u00e9rminos y longitud, proporcionando robustez cuando la b\u00fasqueda sem\u00e1ntica falla en coincidencias exactas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Chunking<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Divisi\u00f3n de documentos grandes en fragmentos sem\u00e1nticamente significativos para recuperaci\u00f3n dirigida en pipelines RAG. La estrategia de fragmentaci\u00f3n es el factor m\u00e1s subestimado en RAG: Los fragmentos de tama\u00f1o fijo sin solapamiento pueden dividir frases y perder contexto. El chunking sem\u00e1ntico o jer\u00e1rquico suele funcionar mejor.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Context Window Management<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Gesti\u00f3n activa del espacio de contexto disponible para prevenir que el modelo pierda acceso a informaci\u00f3n relevante. La estrategia subyacente consiste en priorizar qu\u00e9 informaci\u00f3n conservar y qu\u00e9 descartar. Las implementaciones concretas incluyen ventanas deslizantes con prioridad, resumido progresivo y poda de datos ef\u00edmeros.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Contextual Drift<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">P\u00e9rdida del objetivo original a medida que el contexto se acumula durante m\u00faltiples turnos. El modelo se distrae con informaci\u00f3n reciente y olvida la intenci\u00f3n inicial. Se mitiga con anclaje expl\u00edcito del objetivo en cada iteraci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Embeddings<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Representaciones vectoriales num\u00e9ricas de texto que capturan significado sem\u00e1ntico para b\u00fasqueda de similitud. Documentos con contenido similar producen vectores cercanos en el espacio vectorial, independientemente de las palabras exactas utilizadas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ephemeral Data Pruning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Eliminaci\u00f3n selectiva de datos temporales del contexto: Resultados intermedios de herramientas, pasos de razonamiento ya completados o datos que ya no son relevantes para la tarea actual. Reduce el ruido sin perder informaci\u00f3n estructural.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Episodic Memory<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Registro de secuencias de interacciones pasadas y ejemplos few-shot. Se almacena en bases de datos vectoriales con metadatos temporales. Permite al agente recuperar episodios relevantes como contexto para situaciones similares futuras.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">GraphRAG<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Variantes de RAG que utiliza un grafo de conocimiento (nodos y aristas) en lugar de \u00fanicamente un almac\u00e9n vectorial. Navega relaciones expl\u00edcitas entre entidades para s\u00edntesis entre documentos. Supera las limitaciones de RAG tradicional en consultas que requieren comprensi\u00f3n de relaciones.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Hybrid Retrieval<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Combinaci\u00f3n de b\u00fasqueda sem\u00e1ntica (vectorial) con b\u00fasqueda por palabras clave (BM25) y filtros de metadatos. La robustez viene de la complementariedad: La b\u00fasqueda vectorial captura significado, BM25 captura t\u00e9rminos exactos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ingesti\u00f3n de Documentos<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Proceso de carga, an\u00e1lisis y preparaci\u00f3n de documentos para un sistema RAG: Se extrae texto de archivos PDF, DOCX, TXT, HTML, se preserva la estructura de metadatos y se fragmenta sem\u00e1nticamente. La calidad de la ingesti\u00f3n determina directamente la calidad de la recuperaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Knowledge Retrieval (RAG)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Conectar LLMs a bases de conocimiento externas antes de generar una respuesta: Recuperar, augmentar, generar. Las subvariantes evolucionan desde RAG Naive (b\u00fasqueda simple) hasta Agentic RAG (agente activo entre recuperaci\u00f3n y generaci\u00f3n) y GraphRAG (navegaci\u00f3n de relaciones expl\u00edcitas entre entidades mediante grafos de conocimiento).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Memory Decay<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Deterioro de la utilidad de la memoria almacenada con el tiempo. Tres tipos de datos obsoletos: Preferencias desactualizadas, episodios irrelevantes y contradicciones acumuladas. Las defensas incluyen marcas temporales, detecci\u00f3n de contradicciones y expiraci\u00f3n autom\u00e1tica.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Memory Management<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Arquitectura de doble capa: Memoria a corto plazo (contexto de sesi\u00f3n, ef\u00edmera, acceso inmediato) y memoria a largo plazo (almacenamiento persistente que requiere recuperaci\u00f3n expl\u00edcita). Incluye gesti\u00f3n de la ventana de contexto mediante ventanas deslizantes con prioridad, resumido progresivo y poda de datos ef\u00edmeros.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Procedural Memory<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Instrucciones del agente que pueden auto-actualizarse mediante reflexi\u00f3n. Se versiona en almacenes clave-valor. Es la capacidad de un agente de mejorar sus propios procedimientos bas\u00e1ndose en experiencia acumulada.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Progressive Summarization<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Compresi\u00f3n progresiva del historial de interacciones para controlar el crecimiento del contexto. Cada cierto n\u00famero de turnos, el sistema genera un resumen que reemplaza los mensajes originales, reduciendo el consumo de tokens mientras preserva la informaci\u00f3n esencial. Es una de las estrategias principales de gesti\u00f3n de la ventana de contexto en conversaciones largas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">RAG (Retrieval-Augmented Generation)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Generaci\u00f3n Aumentada por Recuperaci\u00f3n: En lugar de meter toda la informaci\u00f3n en el prompt, se recuperan fragmentos relevantes de una base de conocimiento externa y se dan solo esos al modelo. Es m\u00e1s eficiente en memoria, m\u00e1s r\u00e1pido y produce respuestas m\u00e1s fundamentadas porque el modelo solo ve la evidencia relevante.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Reranking<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Reordenamiento de los resultados de recuperaci\u00f3n por relevancia antes de construir el prompt final. Un buen reranker puede rescatar una recuperaci\u00f3n mediocre, pero no puede crear informaci\u00f3n que no estaba en los fragmentos originales. Se aplica despu\u00e9s de la b\u00fasqueda vectorial o h\u00edbrida.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Semantic Memory<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Hechos y preferencias del usuario almacenados de forma persistente. En producci\u00f3n, se implementa como almac\u00e9n clave-valor o base de datos vectorial. Es la taxonom\u00eda m\u00e1s cercana a lo que un sistema conoce como \u00abconocimiento factual\u00bb.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Sliding Windows with Priority<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Estrategia de gesti\u00f3n de contexto que mantiene una ventana de tokens limitada, priorizando la informaci\u00f3n m\u00e1s relevante y descartando contenido menos importante. La prioridad se determina por relevancia contextual, antig\u00fcedad o importancia declarada.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Vector Database<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Base de datos especializada en almacenar y consultar embeddings (vectores num\u00e9ricos). Permite b\u00fasqueda por similitud sem\u00e1ntica: Encontrar documentos conceptualmente cercanos aunque no compartan palabras exactas. Ejemplos: Pinecone, Weaviate, Milvus, Chroma.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00cdndice Vectorial<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Estructura de datos que almacena embeddings y permite b\u00fasqueda por similitud sem\u00e1ntica. Convierte texto en vectores num\u00e9ricos y encuentra documentos conceptualmente cercanos aunque no compartan palabras exactas. Es el componente central de cualquier sistema RAG.<\/p>\n\n\n\n<h2 id=\"agentes-y-orquestaci\u00f3n\" class=\"wp-block-heading\">Agentes y Orquestaci\u00f3n<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Los patrones ag\u00e9nticos estructuran la interacci\u00f3n entre modelos de lenguaje y sus componentes: Herramientas, memoria, otros agentes o procesos externos. No son frameworks espec\u00edficos, sino enfoques arquitect\u00f3nicos reutilizables.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Agent Card<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Descriptor JSON que define la identidad de un agente: capacidades, habilidades, URL de endpoint y requisitos de autenticaci\u00f3n. Es la identidad digital utilizada en el descubrimiento A2A. Permite que agentes de diferentes frameworks se conozcan y negocien tareas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Agent-as-Tool<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Envolver un agente especializado en una interfaz de herramienta para que otro agente pueda invocarlo de forma program\u00e1tica. La complejidad interna del agente se oculta detr\u00e1s de una interfaz estable, permitiendo la composici\u00f3n jer\u00e1rquica de sistemas ag\u00e9nticos. Es el mecanismo principal para reducir la redundancia y reutilizar l\u00f3gica de razonamiento entre componentes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">AgentExecutor<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Runtime de LangChain que invoca agentes y gestiona el ciclo de ejecuci\u00f3n de herramientas: El LLM decide, la herramienta se ejecuta, el resultado se devuelve. En versiones modernas de LangChain, el comportamiento depende de la configuraci\u00f3n: LangGraph ha reemplazado a AgentExecutor como el est\u00e1ndar para flujos ag\u00e9nticos complejos, aunque AgentExecutor sigue disponible para casos simples.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">AgentScratchpad<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Espacio de razonamiento interno donde un agente rastrea pasos de uso de herramientas, observaciones y pensamientos intermedios. Es el historial de trabajo que el modelo consulta antes de cada decisi\u00f3n, similar al papel de borrador de un matem\u00e1tico.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Alignment entre Agentes<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Cada agente optimiza localmente, pero los \u00f3ptimos locales no componen en \u00f3ptimos globales. Un agente SEO maximiza keywords, un agente escritor maximiza claridad, un agente legal maximiza cumplimiento: La salida combinada es t\u00e9cnicamente correcta pero funcionalmente inutilizable. Se resuelve con un objetivo global expl\u00edcito como criterio de s\u00edntesis.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Cascading Failures<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Fallos en cascada donde un error inicial desencadena una cadena de fallos subsiguientees. En sistemas ag\u00e9nticos, un mal routing puede llevar a un handler incorrecto, que produce salida inv\u00e1lida, que el pipeline siguiente no puede procesar. Los circuit breakers y validaciones intermedias rompen la cadena.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Chain of Debates (CoD)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Framework de debate multimodelo donde varios LLMs deliberan, critican el razonamiento mutuo y convergen en una soluci\u00f3n validada. Cada modelo aporta una perspectiva diferente; la tensi\u00f3n entre posiciones produce resultados m\u00e1s robustos que un modelo aislado.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Chain-of-Thought (CoT)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnica que pide al modelo generar pasos de razonamiento intermedios expl\u00edcitos antes de producir la respuesta final. Es la t\u00e9cnica de razonamiento base. Un prompt simple como &#8216;piensa paso a paso&#8217; puede mejorar el razonamiento en muchos modelos, aunque la efectividad var\u00eda seg\u00fan la familia del modelo, la tarea y la longitud de la cadena de pensamiento generada.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Communication Cost O(N\u00b2)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En topolog\u00edas peer-to-peer, cada agente debe comunicarse con todos los dem\u00e1s, produciendo un coste cuadr\u00e1tico. Es por esto que las arquitecturas reales terminan siendo jer\u00e1rquicas o parcialmente conectas: El supervisor central reduce la comunicaci\u00f3n a O(N).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Context Engineering<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Dise\u00f1o macro del entorno informativo que rodea al modelo: Prompts de sistema, documentos recuperados, salidas de herramientas, datos impl\u00edcitos del usuario y gesti\u00f3n de la ventana de contexto. A diferencia de Prompt Chaining (que estructura el flujo), Context Engineering se ocupa de la calidad y composici\u00f3n de la informaci\u00f3n que el modelo recibe en cada paso.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Context Explosion<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Crecimiento exponencial del contexto cuando m\u00faltiples herramientas, agentes o iteraciones agregan datos sin poda. Un agente que ejecuta cinco herramientas que devuelven 200 l\u00edneas cada una puede exceder la ventana de contexto en pocas iteraciones. La gesti\u00f3n activa de contexto es obligatoria.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Contractor Paradigm<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Uso de contratos formalizados (m\u00e1s all\u00e1 de prompts) para definir entregables del agente, alcance, fuentes de datos, costo computacional y l\u00ednea temporal. Permite comportamiento determinista y rendici\u00f3n de cuentas. Los agentes pueden negociar din\u00e1micamente t\u00e9rminos cuando las fuentes de datos son inaccesibles o los requisitos son ambiguos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Convergence Point<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">El paso donde los resultados paralelos se agregan en una salida unificada. Es el fan-in del patr\u00f3n Parallelization. La convergencia es costosa: Requiere otra llamada al modelo y puede introducir inconsistencias sem\u00e1nticas entre las ramas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Coordination Overhead<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Coste adicional de comunicar y sincronizar m\u00faltiples agentes. En topolog\u00edas peer-to-peer, el coste de comunicaci\u00f3n es O(N\u00b2). En la pr\u00e1ctica, la mayor\u00eda de sistemas ag\u00e9nticos reales usan muy poca coordinaci\u00f3n emergente porque explode el coste y reduce la predictibilidad.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Coordinator Pattern<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Agente central que clasifica las peticiones entrantes y las enruta a handlers especializados. Es la base del patr\u00f3n Routing: Un entry-point que distribuye el trabajo seg\u00fan la intenci\u00f3n o categor\u00eda de la entrada.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">CrewAI<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Framework para equipos multi-agente basados en roles con dependencias de tareas, procesos secuenciales o paralelos y guardrails integrados. Es particularmente \u00fatil para definir equipos especializados con roles claros y flujos de handoff expl\u00edcitos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Divide-and-Conquer<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Estrategia de descomposici\u00f3n que rompe la complejidad distribuyendo el trabajo entre m\u00faltiples llamadas al modelo, cada una enfocada en un subproblema espec\u00edfico. Reduce la carga cognitiva por llamada y mejora la precisi\u00f3n de cada paso individual. Se aplica dentro de Prompt Chaining o como patr\u00f3n independiente cuando las sub-tareas son verdaderamente independientes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Error Propagation<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Acumulaci\u00f3n de errores entre pasos de un pipeline: Un error en el paso N se amplifica en los pasos subsiguientees. Las salidas estructuradas con validaci\u00f3n intermedia son la defensa principal: Detectar y corregir errores antes de que propaguen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Escalation Policy<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Protocolo que define cu\u00e1ndo un agente transfiere el control a un operador humano: Baja confianza, alta complejidad, decisiones cr\u00edticas o patrones de error persistente. La pol\u00edtica debe ser expl\u00edcita y medible, no subjetiva.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Evaluation and Monitoring<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Medici\u00f3n continua y multidimensional del rendimiento de agentes en producci\u00f3n: Precisi\u00f3n, latencia, consumo de recursos, an\u00e1lisis de trayectorias y calidad subjetiva. LLM-as-a-Judge eval\u00faa cualidades subjetivas con r\u00fabricas estructuradas. El Contractor Paradigm usa contratos formalizados para definir entregables, alcance y costos de forma determinista.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Exception Handling and Recovery<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismos de manejo de errores en operaciones ag\u00e9nticas: Try-catch en cada paso, reintento con backoff exponencial, estrategias de fallback y circuit breakers. La distinci\u00f3n cr\u00edtica es entre errores recuperables y fatales. La degradaci\u00f3n elegante mantiene funcionalidad parcial cuando la recuperaci\u00f3n completa no es posible.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Exploration and Discovery<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n de generaci\u00f3n proactiva de conocimiento: Los agentes buscan informaci\u00f3n novedosa, generan hip\u00f3tesis y descubren desconocidos en lugar de simplemente ejecutar tareas conocidas. El ciclo Generate-Debate-Evolve es la iteraci\u00f3n central: Las hip\u00f3tesis se generan, eval\u00faan cr\u00edticamente y refinan seg\u00fan la retroalimentaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Fan-out \/ Fan-in<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Par de operaciones complementarias en Parallelization. Fan-out distribuye una entrada en m\u00faltiples ramas paralelas. Fan-in agrega los resultados de esas ramas en una salida coherente. Juntos forman el esqueleto de cualquier pipeline concurrente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">FastMCP<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Framework Python de alto nivel para construir servidores MCP r\u00e1pidamente con sintaxis basada en decoradores y schemas auto-generados. Simplifica la creaci\u00f3n de herramientas MCP sin escribir boilerplate de protocolo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Feedback Loop<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Estructura de control que permite la autocorrecci\u00f3n iterativa: Producir, criticar, refinar, repetir. Es el mecanismo central de Reflection y Learning. Requiere criterios de parada expl\u00edcitos para evitar bucles infinitos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Function Calling<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismo t\u00e9cnico donde el LLM genera solicitudes estructuradas (JSON) para invocar funciones externas. Es la capa de comunicaci\u00f3n entre el modelo y el c\u00f3digo ejecutable. No es lo mismo que Tool Use: Function Calling es el mecanismo, Tool Use es el concepto m\u00e1s amplio.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Generate-Debate-Evolve Cycle<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Iteraci\u00f3n central en exploraci\u00f3n y descubrimiento: Las hip\u00f3tesis se generan, se eval\u00faan cr\u00edticamente a trav\u00e9s de debate estructurado y se refinan seg\u00fan la retroalimentaci\u00f3n recibida. Es el motor de los sistemas de investigaci\u00f3n aut\u00f3noma.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Goal Setting and Monitoring<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Dar a los agentes objetivos expl\u00edcitos con criterios de \u00e9xito medibles y un bucle de retroalimentaci\u00f3n para medir el progreso. Los objetivos deben ser descomponibles y cuantificables. El marco SICA (Specific, Intelligent, Contextual, Achievable) proporciona estructura para definiciones claras.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Google ADK<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Agent Development Kit de Google para construir, desplegar y evaluar sistemas ag\u00e9nticos. Proporciona SequentialAgent, ParallelAgent, LoopAgent, MCPToolset y herramientas de evaluaci\u00f3n integradas. Soporta Auto-Flow para delegaci\u00f3n impulsada por LLM a sub-agentes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Graph of Debates (GoD)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Red de debate no lineal donde los argumentos son nodos conectados por aristas de soporte o refutaci\u00f3n. A diferencia de CoD (lineal), GoD permite relaciones cruzadas entre argumentos: Un argumento puede apoyar uno y refutar otro simult\u00e1neamente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Human-in-the-Loop (HITL)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n que integra supervisi\u00f3n humana, intervenci\u00f3n y retroalimentaci\u00f3n en los flujos de trabajo de los agentes. Define puertas de aprobaci\u00f3n, pausa la ejecuci\u00f3n del agente y espera input humano antes de continuar. La variante Human-on-the-Loop establece guardrails de pol\u00edtica a alto nivel mientras la IA ejecuta aut\u00f3nomamente dentro de esos l\u00edmites.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Instruction Neglect<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Tendencia de los LLMs a saltarse partes de prompts largos y complejos. Es uno de los fallos m\u00e1s comunes en pipelines: El modelo ignora instrucciones intermedias y produce salida incompleta. La mitigaci\u00f3n se logra con prompts m\u00e1s cortos por etapa, salidas estructuradas y validaci\u00f3n intermedia entre pasos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Inter-Agent Communication (A2A)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Protocolo HTTP abierto que permite a agentes construidos sobre frameworks distintos descubrirse entre s\u00ed, delegar tareas e intercambiar informaci\u00f3n mediante JSON-RPC 2.0. Las Agent Cards describen las capacidades de cada agente. A2A es para protocolo inter-agente; MCP es para protocolo de herramientas. Se complementan.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LangChain<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Framework Python para construir aplicaciones potenciadas por LLM. Proporciona cadenas, agentes, llamada de herramientas, memoria y herramientas de evaluaci\u00f3n. Es m\u00e1s r\u00e1pido para prototipos; en producci\u00f3n, las implementaciones custom suelen tener mejor observabilidad y control de errores.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LangChain Expression Language (LCEL)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Sintaxis compositiva para encadenar componentes ejecutables en LangChain usando el operador pipe (|). Permite construir pipelines declarativos: Prompt | llm | parser. Los constructos RunnableBranch y RunnableParallel son parte de LCEL.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LangGraph<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Motor de orquestaci\u00f3n basado en m\u00e1quinas de estado y grafos de LangChain para construir flujos de trabajo ag\u00e9nticos complejos con gesti\u00f3n de estado y routing. Es la herramienta principal para coordinaci\u00f3n simb\u00f3lica entre agentes y gesti\u00f3n de memoria persistente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Model Context Protocol (MCP)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Interfaz cliente-servidor estandarizada que permite el descubrimiento din\u00e1mico de herramientas, recursos y prompts entre aplicaciones y proveedores de LLM. No es arquitectura de agente ni framework de razonamiento: Reduce el coste de conectar herramientas. El descubrimiento es semi-din\u00e1mico, requiere configuraci\u00f3n est\u00e1tica del cliente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Multi-Agent Collaboration<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Estructura el sistema como un conjunto cooperativo de agentes especializados con roles, herramientas y protocolos de comunicaci\u00f3n distintos. Dos paradigmas de coordinaci\u00f3n: Simb\u00f3lica (expl\u00edcita y determinista, como LangGraph) y emergente (negociaci\u00f3n din\u00e1mica entre pares). La especializaci\u00f3n no garantiza mejora autom\u00e1tica: El coste de coordinaci\u00f3n debe ser menor que la ganancia de expertise.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">PALMs<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Program-Aided Language Models: Delegar c\u00f3mputo a ejecuci\u00f3n de c\u00f3digo. El LLM escribe Python, lo ejecuta y usa el resultado determinista para c\u00e1lculos precisos. Evita los errores aritm\u00e9ticos inherentes a la generaci\u00f3n de texto.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Parallelization<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n que identifica componentes independientes y los ejecuta concurrentemente, agregando los resultados en un punto de convergencia. Los tres tipos principales son paralelismo de tareas, fan-out\/fan-in y map-reduce. Reduce la latencia total cuando las ramas son verdaderamente independientes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Pipeline Pattern<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Implementaci\u00f3n estructurada de Prompt Chaining donde los pasos se ejecutan en orden lineal, formando una tuber\u00eda de procesamiento. Cada nodo del pipeline transforma los datos y los pasa al siguiente. La simplicidad lineal facilita la depuraci\u00f3n, aunque limita la flexibilidad ante cambios din\u00e1micos. Se implementa con LCEL (LangChain) o grafos de estado (LangGraph).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Planning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n que permite a los agentes formular secuencias de acciones de forma aut\u00f3noma, adaptando los planes conforme llega nueva informaci\u00f3n. Existe un espectro entre planificaci\u00f3n fija (plan generado una vez y ejecutado) y adaptaci\u00f3n iterativa (re-planificaci\u00f3n cuando el contexto cambia). Deep Research es un caso aplicado de este patr\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Prioritization<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Equipar a los agentes con criterios sistem\u00e1ticos para evaluar, clasificar y reordenar din\u00e1micamente tareas bajo restricciones de recursos. Un pipeline de tres niveles (estrat\u00e9gico, t\u00e1ctico, operacional) permite re-evaluaci\u00f3n cuando el contexto cambia. Las funciones de puntuaci\u00f3n aportan objetividad a las decisiones.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Prompt Chaining<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n base que descompone tareas complejas en secuencias de prompts enfocados, donde la salida de cada paso alimenta el siguiente. Cada etapa tiene un rol espec\u00edfico y utiliza salidas estructuradas para prevenir fallos en cascada. Es el patr\u00f3n fundamental sobre el que se construyen Pipeline Pattern y Divide-and-Conquer.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Pydantic<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Biblioteca Python para validaci\u00f3n de datos. En sistemas LLM, se usa para parsear salidas JSON en objetos Python validados mediante type hints y model_validate_json(). Proporciona la capa de validaci\u00f3n estructural que previene fallos en cascada cuando el modelo genera formato incorrecto.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">ReAct<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ciclo operacional central: Thought (razonamiento), Action (ejecuci\u00f3n), Observation (resultado). Habilita el uso de herramientas y la adaptaci\u00f3n de planes en tiempo real. Es el bucle que convierte un generador de texto en un agente que interact\u00faa con su entorno.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Reasoning Techniques<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnicas para tareas que requieren razonamiento mult Paso m\u00e1s all\u00e1 del emparejamiento de patrones simple. Incluye Chain-of-Thought (paso a paso), Tree-of-Thought (exploraci\u00f3n ramificada), ReAct (ciclo razonar-actuar-observar), PALMs (programa-asistido) y RLVR (refuerzo con recompensas verificables). La t\u00e9cnica debe coincidir con el tipo de problema.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Reflection<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Bucle de retroalimentaci\u00f3n donde el agente eval\u00faa su propio trabajo, identifica fallos y genera una versi\u00f3n mejorada de forma iterativa. Puede ser auto-reflexi\u00f3n (un solo modelo genera y critica) o critic separado (modelos distintos para generaci\u00f3n y evaluaci\u00f3n). Requiere criterios de parada expl\u00edcitos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Resource-Aware Optimization<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Gesti\u00f3n din\u00e1mica de presupuestos computacionales, temporales y financieros. Un Router Agent selecciona el nivel de modelo adecuado (econ\u00f3mico y r\u00e1pido para tareas sencillas, capaz y costoso para razonamiento complejo). La Scaling Inference Law establece que el rendimiento mejora con m\u00e1s c\u00f3mputo en tiempo de inferencia, aunque con retornos decrecientes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Role Assignment<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Asignar al modelo una persona distinta en cada paso para enfocar su razonamiento. \u00abAct\u00faa como editor t\u00e9cnico\u00bb produce salida diferente a \u00abAct\u00faa como revisor de seguridad\u00bb. Es una t\u00e9cnica simple pero efectiva dentro de Prompt Chaining.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Role Separation<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Usar agentes o modelos diferentes para generaci\u00f3n versus evaluaci\u00f3n para reducir sesgo de confirmaci\u00f3n. El mismo modelo que genera tiende a ser indulgente con su propia salida; un modelo separado eval\u00faa con mayor objetividad.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Routing<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n que introduce l\u00f3gica condicional: El agente eval\u00faa la entrada y selecciona entre m\u00faltiples rutas, herramientas o sub-agentes. Los m\u00e9todos de routing incluyen clasificaci\u00f3n basada en LLM, b\u00fasqueda sem\u00e1ntica con embeddings, reglas deterministas y clasificadores de machine learning entrenados.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">RunnableBranch<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Constructo de LCEL para branching condicional basado en clasificaci\u00f3n de entrada. Implementa el patr\u00f3n Routing dentro de LangChain: Eval\u00faa la entrada y selecciona entre m\u00faltiples ramas de procesamiento.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">RunnableParallel<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Constructo de LCEL que agrupa m\u00faltiples componentes ejecut\u00e1ndose concurrentemente. Implementa el patr\u00f3n Parallelization dentro de LangChain: Ejecuta varias operaciones simult\u00e1neamente y agrega los resultados.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Self-Consistency<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Ejecutar el mismo prompt CoT m\u00faltiples veces a temperatura elevada, luego seleccionar por votaci\u00f3n mayoritaria entre caminos de razonamiento diversos. La diversidad de rutas compensa los errores individuales de cualquier trayectoria \u00fanica.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Self-Correction<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Capacidad del agente de ajustar su plan, l\u00f3gica o par\u00e1metros bas\u00e1ndose en datos de monitoreo o se\u00f1ales de fallo. Es el mecanismo central de Reflection y Exception Handling. Requiere criterios de parada claros para evitar bucles de correcci\u00f3n infinitos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Shared State Inconsistency<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Problema donde m\u00faltiples agentes modifican estado compartido con conocimiento parcial en momentos diferentes. Es literalmente un problema de sistemas distribuidos: Requiere versionado de estado, schemas inmutables para handoffs y validaci\u00f3n de consistencia antes de la s\u00edntesis.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">State Management<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Preservaci\u00f3n del contexto entre pasos mediante almacenes clave-valor con alcance definido (prefijos user:, app:, temp:). El versionado de estado y los schemas inmutables para handoffs entre agentes previenen inconsistencias cuando m\u00faltiples componentes modifican datos compartidos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Step-Back Prompting<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Primero pedir al modelo un principio general, luego usarlo como contexto para la tarea espec\u00edfica. Funciona particularmente bien en preguntas que requieren abstracci\u00f3n: El modelo identifica el concepto subyacente antes de aplicar detalles concretos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Stopping Condition<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Criterio que termina un bucle iterativo: M\u00e1ximo de iteraciones, umbral de calidad alcanzado o se\u00f1al expl\u00edcita. Sin condiciones de parada, los bucles de Reflection o Planning pueden ejecutarse indefinidamente, consumiendo recursos y tiempo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Structured Output<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Formateo JSON o XML entre pasos para garantizar parseabilidad por m\u00e1quina y prevenir fallos en cascada. Es el mecanismo de handoff entre etapas de un pipeline: Cada paso produce salida estructurada que el siguiente paso consume de forma determinista.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Supervisor Pattern<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Agente central que supervisa la asignaci\u00f3n de tareas, delegaci\u00f3n y resoluci\u00f3n de conflictos entre agentes especializados. Es la columna vertebral de la coordinaci\u00f3n simb\u00f3lica: Decisiones expl\u00edcitas y deterministas sobre qu\u00e9 agente hace qu\u00e9.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tool Calling<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Concepto m\u00e1s amplio que incluye funciones, APIs, bases de datos y otros agentes como capacidades invocables. Tool Calling abarca Function Calling pero tambi\u00e9n mecanismos como MCP, A2A y Agent-as-Tool.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tool Use<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patr\u00f3n que habilita a los agentes para interactuar con sistemas externos: APIs, bases de datos, ejecutores de c\u00f3digo o herramientas especializadas. El ciclo completo incluye definici\u00f3n de herramientas, decisi\u00f3n del LLM, generaci\u00f3n de la llamada, ejecuci\u00f3n y reintegro del resultado al contexto.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tree-of-Thought (ToT)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Extensi\u00f3n de CoT que ramifica en m\u00faltiples caminos de razonamiento, los eval\u00faa y retrocede desde los callejones sin salida. Permite exploraci\u00f3n deliberativa: El modelo puede probar varias l\u00edneas de pensamiento y elegir la m\u00e1s prometedora.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Vertex AI<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Plataforma de IA gestionada de Google Cloud. Proporciona Memory Bank (extracci\u00f3n as\u00edncrona de hechos y preferencias), Extensions (wrappers API con seguridad enterprise) y herramientas de evaluaci\u00f3n integradas para sistemas ag\u00e9nticos en producci\u00f3n.<\/p>\n\n\n\n<h2 id=\"optimizaci\u00f3n-y-eficiencia\" class=\"wp-block-heading\">Optimizaci\u00f3n y Eficiencia<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00e9todos para adaptar el comportamiento del modelo, reducir recursos de entrenamiento y mejorar el rendimiento mediante inversi\u00f3n computacional en tiempo de inferencia.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Auto-evaluaci\u00f3n<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Proceso donde un agente eval\u00faa la calidad de sus propios outputs. Cuando el mismo modelo genera y juzga, se crea un sesgo de confirmaci\u00f3n: El modelo racionaliza sus errores y se declara satisfecho con resultados defectuosos. Separar generador y evaluador es el cambio que hace funcionar los sistemas de autoevaluaci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Few-shot Learning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">T\u00e9cnica que proporciona al modelo un peque\u00f1o n\u00famero de ejemplos dentro del prompt para guiar su comportamiento en la tarea actual. Los ejemplos demuestran el patr\u00f3n de entrada-salida esperado sin requerir reentrenamiento. Es r\u00e1pido, barato y limitado al contexto disponible y al conocimiento base del modelo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Fine-tuning (Ajuste Fino)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Entrenamiento adicional del modelo con datos espec\u00edficos para cambiar su comportamiento. Se usa para estilo de escritura constante, formatos de salida de dominio, clasificaci\u00f3n repetitiva, fiabilidad de llamadas a herramientas o adaptaci\u00f3n que el RAG no puede resolver. Se recomienda probar RAG y mejores prompts antes de considerar fine-tuning.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LoRA (Low-Rank Adaptation)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00e9todo de fine-tuning que congela el modelo base y entrena peque\u00f1os adaptadores de bajo rango. Reduce los par\u00e1metros entrenables y permite mantener m\u00faltiples adaptadores ligeros sobre un mismo modelo. Es la t\u00e9cnica dominante para adaptaci\u00f3n de dominios en entornos locales.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Online Learning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Actualizaciones continuas del modelo a partir de datos en streaming, permitiendo ajustes en tiempo real ante cambios en la distribuci\u00f3n de datos. \u00datil para detecci\u00f3n de drift y adaptaci\u00f3n continua, pero requiere infraestructura de entrenamiento en l\u00ednea. Es un nivel de adaptaci\u00f3n m\u00e1s profundo que few-shot pero menos costoso que fine-tuning completo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">QLoRA<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Extensi\u00f3n de LoRA que entrena adaptadores sobre un modelo base cuantizado en 4 bits. Permite fine-tuning con recursos de memoria limitados: Un modelo de 7B cuantizado puede ajustarse en una sola GPU de consumo. Combina cuantizaci\u00f3n de pesos con adaptadores de bajo rango.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Scaling Inference Law<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Observaci\u00f3n emp\u00edrica de que el rendimiento del modelo mejora al invertir m\u00e1s c\u00f3mputo en tiempo de inferencia: Un modelo m\u00e1s peque\u00f1o con m\u00e1s tiempo de pensamiento puede superar a uno m\u00e1s grande con menos. Tiene retornos decrecientes: El punto de inflexi\u00f3n var\u00eda seg\u00fan la tarea y el modelo. No es una ley formalmente demostrada, sino un patr\u00f3n observado en experimentos de test-time compute.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Test-Time Compute Scaling<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Asignaci\u00f3n iterativa de recursos computacionales crecientes para razonar y mejorar salidas. Es la aplicaci\u00f3n pr\u00e1ctica de la Scaling Inference Law: Invertir m\u00e1s c\u00f3mputo en el momento de la inferencia en lugar de entrenar modelos m\u00e1s grandes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Zero-shot Learning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Capacidad del modelo de realizar una tarea sin ejemplos previos en el prompt ni entrenamiento espec\u00edfico. El modelo se basa exclusivamente en su conocimiento preentrenado y en la formulaci\u00f3n de la instrucci\u00f3n. Funciona bien para tareas generales, pero su fiabilidad disminuye en dominios especializados o formatos muy espec\u00edficos.<\/p>\n\n\n\n<h2 id=\"evaluaci\u00f3n-y-alineamiento\" class=\"wp-block-heading\">Evaluaci\u00f3n y Alineamiento<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismos para medir, controlar y asegurar el comportamiento de modelos y agentes en producci\u00f3n. Incluyen t\u00e9cnicas de alineamiento con preferencias humanas y defensas contra comportamientos no deseados.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Circuit Breaker<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismo de detenci\u00f3n autom\u00e1tica ante comportamiento an\u00f3malo: Cuando un agente excede umbrales de error, latencia o consumo de recursos, el circuit breaker interrumpe la ejecuci\u00f3n y previene da\u00f1o en cascada. Es la equivalente ag\u00e9ntico del patr\u00f3n de circuit breaker en sistemas distribuidos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">DPO (Direct Preference Optimization)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">M\u00e9todo de alineaci\u00f3n que elimina el modelo de reward intermedio y actualiza la pol\u00edtica del LLM directamente desde datos de preferencia humana. Pipeline m\u00e1s simple que PPO, con menos componentes m\u00f3viles y menos riesgo de reward hacking. El trade-off es menos flexibilidad para dominios donde las preferencias no est\u00e1n bien definidas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Graceful Degradation<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mantenimiento de funcionalidad parcial cuando la recuperaci\u00f3n completa no es posible. En lugar de fallo total, el sistema reduce capacidades y contin\u00faa operando con funcionalidad limitada. La arquitectura de fallback en capas (primario, secundario, respuesta b\u00e1sica) implementa este principio.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Guardrails<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Mecanismos de defensa en capas que protegen a los agentes en producci\u00f3n: Validaci\u00f3n de entradas, filtrado de salidas, restricci\u00f3n de comportamiento y limitaci\u00f3n de acceso a herramientas. La defensa en profundidad es la norma: Un solo guardrail no es suficiente. Incluye detecci\u00f3n de jailbreaks, principio de menor privilegio y validaci\u00f3n adversarial contra inputs maliciosos.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Jailbreak Detection<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Identificaci\u00f3n de intentos de subvertir las instrucciones del sistema (por ejemplo, \u00abignora las reglas anteriores\u00bb). Incluye detecci\u00f3n de patrones conocidos, an\u00e1lisis sem\u00e1ntico de intenci\u00f3n y monitoreo de comportamiento an\u00f3malo durante la ejecuci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">LLM-as-a-Judge<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Uso de un LLM separado con r\u00fabrica estructurada para evaluar cualidades subjetivas de salida (utilidad, claridad, neutralidad) a escala. Es la herramienta principal de evaluaci\u00f3n automatizada. Presenta sesgos documentados: Sesgo de posici\u00f3n (prefiere respuestas al final), preferencia por su propio estilo de generaci\u00f3n, sensibilidad a la formulaci\u00f3n de la r\u00fabrica y tendencia a favorecer respuestas m\u00e1s largas. Requiere validaci\u00f3n humana peri\u00f3dica para calibrar.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">PPO (Proximal Policy Optimization)<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Algoritmo de reinforcement learning para espacios de acci\u00f3n continuos. Su innovaci\u00f3n clave es el mecanismo de clipping: Las actualizaciones de pol\u00edtica se limitan a una regi\u00f3n de confianza alrededor de la pol\u00edtica actual, evitando divergencia catastr\u00f3fica. Estable, pero complejo de implementar y costoso en c\u00f3mputo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Principle of Least Privilege<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Conceder a los agentes \u00fanicamente los permisos m\u00ednimos necesarios para su tarea, reduciendo el radio de explosi\u00f3n ante compromiso. Un agente de b\u00fasqueda no necesita acceso a la base de datos de usuarios; un agente de an\u00e1lisis no necesita permisos de escritura en producci\u00f3n.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Reward Hacking<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Fen\u00f3meno donde un agente aprende a maximizar la m\u00e9trica de reward sin cumplir el objetivo real. Ejemplo: Un agente evaluado por velocidad de respuesta empieza a dar respuestas cortas e incorrectas. La m\u00e9trica sube mientras la calidad baja. Se mitiga separando generador y evaluador, y usando m\u00e9tricas de reward alineadas con el objetivo real.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">RLVR<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Reinforcement Learning with Verifiable Rewards: Entrenar modelos de razonamiento en problemas con respuestas conocidas, permitiendo trayectorias de razonamiento de forma extensa con autocorrecci\u00f3n. Las recompensas verificables eliminan la necesidad de modelos de recompensa entrenados por humanos.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Referencia consolidada de los t\u00e9rminos t\u00e9cnicos utilizados en la serie de art\u00edculos sobre modelos de lenguaje, ejecuci\u00f3n local y patrones de dise\u00f1o para sistemas con agentes de IA. Organizado en seis capas conceptuales: Desde los fundamentos de la arquitectura Transformer hasta&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-725","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/pages\/725","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/comments?post=725"}],"version-history":[{"count":4,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/pages\/725\/revisions"}],"predecessor-version":[{"id":738,"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/pages\/725\/revisions\/738"}],"wp:attachment":[{"href":"https:\/\/atlaszn.com\/blog\/wp-json\/wp\/v2\/media?parent=725"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}