Categoría: IA Local

Los modelos de lenguaje no piensan antes de escribir: Generan token por token. Los parámetros de generación determinan cómo elige entre miles de posibilidades en cada paso.

IA & Automatización IA Local

Decodificación, LLM, min_p, parámetros de generación, penalizaciones, temperatura, top_k, top_p

23 de mayo de 2026

FeR

Casos de Uso Avanzados: RAG, Agentes y Fine-tuning

Guía técnica sobre casos de uso avanzados de LLM locales: RAG, agentes con herramientas, fine-tuning con LoRA/QLoRA, modelos multimodales y programación con IA local.

Fundamentos IA & Automatización IA Local Software

Agentes de IA, Bases de conocimiento, Edge AI, Fine-tuning, LoRA, Multimodal, RAG, Seguridad

23 de mayo de 2026

FeR

Ejecución Local de LLM: Runtimes, Operación y Cuantización

Guía completa sobre ejecución local de LLM en 2026: runtimes (llama.cpp, vLLM, SGLang), cuantización (Q4-Q8), formatos de archivo (GGUF, safetensors), selección de modelos y operaciones.

Fundamentos IA & Automatización IA Local Software

cuantización, GGUF, Hardware IA, llama.cpp, Privacidad, Runtimes, VRAM

22 de mayo de 2026

FeR

Cómo piensan los LLM: Fundamentos de Inferencia

Guía técnica sobre cómo funcionan los LLM localmente: tokens, transformers, atención, caché KV, prefill y decodificación. Fundamentos esenciales para ejecutar IA local en 2026.

Fundamentos IA & Automatización IA Local

Atención, Caché KV, Decodificación, IA local, Inferencia LLM, Modelos locales, Tokens, Transformers

22 de mayo de 2026

FeR

Motores de Inferencia para LLMs y Hardware de IA Local

Motores de inferencia para LLMs en 2026: guia completa de llama.cpp, vLLM, TensorRT-LLM, SGLang, ExLlamaV3, MLX y TGI. Como elegir el motor correcto segun tu hardware y carga de trabajo.

IA & Automatización IA Local Software

Motores de inferencia LLMs

21 de mayo de 2026

FeR

Ancho de banda de memoria para IA local

El rendimiento de la IA local depende más del ancho de banda de memoria que de los FLOPs. La velocidad a la que los pesos viajan desde la VRAM hacia la GPU determina los tokens por segundo y el rendimiento real de los modelos.

Hardware IA & Automatización IA Local

Ancho de banda de memoria, Apple Silicon, DGX Spark, GPUs NVIDIA, Hardware IA 2026, IA local, Inferencia local, Mac Studio, Multiagente IA, R yzen AI Max, RTX 5090, Strix Halo, Tokens por segundo

Categoría: IA Local

Parámetros de generación

Casos de Uso Avanzados: RAG, Agentes y Fine-tuning

Ejecución Local de LLM: Runtimes, Operación y Cuantización

Cómo piensan los LLM: Fundamentos de Inferencia

Motores de Inferencia para LLMs y Hardware de IA Local

Ancho de banda de memoria para IA local