Ancho de banda de memoria para IA local

Para ejecutar modelos de IA localmente en 2026, el factor determinante no es la cantidad de memoria sino el ancho de banda de memoria: una RTX 5090 y una RTX PRO 6000 Blackwell ofrecen 1792 GB/s y superan ampliamente en velocidad de inferencia a sistemas con mucha más memoria unificada pero menor ancho de banda, como Mac Studio M3 Ultra (819 GB/s), DGX Spark (273 GB/s) o Strix Halo (256 GB/s). La capacidad decide si el modelo cabe; el ancho de banda decide a qué velocidad generará tokens.

El número de hardware que realmente debería importarte

Especialmente en la era de los agentes. El ancho de banda de memoria no es lo mismo que los tokens por segundo, pero es la forma más limpia y rápida de separar el hardware de IA local en niveles reales de rendimiento.

Este es el panorama actual:

Clase 1.8 TB/s

Dispositivo	Ancho de banda
RTX PRO 6000 Blackwell	1792 GB/s
RTX 5090	1792 GB/s

Clase 800 GB/s

Dispositivo	Ancho de banda
Mac Studio M3 Ultra	819 GB/s

Clase 450–650 GB/s

Dispositivo	Ancho de banda
Mac Studio M4 Max	546 GB/s
MacBook Pro M5 Max	460–614 GB/s
AMD Radeon AI PRO R9700	640 GB/s
Tenstorrent Blackhole p150	512 GB/s

Clase de memoria unificada 250–300 GB/s

Dispositivo	Ancho de banda
DGX Spark	273 GB/s
Mac mini M4 Pro	273 GB/s
Ryzen AI Max / Strix Halo	256 GB/s

Clase de «PC con IA» delgada y ligera (Ultrabooks)

Dispositivo	Ancho de banda
MacBook Air M5	153 GB/s
Snapdragon X Elite	135 GB/s
Intel Lunar Lake	136 GB/s
Snapdragon X2 Elite	152–228 GB/s

Si no recuerdas nada más, recuerda esto:

La capacidad determina qué cabe.
El ancho de banda marca el ritmo.
El software decide el rendimiento real que consigues.

El «impuesto de memoria» que la gente confunde

Una RTX 5090 de 32 GB y una RTX PRO 6000 Blackwell de 96 GB tienen el mismo ancho de banda. Pero viven en mundos completamente diferentes cuando entra en juego el tamaño del modelo.

Un DGX Spark te da 128 GB de memoria unificada a 273 GB/s. Un sistema Ryzen AI Max puede exponer ~96 GB como memoria de GPU. Un Mac Studio M3 Ultra llega hasta los 512 GB a 819 GB/s.

Mismo tema. Compensaciones (trade-offs) radicalmente diferentes. Así que no, el ancho de banda no es toda la historia. Pero es la forma más rápida de dejar de estar confundido.

Cómo se ve esto en la práctica

Por debajo de ~150 GB/s, estás en territorio de laptops delgadas y ligeras. Eso no significa que sean inútiles; significa que no compiten con las GPUs de workstation.

Alrededor de 250–300 GB/s → la memoria unificada empieza a ponerse interesante.
Alrededor de 450–650 GB/s → nivel serio de estación de trabajo.
A 800+ GB/s → caro, potente y divertido.

La IA local en 2026 no es un solo mercado. Son cinco mercados diferentes fingiendo ser uno.

Realidad de las GPU dedicadas: siguen siendo los reyes del ancho de banda

Si el modelo cabe, o si agrupas GPUs mediante NVLink (ahora mayormente en servidores) o PCIe Gen 5 y usas Tensor Parallelism, las GPUs dedicadas siguen dominando. Esto aplica especialmente a las GPUs de NVIDIA dado su amplio soporte de software.

NVIDIA

GPU	VRAM	Ancho de banda
RTX PRO 6000 Blackwell	96 GB	1792 GB/s
RTX 5090	32 GB	1792 GB/s
RTX 4090	24 GB	1008 GB/s

AMD

GPU	VRAM	Ancho de banda
RX 7900 XTX	24 GB	960 GB/s
Radeon PRO W7900	48 GB	864 GB/s
AI PRO R9700	32 GB	640 GB/s

Intel

GPU	VRAM	Ancho de banda
Arc Pro B65	32 GB	~608 GB/s
Arc Pro B60	24 GB	~456 GB/s

Las GPUs ganan porque pueden «beber de un caño grande». Pierden si el modelo no cabe.

Realidad de Apple: ancho de banda aceptable + capacidad combinada

Toda la historia de Apple es: «no soy el más rápido, pero soy usable».

Dispositivo	Ancho de banda
Mac mini M4	120 GB/s
MacBook Air M5	153 GB/s
Mac mini M4 Pro	273 GB/s
MacBook Pro M5 Pro	307 GB/s
M5 Max	hasta 614 GB/s
Mac Studio M3 Ultra	819 GB/s + hasta 512 GB de memoria

Este último es la clave. Apple gana cuando:

Quieres un solo equipo.
Quieres silencio y bajo consumo.
Quieres cantidades absurdas de memoria.
No quieres fragmentar (shard) el modelo entre varias GPUs.

Pierde cuando los tokens/seg brutos y la concurrencia importan más que todo lo demás.

DGX Spark: memoria coherente + CUDA, no un monstruo del ancho de banda

DGX Spark:

128 GB de memoria unificada.
273 GB/s.
Stack completo de NVIDIA (CUDA, TensorRT).

El ancho de banda no es impresionante. Lo que sí lo es es la memoria coherente + el stack de software. Es una herramienta para desarrolladores, no un monstruo de rendimiento bruto. Tiene soporte NVFP4 a través de TensorRT Model Optimizer, lo que le da una ventaja en cuantización avanzada.

Strix Halo / Ryzen AI Max: el primer contendiente real de x86

LPDDR5X de 256 bits.
Hasta 128 GB de memoria.
~256 GB/s de ancho de banda.
Hasta ~96 GB utilizables como memoria de GPU.

Aquí es donde el Framework Desktop se vuelve interesante.

La trampa de la «PC con IA»

La mayoría de las «AI PCs» siguen teniendo un déficit de ancho de banda.

Dispositivo	Ancho de banda
Snapdragon X Elite	135 GB/s
Intel Lunar Lake	136 GB/s
MacBook Air M5	153 GB/s
Snapdragon X2 Elite	hasta ~228 GB/s

Esto está bien para:

Modelos pequeños.
Asistentes locales.
Edge workloads.

No lo sirve para:

Entornos de pruebas con modelos densos de 9B.
Cargas de trabajo serias multiagente.
Pruebas de estrés de contexto largo.

¿Por qué los equipos más grandes siguen sintiéndose lentos?

Porque cabe no es lo mismo que sirve. Incluso si el modelo cabe, sigues pagando por:

El ancho de banda durante la decodificación.
El crecimiento del caché KV.
La descuantización.
El procesamiento por lotes (batching) y la concurrencia.
La calidad del planificador (scheduler).
La sobrecarga del framework (overhead).

Por eso: «funciona» = demo / «sirve» = diseño de sistema.

¿Multi-GPU?

Más GPUs no significa escalado lineal. Ahora estás comprando:

Interconexión (PCIe vs NVLink vs RDMA).
Topología.
Sobrecarga de sincronización.
Madurez del software.

El único modelo mental que importa

No hay una tabla gigante que necesites memorizar. Solo quédate con esto:

¿Qué debe caber?
¿Qué nivel de ancho de banda necesito?
¿Qué stack de software puede entregarlo realmente?

Una vez que interiorices esto, dejarás de preguntar: «¿Qué hardware es el mejor?» Y empezarás a preguntar: «¿Qué cuello de botella estoy comprando?»

Preguntas frecuentes

¿Qué es más importante para IA local, VRAM o ancho de banda?

La VRAM determina si el modelo cabe en memoria. El ancho de banda determina la velocidad de generación de tokens. Para modelos que caben cómodamente, el ancho de banda es el factor limitante principal. Un modelo de 7B en cuantización Q4_K_M ocupa unos 4-5 GB: cabe en casi cualquier GPU moderna, pero la diferencia entre una RTX 5090 (1792 GB/s) y un Mac mini M4 Pro (273 GB/s) se nota en la experiencia de uso.

¿Una RTX 5090 es mejor que un Mac Studio M3 Ultra para IA?

Depende del modelo. La RTX 5090 ofrece 1792 GB/s de ancho de banda (más del doble que los 819 GB/s del M3 Ultra), pero solo 32 GB de VRAM frente a hasta 512 GB del Mac Studio. Para modelos de hasta 14B parámetros, la 5090 es significativamente más rápida. Para modelos de 70B+ que no caben en 32 GB, el Mac Studio es la única opción en un solo equipo.

¿Qué es el DGX Spark de NVIDIA?

El DGX Spark es una placa motherboard de NVIDIA con 128 GB de memoria unificada a 273 GB/s basada en procesadores AMD Ryzen AI. Su ventaja no es el rendimiento bruto sino el acceso al stack completo de software NVIDIA (CUDA, TensorRT, soporte NVFP4 a través de TensorRT Model Optimizer) en un formato accesible para desarrolladores.

¿Las AI PCs son útiles para ejecutar modelos locales?

Las AI PCs actuales (Snapdragon X Elite, Intel Lunar Lake, Snapdragon X2 Elite) ofrecen entre 135-228 GB/s de ancho de banda. Son adecuadas para modelos pequeños (hasta 3B-8B parámetros), asistentes locales y cargas de trabajo en edge, pero no para entornos multiagente o modelos densos de 9B+ con contextos largos.

¿Por qué un equipo con más memoria puede ser más lento que uno con menos?

Porque la velocidad de inferencia está limitada por el ancho de banda de memoria, no por la capacidad. Un DGX Spark con 128 GB a 273 GB/s cargará un modelo grande, pero lo servirá mucho más lento que una RTX 5090 con solo 32 GB a 1792 GB/s (siempre que el modelo quepa en esa 32 GB). La capacidad permite que el modelo entre; el ancho de banda determina qué tan rápido funciona una vez dentro.

¿Cuánto ancho de banda necesito para un flujo de trabajo multiagente?

Para flujos multiagente con 3-6 requests concurrentes, se recomienda un mínimo de 800 GB/s (Mac Studio M3 Ultra o superior) para mantener latencias aceptables. GPU dedicadas como la RTX 5090 (1792 GB/s) son ideales porque combinan ancho de banda extremo con software maduro de scheduling y batching (TensorRT-LLM, vLLM). Por debajo de 450 GB/s, la concurrencia degrada notablemente la experiencia.

Fundamentos de LLM: Una serie sobre cómo funcionan los modelos de lenguaje por dentro, cómo ejecutarlos localmente, y cómo explotar sus capacidades en sistemas reales.

Ancho de banda de memoria para IA local