Para ejecutar modelos de IA localmente en 2026, el factor determinante no es la cantidad de memoria sino el ancho de banda de memoria: una RTX 5090 y una RTX PRO 6000 Blackwell ofrecen 1792 GB/s y superan ampliamente en velocidad de inferencia a sistemas con mucha más memoria unificada pero menor ancho de banda, como Mac Studio M3 Ultra (819 GB/s), DGX Spark (273 GB/s) o Strix Halo (256 GB/s). La capacidad decide si el modelo cabe; el ancho de banda decide a qué velocidad generará tokens.
El número de hardware que realmente debería importarte
Especialmente en la era de los agentes. El ancho de banda de memoria no es lo mismo que los tokens por segundo, pero es la forma más limpia y rápida de separar el hardware de IA local en niveles reales de rendimiento.
Este es el panorama actual:
Clase 1.8 TB/s
| Dispositivo | Ancho de banda |
|---|---|
| RTX PRO 6000 Blackwell | 1792 GB/s |
| RTX 5090 | 1792 GB/s |
Clase 800 GB/s
| Dispositivo | Ancho de banda |
|---|---|
| Mac Studio M3 Ultra | 819 GB/s |
Clase 450–650 GB/s
| Dispositivo | Ancho de banda |
|---|---|
| Mac Studio M4 Max | 546 GB/s |
| MacBook Pro M5 Max | 460–614 GB/s |
| AMD Radeon AI PRO R9700 | 640 GB/s |
| Tenstorrent Blackhole p150 | 512 GB/s |
Clase de memoria unificada 250–300 GB/s
| Dispositivo | Ancho de banda |
|---|---|
| DGX Spark | 273 GB/s |
| Mac mini M4 Pro | 273 GB/s |
| Ryzen AI Max / Strix Halo | 256 GB/s |
Clase de «PC con IA» delgada y ligera (Ultrabooks)
| Dispositivo | Ancho de banda |
|---|---|
| MacBook Air M5 | 153 GB/s |
| Snapdragon X Elite | 135 GB/s |
| Intel Lunar Lake | 136 GB/s |
| Snapdragon X2 Elite | 152–228 GB/s |
Si no recuerdas nada más, recuerda esto:
- La capacidad determina qué cabe.
- El ancho de banda marca el ritmo.
- El software decide el rendimiento real que consigues.
El «impuesto de memoria» que la gente confunde
Una RTX 5090 de 32 GB y una RTX PRO 6000 Blackwell de 96 GB tienen el mismo ancho de banda. Pero viven en mundos completamente diferentes cuando entra en juego el tamaño del modelo.
Un DGX Spark te da 128 GB de memoria unificada a 273 GB/s. Un sistema Ryzen AI Max puede exponer ~96 GB como memoria de GPU. Un Mac Studio M3 Ultra llega hasta los 512 GB a 819 GB/s.
Mismo tema. Compensaciones (trade-offs) radicalmente diferentes. Así que no, el ancho de banda no es toda la historia. Pero es la forma más rápida de dejar de estar confundido.
Cómo se ve esto en la práctica
Por debajo de ~150 GB/s, estás en territorio de laptops delgadas y ligeras. Eso no significa que sean inútiles; significa que no compiten con las GPUs de workstation.
- Alrededor de 250–300 GB/s → la memoria unificada empieza a ponerse interesante.
- Alrededor de 450–650 GB/s → nivel serio de estación de trabajo.
- A 800+ GB/s → caro, potente y divertido.
La IA local en 2026 no es un solo mercado. Son cinco mercados diferentes fingiendo ser uno.
Realidad de las GPU dedicadas: siguen siendo los reyes del ancho de banda
Si el modelo cabe, o si agrupas GPUs mediante NVLink (ahora mayormente en servidores) o PCIe Gen 5 y usas Tensor Parallelism, las GPUs dedicadas siguen dominando. Esto aplica especialmente a las GPUs de NVIDIA dado su amplio soporte de software.
NVIDIA
| GPU | VRAM | Ancho de banda |
|---|---|---|
| RTX PRO 6000 Blackwell | 96 GB | 1792 GB/s |
| RTX 5090 | 32 GB | 1792 GB/s |
| RTX 4090 | 24 GB | 1008 GB/s |
AMD
| GPU | VRAM | Ancho de banda |
|---|---|---|
| RX 7900 XTX | 24 GB | 960 GB/s |
| Radeon PRO W7900 | 48 GB | 864 GB/s |
| AI PRO R9700 | 32 GB | 640 GB/s |
Intel
| GPU | VRAM | Ancho de banda |
|---|---|---|
| Arc Pro B65 | 32 GB | ~608 GB/s |
| Arc Pro B60 | 24 GB | ~456 GB/s |
Las GPUs ganan porque pueden «beber de un caño grande». Pierden si el modelo no cabe.
Realidad de Apple: ancho de banda aceptable + capacidad combinada
Toda la historia de Apple es: «no soy el más rápido, pero soy usable».
| Dispositivo | Ancho de banda |
|---|---|
| Mac mini M4 | 120 GB/s |
| MacBook Air M5 | 153 GB/s |
| Mac mini M4 Pro | 273 GB/s |
| MacBook Pro M5 Pro | 307 GB/s |
| M5 Max | hasta 614 GB/s |
| Mac Studio M3 Ultra | 819 GB/s + hasta 512 GB de memoria |
Este último es la clave. Apple gana cuando:
- Quieres un solo equipo.
- Quieres silencio y bajo consumo.
- Quieres cantidades absurdas de memoria.
- No quieres fragmentar (shard) el modelo entre varias GPUs.
Pierde cuando los tokens/seg brutos y la concurrencia importan más que todo lo demás.
DGX Spark: memoria coherente + CUDA, no un monstruo del ancho de banda
DGX Spark:
- 128 GB de memoria unificada.
- 273 GB/s.
- Stack completo de NVIDIA (CUDA, TensorRT).
El ancho de banda no es impresionante. Lo que sí lo es es la memoria coherente + el stack de software. Es una herramienta para desarrolladores, no un monstruo de rendimiento bruto. Tiene soporte NVFP4 a través de TensorRT Model Optimizer, lo que le da una ventaja en cuantización avanzada.
Strix Halo / Ryzen AI Max: el primer contendiente real de x86
- LPDDR5X de 256 bits.
- Hasta 128 GB de memoria.
- ~256 GB/s de ancho de banda.
- Hasta ~96 GB utilizables como memoria de GPU.
Aquí es donde el Framework Desktop se vuelve interesante.
La trampa de la «PC con IA»
La mayoría de las «AI PCs» siguen teniendo un déficit de ancho de banda.
| Dispositivo | Ancho de banda |
|---|---|
| Snapdragon X Elite | 135 GB/s |
| Intel Lunar Lake | 136 GB/s |
| MacBook Air M5 | 153 GB/s |
| Snapdragon X2 Elite | hasta ~228 GB/s |
Esto está bien para:
- Modelos pequeños.
- Asistentes locales.
- Edge workloads.
No lo sirve para:
- Entornos de pruebas con modelos densos de 9B.
- Cargas de trabajo serias multiagente.
- Pruebas de estrés de contexto largo.
¿Por qué los equipos más grandes siguen sintiéndose lentos?
Porque cabe no es lo mismo que sirve. Incluso si el modelo cabe, sigues pagando por:
- El ancho de banda durante la decodificación.
- El crecimiento del caché KV.
- La descuantización.
- El procesamiento por lotes (batching) y la concurrencia.
- La calidad del planificador (scheduler).
- La sobrecarga del framework (overhead).
Por eso: «funciona» = demo / «sirve» = diseño de sistema.
¿Multi-GPU?
Más GPUs no significa escalado lineal. Ahora estás comprando:
- Interconexión (PCIe vs NVLink vs RDMA).
- Topología.
- Sobrecarga de sincronización.
- Madurez del software.
El único modelo mental que importa
No hay una tabla gigante que necesites memorizar. Solo quédate con esto:
- ¿Qué debe caber?
- ¿Qué nivel de ancho de banda necesito?
- ¿Qué stack de software puede entregarlo realmente?
Una vez que interiorices esto, dejarás de preguntar: «¿Qué hardware es el mejor?» Y empezarás a preguntar: «¿Qué cuello de botella estoy comprando?»
Preguntas frecuentes
¿Qué es más importante para IA local, VRAM o ancho de banda?
La VRAM determina si el modelo cabe en memoria. El ancho de banda determina la velocidad de generación de tokens. Para modelos que caben cómodamente, el ancho de banda es el factor limitante principal. Un modelo de 7B en cuantización Q4_K_M ocupa unos 4-5 GB: cabe en casi cualquier GPU moderna, pero la diferencia entre una RTX 5090 (1792 GB/s) y un Mac mini M4 Pro (273 GB/s) se nota en la experiencia de uso.
¿Una RTX 5090 es mejor que un Mac Studio M3 Ultra para IA?
Depende del modelo. La RTX 5090 ofrece 1792 GB/s de ancho de banda (más del doble que los 819 GB/s del M3 Ultra), pero solo 32 GB de VRAM frente a hasta 512 GB del Mac Studio. Para modelos de hasta 14B parámetros, la 5090 es significativamente más rápida. Para modelos de 70B+ que no caben en 32 GB, el Mac Studio es la única opción en un solo equipo.
¿Qué es el DGX Spark de NVIDIA?
El DGX Spark es una placa motherboard de NVIDIA con 128 GB de memoria unificada a 273 GB/s basada en procesadores AMD Ryzen AI. Su ventaja no es el rendimiento bruto sino el acceso al stack completo de software NVIDIA (CUDA, TensorRT, soporte NVFP4 a través de TensorRT Model Optimizer) en un formato accesible para desarrolladores.
¿Las AI PCs son útiles para ejecutar modelos locales?
Las AI PCs actuales (Snapdragon X Elite, Intel Lunar Lake, Snapdragon X2 Elite) ofrecen entre 135-228 GB/s de ancho de banda. Son adecuadas para modelos pequeños (hasta 3B-8B parámetros), asistentes locales y cargas de trabajo en edge, pero no para entornos multiagente o modelos densos de 9B+ con contextos largos.
¿Por qué un equipo con más memoria puede ser más lento que uno con menos?
Porque la velocidad de inferencia está limitada por el ancho de banda de memoria, no por la capacidad. Un DGX Spark con 128 GB a 273 GB/s cargará un modelo grande, pero lo servirá mucho más lento que una RTX 5090 con solo 32 GB a 1792 GB/s (siempre que el modelo quepa en esa 32 GB). La capacidad permite que el modelo entre; el ancho de banda determina qué tan rápido funciona una vez dentro.
¿Cuánto ancho de banda necesito para un flujo de trabajo multiagente?
Para flujos multiagente con 3-6 requests concurrentes, se recomienda un mínimo de 800 GB/s (Mac Studio M3 Ultra o superior) para mantener latencias aceptables. GPU dedicadas como la RTX 5090 (1792 GB/s) son ideales porque combinan ancho de banda extremo con software maduro de scheduling y batching (TensorRT-LLM, vLLM). Por debajo de 450 GB/s, la concurrencia degrada notablemente la experiencia.
