Google TPU 8: Nuevos chips 8t y 8i para desafiar a Nvidia

Google Cloud ha presentado oficialmente Google TPU 8, su octava generación de procesadores tensoriales para centros de datos. La nueva línea de hardware divide su arquitectura en dos vertientes para maximizar el rendimiento por vatio. Esta estrategia responde a la demanda de las corporaciones para operar modelos masivos con un coste energético viable.

La arquitectura dual del Google TPU 8

El diseño de esta generación separa físicamente las cargas de trabajo. El modelo TPU 8t cuenta con hardware optimizado para el entrenamiento de modelos fundacionales. El modelo TPU 8i recorta componentes innecesarios para centrarse exclusivamente en la inferencia eficiente. La inferencia es el proceso en el que el modelo procesa las peticiones de los usuarios en tiempo real. Esta división reduce el consumo energético en tareas de producción. Los clientes pagan únicamente por el silicio que necesitan para cada fase de sus operaciones. Los arquitectos de sistemas ya no tienen que implementar procesadores monolíticos sobrecualificados para tareas de respuesta rápida. El despliegue de infraestructura gana agilidad y precisión de costes.

Mejoras de rendimiento en clústeres masivos

Los datos técnicos del hardware confirman una mejora del ochenta por ciento en rendimiento por dólar invertido respecto a la generación anterior. El tiempo requerido para entrenar modelos complejos se recorta a un tercio. La gran innovación reside en la tecnología de interconexión óptica de la compañía. Google ha diseñado un sistema capaz de sincronizar más de un millón de chips en un único clúster lógico. Esta red masiva permite distribuir cargas de cálculo que antes resultaban imposibles de gestionar. La infraestructura física se apoya en la nueva red Falcon de código abierto. Esta apuesta por estándares abiertos facilita la integración de equipos de red de terceros. Las instalaciones requieren menos cableado tradicional y reducen la latencia interna en milisegundos clave.

Convivencia estratégica con procesadores Nvidia

La compañía no elimina el hardware de terceros de sus centros de datos. Google Cloud confirma que desplegará los próximos procesadores Vera Rubin de Nvidia a finales de este mismo año. Esta dualidad permite a los clientes migrar sus cargas de trabajo desarrolladas con librerías CUDA sin reescribir código. La oferta diversificada evita la dependencia exclusiva de un único proveedor, algo vital como vimos cuando AMD y GlobalFoundries firmaron su reciente acuerdo de fabricación para asegurar suministro continuo. Los desarrolladores mantienen la libertad de elegir el hardware según los requisitos de sus aplicaciones de computación distribuida. La estrategia busca retener a los clientes empresariales que ya tienen ecosistemas cerrados muy consolidados.

Evolución del hardware en centros de datos

La adopción de esta nueva generación exige a las empresas utilizar los marcos de trabajo nativos optimizados por Google. Frameworks como JAX, PyTorch y TensorFlow reciben soporte de primera clase con compiladores específicos. La integración nativa con Google Kubernetes Engine facilita el despliegue automático de nodos de inferencia según la demanda del tráfico. Los centros de datos de la compañía ya han comenzado la sustitución física de bastidores antiguos para hacer espacio. El consumo eléctrico total por rack se mantiene estable gracias a los nuevos procesos de fabricación litográfica en tres nanómetros. Las pruebas corporativas demuestran que los bastidores actuales alojan el doble de capacidad de cómputo físico real. El hardware de propósito general cede terreno aceleradamente frente a este tipo de diseños asimétricos orientados a matrices. Observamos un movimiento tecnológico análogo al que presenciamos con el fin del soporte de Intel en macOS, priorizando chips desarrollados internamente.

Impacto en los costes operativos empresariales

Las compañías que entrenan redes neuronales propias son las principales beneficiarias. Entornos corporativos como el sector farmacéutico requieren enormes picos de cálculo matemático para sus algoritmos. Estos clientes utilizarán la serie orientada al entrenamiento y posteriormente desplegarán los modelos en la infraestructura de inferencia. Este ciclo asegura que los chips más costosos no permanezcan procesando simples peticiones de texto. La infraestructura en la nube adopta una especialización extrema. Cada componente de la placa base ejecuta exclusivamente su tarea asignada de fábrica. Google Cloud proyecta amortizar la multimillonaria inversión del diseño en catorce meses.

Generación y Enfoque	Mejora de Entrenamiento	Eficiencia de Coste	Límite del Clúster
TPU v7 (Monolítico)	Línea base de referencia	Estándar comercial de 2025	Decenas de miles de chips
Google TPU 8 (Entrenamiento)	3 veces más rápido	+80% por dólar	+1.000.000 de chips
Serie Inferencia (8i)	No aplica (Solo ejecución)	Máxima eficiencia energética	Escalado dinámico

Google implementará estos aceleradores progresivamente en sus regiones de datos en Norteamérica y Europa durante el tercer trimestre. La disponibilidad para empresas fuera del programa de acceso anticipado arrancará en el último trimestre financiero.

Fuente: TechCrunch