YOLOv5 frente a YOLO11: una comparativa técnica exhaustiva
Al elegir la arquitectura de visión artificial adecuada para un nuevo proyecto, es fundamental entender la evolución de los modelos más avanzados. El progreso desde las primeras arquitecturas hasta los modernos marcos unificados pone de relieve importantes avances tanto en la eficiencia algorítmica como en la experiencia del desarrollador. Esta guía ofrece una comparativa técnica detallada entre dos modelos emblemáticos desarrollados por Ultralytics: el pionero YOLOv5 y el altamente optimizado YOLO11.
Introducción a los modelos
Ambas arquitecturas representan hitos significativos en el campo de la detección de objetos en tiempo real, ofreciendo ventajas distintas según tu entorno de despliegue y los requisitos heredados.
YOLOv5: El caballo de batalla de la industria
Lanzado en el verano de 2020, YOLOv5 se convirtió rápidamente en un estándar de la industria debido a su implementación nativa en PyTorch, lo que redujo drásticamente la barrera de entrada para el entrenamiento y el despliegue. Se alejó de los complejos marcos Darknet C de sus predecesores, ofreciendo un enfoque basado en Python para la creación de modelos.
- Autores: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: ultralytics/yolov5
- Documentación: Documentación de YOLOv5
YOLOv5 estableció una base sólida para la facilidad de uso e introdujo metodologías de entrenamiento potentes, incluyendo la aumentación de datos de mosaico avanzada y el auto-anclaje (auto-anchoring). Sigue siendo increíblemente popular entre los investigadores que desarrollan sobre una base de código bien documentada y ampliamente probada.
YOLO11: el marco de trabajo de visión unificado
Basándose en años de comentarios e investigación arquitectónica, YOLO11 se introdujo como parte de un marco unificado capaz de manejar múltiples tareas de visión de forma nativa. Más allá de las simples cajas delimitadoras, fue diseñado desde cero para lograr la máxima versatilidad y eficiencia.
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: ultralytics/ultralytics
- Documentación: Documentación de YOLO11
YOLO11 ofrece una experiencia de usuario optimizada a través del paquete de Python ultralytics, que cuenta con una API sencilla que unifica la detección de objetos, la segmentación de instancias, la clasificación, la estimación de poses y las cajas delimitadoras orientadas (OBB). Logra un equilibrio muy favorable entre velocidad y precisión, lo que lo hace ideal para diversos escenarios de despliegue en el mundo real.
Ambos modelos se benefician del ecosistema bien mantenido que proporciona la Plataforma Ultralytics. Este entorno integrado simplifica el etiquetado de conjuntos de datos, el entrenamiento en la nube y la exportación de modelos a diversos objetivos de hardware.
Comparación de rendimiento y métricas
Una comparativa directa de estos modelos revela cómo las mejoras arquitectónicas se traducen en ganancias de rendimiento tangibles. La tabla siguiente ilustra la precisión media media (mAP) evaluada en el conjunto de datos COCO, junto con las velocidades de inferencia en CPU y GPU y el número de parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análisis de los resultados
Las métricas destacan un claro salto en el equilibrio de rendimiento logrado por YOLO11. Por ejemplo, el modelo YOLO11n (nano) consigue un mAP del 39,5 % frente al 28,0 % del YOLOv5n, reduciendo al mismo tiempo el tiempo de inferencia en CPU cuando se exporta a través de ONNX. Además, YOLO11 mantiene unos requisitos de memoria notablemente inferiores durante el entrenamiento en comparación con los pesados modelos basados en Transformer, lo que lo hace muy accesible para su despliegue en hardware de consumo y dispositivos de borde (edge).
Diferencias arquitectónicas
Las mejoras de rendimiento en YOLO11 provienen de varias evoluciones arquitectónicas clave. Mientras que YOLOv5 utilizaba una estructura (backbone) CSPNet estándar con módulos C3, YOLO11 introdujo bloques de extracción de características más eficientes como C2f y posteriormente C3k2, que optimizan el flujo de gradiente y reducen la sobrecarga computacional.
YOLO11 también cuenta con una cabeza (head) muy perfeccionada. Alejándose del diseño basado en anclajes (anchors) de los modelos antiguos, las nuevas arquitecturas de Ultralytics adoptan un enfoque sin anclajes. Esto reduce el número de predicciones de cajas, simplificando la canalización de postprocesamiento y mejorando la capacidad del modelo para generalizar entre diferentes escalas y relaciones de aspecto. Además, estos modelos cuentan con una mayor eficiencia de entrenamiento y pesos preentrenados fácilmente disponibles que aceleran la convergencia de los conjuntos de datos ajustados.
Implementación y ejemplos de código
Una de las características más destacadas del ecosistema Ultralytics es su sencillez. Si bien YOLOv5 popularizó el uso de torch.hub para una inferencia rápida, YOLO11 va un paso más allá con el paquete de Python unificado ultralytics.
Entrenar con YOLO11
Cargar, entrenar y validar un modelo requiere una cantidad mínima de código repetitivo (boilerplate). La API gestiona el ajuste de hiperparámetros y la gestión del modelo de forma fluida.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")
# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")Inferencia heredada con YOLOv5
Si mantienes una canalización antigua, YOLOv5 se integra directamente con el mecanismo de carga nativo de PyTorch, haciendo trivial su incorporación a los scripts de inferencia existentes.
import torch
# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")
# Print prediction details to the console
results.print()Ambos modelos admiten amplios formatos de exportación. Ya sea que te dirijas a un NVIDIA Jetson utilizando TensorRT o a una aplicación iOS utilizando CoreML, el proceso de despliegue está exhaustivamente documentado y respaldado por la comunidad.
Casos de uso ideales
Elegir entre estos modelos depende en gran medida de la etapa del ciclo de vida de tu proyecto y de tus requisitos específicos.
Cuándo elegir YOLOv5
- Mantenimiento de bases de código heredadas: Si tu entorno de producción está fuertemente personalizado en torno a la estructura del repositorio de YOLOv5 o técnicas específicas de evolución de hiperparámetros.
- Bases académicas: Al publicar investigaciones que requieren una evaluación comparativa directa con los estándares de visión artificial establecidos entre 2020 y 2022.
Cuándo elegir YOLO11
- Proyectos de tareas múltiples: Cuando tu aplicación requiere una combinación de tareas como estimación de poses y segmentación de instancias utilizando una única API unificada.
- Despliegues en el borde (Edge): Para escenarios de computación en el borde donde es fundamental exprimir el máximo mAP para un presupuesto computacional (FLOPs) dado.
- Soluciones de IA comercial: Ideal para aplicaciones empresariales en comercio minorista y seguridad, aprovechando el sólido soporte de la Plataforma Ultralytics.
La próxima generación: Ultralytics YOLO26
Si bien YOLO11 representa un equilibrio fantástico entre velocidad y precisión, el campo de la inteligencia artificial evoluciona rápidamente. Para los desarrolladores que comienzan hoy nuevos proyectos, recomendamos encarecidamente explorar el último estándar en IA de visión: Ultralytics YOLO26.
Lanzado en enero de 2026, YOLO26 introduce avances que cambian el paradigma diseñados específicamente para las necesidades de despliegue modernas:
- Diseño integral sin NMS: Basándose en conceptos iniciados por primera vez en YOLOv10, YOLO26 es nativamente integral. Elimina la necesidad de postprocesamiento de supresión de no máximos (NMS), lo que simplifica significativamente las canalizaciones de despliegue y reduce la latencia.
- Optimizador MuSGD: Inspirado en las innovaciones de entrenamiento de LLM de modelos como Kimi K2 de Moonshot AI, este híbrido de SGD y Muon garantiza un entrenamiento increíblemente estable y una convergencia dramáticamente más rápida.
- Velocidad de CPU sin precedentes: Al eliminar la pérdida focal de distribución (DFL), YOLO26 logra una inferencia en CPU hasta un 43 % más rápida, lo que lo convierte en la elección absoluta para dispositivos de borde y entornos sin GPU dedicadas.
- Funciones de pérdida avanzadas: La integración de ProgLoss y STAL produce mejoras notables en el reconocimiento de objetos pequeños, algo crítico para el análisis de drones, el IoT y la robótica.
- Mejoras específicas para tareas: Introduce optimizaciones especializadas, como la estimación de log-verosimilitud residual (RLE) para poses y una pérdida de ángulo especializada para cajas delimitadoras orientadas, asegurando un rendimiento superior en todas las tareas de visión artificial.
Para los usuarios interesados en arquitecturas especializadas más allá de la detección de objetos estándar, también puedes explorar modelos como RT-DETR para detección basada en Transformer, o YOLO-World para seguimiento y detección de vocabulario abierto. Adoptar estas herramientas bien mantenidas y altamente optimizadas garantiza que tus canalizaciones de visión artificial sigan siendo eficientes, escalables y a la vanguardia.