Ir al contenido

YOLOv5 vs YOLO11: Una comparación técnica exhaustiva

Al elegir la arquitectura de visión por computadora adecuada para un nuevo proyecto, comprender la evolución de los modelos de vanguardia es crucial. La progresión de arquitecturas anteriores a marcos unificados modernos destaca avances significativos tanto en la eficiencia algorítmica como en la experiencia del desarrollador. Esta guía ofrece una comparación técnica en profundidad entre dos modelos emblemáticos desarrollados por Ultralytics: el pionero YOLOv5 y el altamente refinado YOLO11.

Introducción a los modelos

Ambas arquitecturas representan hitos significativos en el campo de la detección de objetos en tiempo real, ofreciendo ventajas distintas según su entorno de despliegue y requisitos de legado.

YOLOv5: El caballo de batalla de la industria

Lanzado en el verano de 2020, YOLOv5 se convirtió rápidamente en un estándar de la industria debido a su implementación nativa en PyTorch, lo que redujo drásticamente la barrera de entrada para el entrenamiento y despliegue. Se alejó de los complejos frameworks Darknet C de sus predecesores, ofreciendo un enfoque Pythonic para la construcción de modelos.

YOLOv5 estableció una sólida base para la facilidad de uso e introdujo potentes metodologías de entrenamiento, incluyendo la aumentación de datos mosaico avanzada y el auto-anclaje. Sigue siendo increíblemente popular entre los investigadores que construyen sobre una base de código bien documentada y exhaustivamente probada.

Más información sobre YOLOv5

YOLO11: El Marco de Visión Unificado

Basándose en años de retroalimentación e investigación arquitectónica, YOLO11 se introdujo como parte de un framework unificado capaz de manejar múltiples tareas de visión de forma nativa. Yendo más allá de las simples cajas delimitadoras, fue diseñado desde cero para una máxima versatilidad y eficiencia.

YOLO11 ofrece una experiencia de usuario optimizada a través de la ultralytics paquete Python, que cuenta con una API sencilla que unifica detección de objetos, segmentación de instancias, clasificación, estimación de pose y cajas delimitadoras orientadas (OBB). Logra un equilibrio muy favorable entre velocidad y precisión, lo que lo hace ideal para diversos escenarios de despliegue en el mundo real.

Más información sobre YOLO11

Plataforma Integrada

Ambos modelos se benefician del ecosistema bien mantenido proporcionado por la Plataforma Ultralytics. Este entorno integrado simplifica la anotación de conjuntos de datos, el entrenamiento en la nube y la exportación de modelos a través de diversos objetivos de hardware.

Comparación de rendimiento y métricas

Una comparación directa de estos modelos revela cómo los refinamientos arquitectónicos se traducen en ganancias de rendimiento tangibles. La tabla a continuación ilustra la precisión media promedio (mAP) evaluada en el conjunto de datos COCO, junto con las velocidades de inferencia de CPU y GPU y el recuento de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analizando los Resultados

Las métricas destacan un claro salto en el equilibrio de rendimiento logrado por YOLO11. Por ejemplo, el modelo YOLO11n (nano) alcanza un mAP del 39.5% en comparación con el 28.0% de YOLOv5n, al tiempo que reduce el tiempo de inferencia de la CPU cuando se exporta a través de ONNX. Además, YOLO11 mantiene requisitos de memoria notablemente más bajos durante el entrenamiento en comparación con los modelos pesados basados en transformadores, lo que lo hace altamente accesible para su implementación en hardware de consumo y dispositivos de borde.

Diferencias Arquitectónicas

Las mejoras de rendimiento en YOLO11 provienen de varias evoluciones arquitectónicas clave. Mientras que YOLOv5 utilizó un backbone CSPNet estándar con módulos C3, YOLO11 introdujo bloques de extracción de características más eficientes como C2f y posteriormente C3k2, que optimizan el flujo de gradientes y reducen la sobrecarga computacional.

YOLO11 también presenta un cabezal altamente refinado. Alejándose del diseño basado en anclas de los modelos más antiguos, las nuevas arquitecturas de Ultralytics adoptan un enfoque sin anclas. Esto reduce el número de predicciones de cajas, optimizando la pipeline de post-procesamiento y mejorando la capacidad del modelo para generalizar en diferentes escalas y relaciones de aspecto. Además, estos modelos presumen de una eficiencia de entrenamiento superior y pesos preentrenados fácilmente disponibles que aceleran la convergencia de conjuntos de datos ajustados.

Implementación y Ejemplos de Código

Una de las características destacadas del ecosistema Ultralytics es su simplicidad. Mientras YOLOv5 popularizó el uso de torch.hub para inferencia rápida, YOLO11 lleva esto un paso más allá con el unificado ultralytics paquete python.

Entrenamiento con YOLO11

Cargar, entrenar y validar un modelo requiere un código repetitivo mínimo. La API gestiona la optimización de hiperparámetros y la gestión de modelos sin problemas.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Inferencia de Legado con YOLOv5

Si está manteniendo un pipeline antiguo, YOLOv5 se integra directamente con el mecanismo de carga nativo de PyTorch, lo que facilita su incorporación en scripts de inferencia existentes.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()

Flexibilidad de implementación

Ambos modelos admiten amplios formatos de exportación. Ya sea que su objetivo sea un NVIDIA Jetson utilizando TensorRT o una aplicación iOS usando CoreML, el proceso de despliegue está exhaustivamente documentado y respaldado por la comunidad.

Casos de Uso Ideales

La elección entre estos modelos depende en gran medida de la etapa del ciclo de vida de su proyecto y de los requisitos específicos.

Cuándo elegir YOLOv5

  • Mantenimiento de bases de código heredadas: Si su entorno de producción está altamente personalizado en torno a la estructura del repositorio de YOLOv5 o a técnicas específicas de evolución de hiperparámetros.
  • Bases Académicas: Al publicar investigaciones que requieren una evaluación comparativa directa con los estándares establecidos de visión por computadora de 2020-2022.

Cuándo elegir YOLO11

  • Proyectos Multitarea: Cuando su aplicación requiere una combinación de tareas como estimación de pose y segmentación de instancias utilizando una única API unificada.
  • Despliegues en el Borde: Para escenarios de computación en el borde donde obtener el mAP máximo para un presupuesto computacional dado (FLOPs) es crítico.
  • Soluciones de IA comerciales: Ideales para aplicaciones empresariales en comercio minorista y seguridad, aprovechando el sólido soporte de la Plataforma Ultralytics.

La Siguiente Generación: Ultralytics YOLO26

Si bien YOLO11 representa un fantástico equilibrio entre velocidad y precisión, el campo de la inteligencia artificial evoluciona rápidamente. Para los desarrolladores que inician nuevos proyectos hoy, recomendamos encarecidamente explorar el último estándar en IA de visión: Ultralytics YOLO26.

Lanzado en enero de 2026, YOLO26 introduce avances que cambian el paradigma, diseñados específicamente para las necesidades de despliegue modernas:

  • Diseño de extremo a extremo sin NMS: Basándose en conceptos pioneros en YOLOv10, YOLO26 es nativamente de extremo a extremo. Elimina la necesidad de postprocesamiento de Supresión No Máxima (NMS), simplificando significativamente los pipelines de despliegue y reduciendo la latencia.
  • Optimizador MuSGD: Inspirado en las innovaciones del entrenamiento de LLM de modelos como Kimi K2 de Moonshot AI, este híbrido de SGD y Muon garantiza un entrenamiento increíblemente estable y una convergencia drásticamente más rápida.
  • Velocidad de CPU Sin Precedentes: Al eliminar la Pérdida Focal de Distribución (DFL), YOLO26 logra hasta un 43% más rápido en la inferencia de CPU, lo que lo convierte en la mejor opción para dispositivos de borde y entornos sin GPU dedicadas.
  • Funciones de Pérdida Avanzadas: La integración de ProgLoss y STAL produce mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para el análisis de drones, el IoT y la robótica.
  • Mejoras Específicas de Tarea: Introduce optimizaciones especializadas, como la Estimación de Log-Verosimilitud Residual (RLE) para Pose y una pérdida de ángulo especializada para cajas delimitadoras orientadas, asegurando un rendimiento superior en todas las tareas de visión por computadora.

Más información sobre YOLO26

Para los usuarios interesados en arquitecturas especializadas más allá de la detect de objetos estándar, también pueden explorar modelos como RT-DETR para detect basada en transformadores, o YOLO-World para track y detect de vocabulario abierto. Adoptar estas herramientas bien mantenidas y altamente optimizadas asegura que sus pipelines de visión por computadora sigan siendo eficientes, escalables y a la vanguardia.


Comentarios