YOLO YOLOv5: comparación técnica de arquitectura y rendimiento

En el panorama en rápida evolución de la visión artificial, seleccionar la arquitectura de detección de objetos adecuada es fundamental para equilibrar la precisión, la velocidad y la eficiencia de los recursos. Esta guía ofrece una comparación técnica exhaustiva entre YOLO, un modelo basado en la búsqueda de arquitectura neuronal (NAS) de Alibaba Group, y YOLOv5, el legendario modelo ampliamente adoptado de Ultralytics.

Resumen Ejecutivo

Mientras que YOLO introduce conceptos innovadores como la búsqueda de arquitectura neuronal (NAS) y la reparametrización pesada para obtener una mayor precisión en el COCO , YOLOv5 sigue siendo el estándar del sector en cuanto a facilidad de uso, preparación para la implementación y compatibilidad con el ecosistema.

Para los desarrolladores que buscan lo último en tecnología en 2026, YOLO26 es la ruta de actualización recomendada. Combina la facilidad de uso de YOLOv5 avances arquitectónicos como un diseño integral NMS y el optimizador MuSGD, superando a ambos modelos anteriores en eficiencia y velocidad.

YOLO: Arquitectura e innovaciones

Desarrollado por investigadores del Grupo Alibaba,YOLO en superar los límites de velocidad y precisión mediante el diseño automatizado de arquitecturas.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23 de noviembre de 2022
Enlaces:Arxiv, GitHub

Características arquitectónicas clave

Búsqueda de arquitectura neuronal (NAS): a diferencia de las estructuras base creadas manualmente,YOLO MAE-NAS (método de detención temprana auxiliar) para descubrir automáticamente estructuras base eficientes adaptadas a diferentes restricciones de latencia.
RepGFPN (FPN generalizado parametrizado por Rep eficiente): emplea un novedoso cuello de fusión de características que optimiza la ruta del flujo de información a través de diferentes escalas, aprovechando la reparametrización para mantener la rapidez de la inferencia y maximizar la riqueza de características.
ZeroHead: un cabezal de detección ligero que reduce significativamente la carga computacional en comparación con los cabezales desacoplados tradicionales.
AlignedOTA: una estrategia dinámica de asignación de etiquetas que resuelve los problemas de desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

Fortalezas y Debilidades

YOLO en los benchmarks académicos, mostrando a menudo mAP superiores para un número determinado de parámetros en comparación con YOLO anteriores YOLO . Sin embargo, su dependencia de estructuras NAS complejas puede dificultar su modificación o ajuste para hardware personalizado. La receta de entrenamiento «distillation-first» (destilación primero), que a menudo requiere un modelo de enseñanza pesado, también puede complicar el proceso de entrenamiento para los usuarios con recursos limitados.

Más información sobre DAMO-YOLO

YOLOv5: el estándar del sector

Lanzado por Ultralytics 2020, YOLOv5 la experiencia del usuario en la detección de objetos. No era solo un modelo, sino un marco completo y listo para su producción.

Autor: Glenn Jocher
Organización:Ultralytics
Fecha: 26 de junio de 2020
Enlaces:YOLOv5 , GitHub

Características arquitectónicas clave

CSP-Darknet Backbone: utiliza redes parciales entre etapas para mejorar el flujo de gradiente y reducir el cálculo, un diseño robusto y artesanal que equilibra eficazmente la profundidad y la amplitud.
PANet Neck: La red de agregación de rutas mejora significativamente el flujo de información, lo que ayuda al modelo a localizar mejor los objetos mediante la fusión de características de diferentes niveles de la red troncal.
Aumento de mosaico: una técnica pionera de aumento de datos que combina cuatro imágenes de entrenamiento en una sola, lo que permite al modelo aprender a detect en diferentes escalas y contextos de manera eficaz.
Anclaje automático: calcula automáticamente los mejores cuadros de anclaje para su conjunto de datos específico, lo que simplifica el proceso de configuración de datos personalizados.

Fortalezas y Debilidades

La mayor fortaleza YOLOv5 es su universalidad. Funciona en todo tipo de dispositivos, desde servidores en la nube hasta Raspberry Pi y iPhones a través de CoreML. Su estrategia de entrenamiento «bag-of-freebies» garantiza un alto rendimiento sin configuraciones complejas. Si bien su mAP bruto mAP COCO inferior al de modelos de investigación más recientes comoYOLO, su fiabilidad en el mundo real, su exportabilidad y el enorme apoyo de la comunidad lo mantienen muy relevante.

Más información sobre YOLOv5

Métricas de rendimiento

La siguiente tabla compara el rendimiento de ambos modelos. Tenga en cuenta queYOLO mAP una optimización NAS intensiva, mientras que YOLOv5 la velocidad y la facilidad de exportación.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Contexto de Rendimiento

AunqueYOLO mAP más alto mAP tamaños de modelo similares, la velocidad de inferencia en el mundo real suele depender del soporte de hardware para capas específicas (como los bloques RepVGG), que pueden requerir pasos de exportación específicos para plegarse correctamente. Las operaciones estándar YOLOv5 están optimizadas de forma universal en casi todos los motores de inferencia.

Recomendaciones de casos de uso

A la hora de decidir entre estas dos arquitecturas, tenga en cuenta las necesidades específicas de su entorno de implementación.

Escenarios Ideales para DAMO-YOLO

Investigación académica: si tu objetivo es estudiar NAS o exprimir hasta el último 0,1 % mAP una competición, la novedosa arquitecturaYOLO ofrece un terreno fértil para la experimentación.
GPU de gama alta: donde las restricciones de memoria y computación son escasas, y la métrica principal es la precisión en pruebas de rendimiento complejas.

Escenarios ideales para Ultralytics YOLOv5

Implementación en el borde: para dispositivos como NVIDIA o Raspberry Pi, la sencilla arquitectura YOLOv5 se exporta sin problemas a TensorRT y TFLite.
Prototipado rápido: la experiencia «de cero a héroe» le permite entrenar con un conjunto de datos personalizado y ver los resultados en cuestión de minutos.
Sistemas de producción: la estabilidad es clave. YOLOv5 sido probado en millones de implementaciones, lo que reduce el riesgo de fallos inesperados en los procesos de producción.

La ventaja de Ultralytics

Si bienYOLO interesantes contribuciones a la investigación, el Ultralytics ofrece ventajas distintivas para los desarrolladores que crean aplicaciones para el mundo real.

1. Facilidad de uso y ecosistema

Ultralytics unifica todo el flujo de trabajo. Puede gestionar conjuntos de datos, entrenar modelos en la nube e implementar en varios puntos finales sin salir del ecosistema. La documentación es muy completa y la comunidad es muy activa, lo que garantiza que nunca se quede atascado en un error durante mucho tiempo.

2. Versatilidad más allá de la detección

YOLO principalmente un detector de objetos. Por el contrario, Ultralytics admiten una gama más amplia de tareas esenciales para las aplicaciones modernas de IA:

Segmentación de instancias: enmascaramiento preciso de objetos a nivel de píxel.
Estimación de la postura: seguimiento de puntos clave en humanos o animales.
Cuadro delimitador orientado (OBB): detección de objetos girados, como barcos, en imágenes satelitales.
Clasificación de imágenes: categorización de imágenes completas.

3. Memoria y eficiencia de recursos

YOLO Ultralytics son conocidos por su uso eficiente de la memoria. A diferencia de las arquitecturas con transformadores pesados o los complejos procesos de destilación que acaparan la VRAM, los modelos como YOLOv5 YOLO26 a menudo se pueden entrenar en GPU de consumo (como una RTX 3060), lo que democratiza el acceso al entrenamiento de IA de alta gama.

4. Eficiencia de la formación

El entrenamiento deYOLO suele implicar una compleja fase de «destilación» que requiere un modelo maestro preentrenado. Ultralytics utilizan un enfoque simplificado denominado «bag-of-freebies» (bolsa de regalos). Solo hay que cargar los pesos preentrenados, indicar la configuración de los datos y el entrenamiento comienza inmediatamente con hiperparámetros optimizados.

Mirando hacia el futuro: YOLO26

Si vas a empezar un nuevo proyecto en 2026, ninguno de los anteriores es claramente el mejor. YOLO26 representa la cima de la eficiencia.

NMS de extremo a extremo: al eliminar la supresión no máxima (NMS), YOLO26 simplifica la lógica de implementación y reduce la varianza de la latencia de inferencia.
Optimizador MuSGD: Inspirado en el entrenamiento de LLM, este optimizador asegura una convergencia estable y tiempos de entrenamiento más rápidos.
Optimización de bordes: con la eliminación de la pérdida focal de distribución (DFL) y los bloques optimizados, YOLO26 logra una inferencia hasta un 43 % más rápida en las CPU en comparación con las generaciones anteriores, lo que lo convierte en la opción ideal para aplicaciones móviles y de IoT.

Más información sobre YOLO26

Ejemplo de código: Inferencia con Ultralytics

La simplicidad de la Ultralytics le permite cambiar entre generaciones de modelos sin esfuerzo.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize and save the results
for result in results:
    result.show()  # Display to screen
    result.save(filename="output.jpg")  # Save image to disk

Conclusión

TantoYOLO YOLOv5 desempeñado un papel importante en la historia de la detección de objetos.YOLO el potencial de la búsqueda de arquitectura neuronal, mientras que YOLOv5 el estándar en cuanto a usabilidad e implementación. Sin embargo, este campo evoluciona rápidamente. Para aquellos que exigen el mejor equilibrio entre velocidad, precisión y experiencia de desarrollo, Ultralytics se erige como la opción definitiva para las aplicaciones modernas de visión artificial.

Para profundizar más, considere revisar las comparaciones con otras arquitecturas, como YOLO11 EfficientDet o RT-DETR YOLOv8.

YOLO YOLOv5: comparación técnica de arquitectura y rendimiento

Resumen Ejecutivo

YOLO: Arquitectura e innovaciones

Características arquitectónicas clave

Fortalezas y Debilidades

YOLOv5: el estándar del sector

Características arquitectónicas clave

Fortalezas y Debilidades

Métricas de rendimiento

Recomendaciones de casos de uso

Escenarios Ideales para DAMO-YOLO

Escenarios ideales para Ultralytics YOLOv5

La ventaja de Ultralytics

1. Facilidad de uso y ecosistema

2. Versatilidad más allá de la detección

3. Memoria y eficiencia de recursos

4. Eficiencia de la formación

Mirando hacia el futuro: YOLO26

Ejemplo de código: Inferencia con Ultralytics

Conclusión

Comentarios