YOLOv5 vs YOLOv9: Una comparación técnica exhaustiva

La evolución de la detección de objetos en tiempo real ha estado marcada por rápidos avances en precisión y eficacia. Dos hitos significativos en este camino son Ultralytics YOLOv5un modelo que marcó la pauta en el sector en cuanto a facilidad de uso y despliegue, y YOLOv9una arquitectura centrada en la investigación que amplía los límites de la teoría del aprendizaje profundo.

Esta comparación técnica analiza sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudar a los desarrolladores e investigadores a seleccionar la herramienta adecuada para sus proyectos de visión artificial.

Ultralytics YOLOv5: El estándar de la industria en versatilidad

Desde su lanzamiento, YOLOv5 se ha convertido en uno de los modelos de IA de visión más populares a nivel mundial. Desarrollado por Ultralytics, prioriza la excelencia en ingeniería, la facilidad de uso y el rendimiento en el mundo real. Equilibra la velocidad y la precisión al tiempo que proporciona una experiencia de usuario perfecta a través de un ecosistema robusto.

Detalles técnicos:

Autores: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Documentación:https://docs.ultralytics.com/models/yolov5/

Arquitectura y Diseño

YOLOv5 utiliza un backbone CSPDarknet combinado con un neck PANet para una extracción y agregación de características eficientes. Su cabezal de detección basado en anclajes está altamente optimizado para la velocidad, lo que lo hace adecuado para una amplia gama de hardware. A diferencia de los modelos puramente académicos, YOLOv5 fue diseñado teniendo en cuenta la implementación, ofreciendo soporte nativo para iOS, Android y dispositivos edge.

Puntos fuertes clave

Ecosistema bien mantenido: YOLOv5 se beneficia de años de desarrollo activo, lo que se traduce en una documentación extensa, soporte de la comunidad e integraciones con herramientas como Ultralytics HUB.
Eficiencia del Entrenamiento: Es famoso por sus rápidos tiempos de entrenamiento y sus menores requisitos de memoria en comparación con las arquitecturas basadas en transformadores, lo que lo hace accesible en las GPU de consumo estándar.
Versatilidad: Más allá de la detección, YOLOv5 admite de forma nativa la segmentación de instancias y la clasificación de imágenes, lo que permite a los desarrolladores abordar múltiples tareas de visión con un único framework.
Listo para la implementación: Con capacidades de exportación integradas a ONNX, TensorRT, CoreML y TFLite, el paso de la investigación a la producción se simplifica.

Más información sobre YOLOv5

YOLOv9: Innovación Arquitectónica para una Máxima Precisión

Lanzado en 2024, YOLOv9 se centra en resolver los problemas de pérdida de información en redes profundas. Introduce conceptos novedosos para mejorar la forma en que los datos se propagan a través del modelo, logrando resultados de última generación en puntos de referencia como COCO.

Detalles técnicos:

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentación:https://docs.ultralytics.com/models/yolov9/

Arquitectura e Innovaciones

YOLOv9 introduce dos avances arquitectónicos primarios:

Información de gradiente programable (PGI): Una técnica diseñada para mitigar el problema del cuello de botella de la información, asegurando que la información de entrada completa esté disponible para el cálculo de la función de pérdida.
Red de Agregación de Capas Eficiente Generalizada (GELAN): Una arquitectura de red ligera que optimiza la eficiencia de los parámetros, lo que permite que el modelo alcance una mayor precisión con menos parámetros que algunos predecesores.

Puntos fuertes clave

Alta Precisión: YOLOv9 establece benchmarks impresionantes para la precisión de la detection de objetos, particularmente en sus configuraciones más grandes (YOLOv9-E).
Eficiencia de parámetros: La arquitectura GELAN asegura que el modelo utilice los parámetros de manera efectiva, proporcionando una fuerte relación precisión-peso.
Avance Teórico: Aborda problemas fundamentales en el aprendizaje profundo con respecto a la preservación de la información en capas profundas.

Más información sobre YOLOv9

Comparación de rendimiento

Al comparar estos dos modelos, la compensación generalmente se encuentra entre la velocidad y la precisión absoluta. YOLOv9 logra puntajes de mAP^val más altos en el conjunto de datos COCO, lo que demuestra la efectividad de PGI y GELAN. Sin embargo, Ultralytics YOLOv5 sigue siendo un competidor formidable en la velocidad de inferencia, particularmente en las CPU y los dispositivos periféricos, donde su arquitectura optimizada brilla.

Equilibrio del rendimiento

Si bien YOLOv9 encabeza las listas de precisión, YOLOv5 a menudo proporciona un equilibrio más práctico para las aplicaciones en tiempo real, ofreciendo velocidades de inferencia significativamente más rápidas (ms) en hardware estándar, manteniendo al mismo tiempo capacidades de detección robustas.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Entrenamiento y recursos

Para los desarrolladores, la eficiencia del entrenamiento es a menudo tan crítica como la velocidad de inferencia. Ultralytics YOLOv5 es conocido por su simplicidad de "entrenar y listo". Por lo general, requiere menos memoria durante el entrenamiento en comparación con las arquitecturas más nuevas y complejas, especialmente los modelos basados en transformadores (como RT-DETR). Esta menor barrera de entrada permite a los usuarios entrenar modelos personalizados en configuraciones de hardware modestas.

YOLOv9, aunque eficiente en parámetros, puede requerir más recursos para entrenar debido a la complejidad de las ramas auxiliares utilizadas para PGI, que se eliminan durante la inferencia pero añaden sobrecarga durante el entrenamiento.

Ejemplo de código: Interfaz unificada

Una de las principales ventajas del ecosistema de Ultralytics es la API de python unificada. Puede cambiar entre YOLOv5 y YOLOv9 con una sola línea de código, lo que facilita enormemente la evaluación comparativa de ambos en su conjunto de datos específico.

from ultralytics import YOLO

# Load an Ultralytics YOLOv5 model (pre-trained on COCO)
model_v5 = YOLO("yolov5su.pt")

# Train the model on your custom data
results_v5 = model_v5.train(data="coco8.yaml", epochs=100, imgsz=640)

# Load a YOLOv9 model for comparison
model_v9 = YOLO("yolov9c.pt")

# Train YOLOv9 using the exact same API
results_v9 = model_v9.train(data="coco8.yaml", epochs=100, imgsz=640)

Casos de Uso Ideales

La elección entre estos modelos depende de las prioridades de su proyecto:

Cuándo elegir Ultralytics YOLOv5

Implementación en el borde: Ideal para Raspberry Pi, aplicaciones móviles y sistemas integrados donde cada milisegundo de latencia cuenta.
Prototipado Rápido: La facilidad de uso, los extensos tutoriales y el soporte de la comunidad permiten ciclos de desarrollo increíblemente rápidos.
Requisitos Multi-Tarea: Si su proyecto requiere segmentación o clasificación junto con la detection, YOLOv5 proporciona una solución unificada.
Limitaciones de recursos: Los proyectos con memoria GPU limitada para el entrenamiento se beneficiarán de la eficiencia de YOLOv5.

Cuándo elegir YOLOv9

Máxima precisión: Crítico para aplicaciones como imágenes médicas o inspección industrial de alta precisión donde perder una detección es costoso.
Investigación académica: Excelente para investigadores que exploran lo último en flujo de información de gradiente y diseño de arquitectura de red.
Hardware potente: Se utiliza mejor cuando se dispone de amplios recursos computacionales para el entrenamiento y la inferencia, con el fin de aprovechar todo su potencial.

Conclusión

Ambos modelos representan la excelencia en el campo de la visión artificial. Ultralytics YOLOv5 sigue siendo la opción pragmática para la mayoría de los desarrolladores, ya que ofrece una combinación imbatible de velocidad, fiabilidad y soporte del ecosistema. Es un caballo de batalla probado para la implementación en el mundo real. YOLOv9, por otro lado, ofrece una visión del futuro de la eficiencia arquitectónica, proporcionando una precisión de primer nivel para aquellos que la necesitan.

Para aquellos que buscan lo último en rendimiento y versatilidad, también recomendamos explorar YOLO11, que se basa en los puntos fuertes de YOLOv5 y YOLOv8 para ofrecer resultados de última generación en todas las métricas.

Explorar Otros Modelos

Si está interesado en explorar más a fondo, consulte estos modelos relacionados en el ecosistema de Ultralytics:

YOLO11: El último modelo SOTA que ofrece un rendimiento y una versatilidad superiores.
YOLOv8: Un potente modelo sin anclajes que admite detección, segmentación, pose y OBB.
RT-DETR: Un detector en tiempo real basado en transformadores para aplicaciones de alta precisión.

YOLOv5 vs YOLOv9: Una comparación técnica exhaustiva

Ultralytics YOLOv5: El estándar de la industria en versatilidad

Arquitectura y Diseño

Puntos fuertes clave

YOLOv9: Innovación Arquitectónica para una Máxima Precisión

Arquitectura e Innovaciones

Puntos fuertes clave

Comparación de rendimiento

Entrenamiento y recursos

Ejemplo de código: Interfaz unificada

Casos de Uso Ideales

Cuándo elegir Ultralytics YOLOv5

Cuándo elegir YOLOv9

Conclusión

Explorar Otros Modelos

Comentarios