Ir al contenido

YOLOv9 vs. YOLOv9: una comparación técnica exhaustiva

La evolución de la detección de objetos en tiempo real ha estado marcada por rápidos avances en precisión y eficacia. Dos hitos significativos en este camino son Ultralytics YOLOv5un modelo que marcó la pauta en el sector en cuanto a facilidad de uso y despliegue, y YOLOv9una arquitectura centrada en la investigación que amplía los límites de la teoría del aprendizaje profundo.

Esta comparativa técnica analiza sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudar a desarrolladores e investigadores a seleccionar la herramienta adecuada para sus proyectos de visión computerizada.

Ultralytics YOLOv5: el estándar del sector en versatilidad

Desde su lanzamiento, YOLOv5 se ha convertido en uno de los modelos de IA de visión más populares en todo el mundo. Desarrollado por Ultralytics, prioriza la excelencia en ingeniería, la facilidad de uso y el rendimiento en el mundo real. Equilibra velocidad y precisión a la vez que proporciona una experiencia de usuario fluida a través de un sólido ecosistema.

Detalles técnicos:

Arquitectura y Diseño

YOLOv5 utiliza una red troncal CSPDarknet combinada con un cuello PANet para la extracción y agregación eficientes de características. Su cabezal de detección basado en anclajes está altamente optimizado para la velocidad, por lo que es adecuado para una amplia gama de hardware. A diferencia de los modelos puramente académicos, YOLOv5 se ha diseñado pensando en la implantación, por lo que ofrece compatibilidad nativa con iOS, Androidy dispositivos edge.

Puntos fuertes

  • Ecosistema bien mantenido: YOLOv5 se beneficia de años de desarrollo activo, lo que se traduce en una amplia documentación, apoyo de la comunidad e integraciones con herramientas como Ultralytics HUB.
  • Eficiencia de entrenamiento: Es conocida por sus rápidos tiempos de entrenamiento y sus menores requisitos de memoria en comparación con las arquitecturas basadas en transformadores, lo que la hace accesible en GPU de consumo estándar.
  • Versatilidad: Más allá de la detección, YOLOv5 admite de forma nativa la segmentación de instancias y la clasificación de imágenes, lo que permite a los desarrolladores abordar múltiples tareas de visión con un único marco.
  • Preparado para el despliegue: Con funciones integradas de exportación a ONNX, TensorRTCoreML y TFLite, se agiliza el paso de la investigación a la producción.

Más información sobre YOLOv5

YOLOv9: innovación arquitectónica para la máxima precisión

Lanzamiento en 2024, YOLOv9 se centra en resolver los problemas de pérdida de información en redes profundas. Introduce conceptos novedosos para mejorar el modo en que los datos se propagan a través del modelo, logrando resultados de vanguardia en pruebas de referencia como COCO.

Detalles técnicos:

Arquitectura e Innovaciones

YOLOv9 introduce dos avances arquitectónicos fundamentales:

  1. Información de gradiente programable (PGI): Una técnica diseñada para mitigar el problema del cuello de botella de información, asegurando que la información de entrada completa está disponible para el cálculo de la función de pérdida.
  2. Red de Agregación de Capas Generalizada Eficiente (GELAN): Una arquitectura de red ligera que optimiza la eficiencia de los parámetros, lo que permite al modelo alcanzar una mayor precisión con menos parámetros que algunos predecesores.

Puntos fuertes

  • Alta precisión:YOLOv9 establece impresionantes puntos de referencia en cuanto a precisión de detección de objetos, especialmente en sus configuraciones más grandesYOLOv9).
  • Eficacia de los parámetros: La arquitectura GELAN garantiza que el modelo utilice los parámetros con eficacia, proporcionando una sólida relación precisión-peso.
  • Avance teórico: Aborda cuestiones fundamentales en el aprendizaje profundo relativas a la preservación de la información en capas profundas.

Más información sobre YOLOv9

Comparación de rendimiento

Al comparar estos dos modelos, el equilibrio suele estar entre la velocidad y la precisión absoluta. YOLOv9 obtiene puntuaciones mAPval más altas en el conjunto de datos COCO , lo que demuestra la eficacia de PGI y GELAN. Sin embargo, Ultralytics YOLOv5 sigue siendo un competidor formidable en velocidad de inferencia, sobre todo en CPU y dispositivos de borde, donde brilla su arquitectura optimizada.

Balance de resultados

Mientras que YOLOv9 encabeza las listas de precisión, YOLOv5 suele ofrecer un equilibrio más práctico para las aplicaciones en tiempo real, ya que ofrece velocidades de inferencia significativamente más rápidas (ms) en hardware estándar, al tiempo que mantiene unas sólidas capacidades de detección.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Formación y recursos

Para los desarrolladores, la eficacia de la formación es a menudo tan crítica como la velocidad de inferencia. Ultralytics YOLOv5 es conocido por su sencillez "entrenar y listo". Normalmente requiere menos memoria durante el entrenamiento en comparación con arquitecturas más nuevas y complejas, especialmente los modelos basados en transformadores (como RT-DETR). Esta menor barrera de entrada permite a los usuarios entrenar modelos personalizados en configuraciones de hardware modestas.

YOLOv9, aunque eficiente en parámetros, puede requerir más recursos para su entrenamiento debido a la complejidad de las ramas auxiliares utilizadas para PGI, que se eliminan durante la inferencia pero añaden sobrecarga durante el entrenamiento.

Ejemplo de código: Interfaz unificada

Una de las principales ventajas del ecosistema Ultralytics es la APIPython unificada. Puedes cambiar entre YOLOv5 y YOLOv9 con una sola línea de código, lo que facilita enormemente la evaluación comparativa de ambos en tu conjunto de datos específico.

from ultralytics import YOLO

# Load an Ultralytics YOLOv5 model (pre-trained on COCO)
model_v5 = YOLO("yolov5su.pt")

# Train the model on your custom data
results_v5 = model_v5.train(data="coco8.yaml", epochs=100, imgsz=640)

# Load a YOLOv9 model for comparison
model_v9 = YOLO("yolov9c.pt")

# Train YOLOv9 using the exact same API
results_v9 = model_v9.train(data="coco8.yaml", epochs=100, imgsz=640)

Casos de Uso Ideales

Elegir entre estos modelos depende de las prioridades de su proyecto:

Cuándo elegir Ultralytics YOLOv5

  • Despliegue Edge: Ideal para Raspberry Pi, aplicaciones móviles y sistemas integrados en los que cada milisegundo de latencia cuenta.
  • Creación rápida de prototipos: La facilidad de uso, los extensos tutoriales y el apoyo de la comunidad permiten ciclos de desarrollo increíblemente rápidos.
  • Requisitos multitarea: Si su proyecto requiere segmentación o clasificación junto con la detección, YOLOv5 ofrece una solución unificada.
  • Limitación de recursos: Los proyectos con memoria GPU limitada para el entrenamiento se beneficiarán de la eficiencia de YOLOv5.

Cuándo elegir YOLOv9

  • Máxima precisión: Fundamental para aplicaciones como la obtención de imágenes médicas o la inspección industrial de alta precisión, donde omitir una detección resulta costoso.
  • Investigación académica: Excelente para investigadores que exploran lo último en flujo de información gradiente y diseño de arquitectura de redes.
  • Hardware potente: se utiliza mejor cuando se dispone de amplios recursos computacionales para el entrenamiento y la inferencia a fin de aprovechar todo su potencial.

Conclusión

Ambos modelos representan la excelencia en el campo de la visión por ordenador. Ultralytics YOLOv5 sigue siendo la opción más pragmática para la mayoría de los desarrolladores, ya que ofrece una combinación imbatible de velocidad, fiabilidad y compatibilidad con el ecosistema. Se trata de un caballo de batalla probado para la implantación en el mundo real. YOLOv9ofrece un vistazo al futuro de la eficiencia arquitectónica, proporcionando una precisión de primer nivel para aquellos que la necesitan.

Para aquellos que buscan lo último en rendimiento y versatilidad, también recomendamos explorar YOLO11que se basa en los puntos fuertes de YOLOv5 y YOLOv8 para ofrecer resultados de vanguardia en todas las métricas.

Explorar Otros Modelos

Si está interesado en explorar más a fondo, eche un vistazo a estos modelos relacionados en el ecosistema Ultralytics :

  • YOLO11: El último modelo SOTA que ofrece un rendimiento y una versatilidad superiores.
  • YOLOv8: un potente modelo sin anclajes que admite detección, segmentación, pose y OBB.
  • RT-DETR: Detector en tiempo real basado en transformador para aplicaciones de alta precisión.

Comentarios