YOLOv9 vs. YOLOv9: una comparación técnica exhaustiva

La evolución de la familia YOLO (You Only Look Once) ha estado marcada por la innovación continua en la arquitectura de las redes neuronales, equilibrando los compromisos críticos entre velocidad de inferencia, precisión y eficiencia computacional. Esta comparación profundiza en YOLOv7una versión que marcó un hito en 2022, conocida por su "bag-of-freebies" entrenable, y YOLOv9una arquitectura de 2024 que introduce la información de gradiente programable (PGI) para superar los cuellos de botella de información en las redes profundas.

Análisis de rendimiento y eficiencia

La transición de YOLOv7 a YOLOv9 representa un salto significativo en la eficiencia de los parámetros. Mientras que YOLOv7 se optimizó para superar los límites de la detección de objetos en tiempo real mediante redes de agregación de capas eficientes extendidas (E-ELAN), YOLOv9 introduce cambios arquitectónicos que le permiten alcanzar una mayor precisión mediamAP) con menos parámetros y operaciones en coma flotante (FLOP).

Para los desarrolladores centrados en el despliegue de IA en los bordes, esta eficiencia es crucial. Como se ilustra en la tabla siguiente, YOLOv9e alcanza un mAP dominante del 55,6%, superando al mayor YOLOv7x al tiempo que mantiene una huella computacional competitiva. Por el contrario, YOLOv9t, más pequeño, ofrece una solución ligera para dispositivos con grandes limitaciones, un nivel al que YOLOv7 no se dirige explícitamente con la misma granularidad.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv7: Optimizar la bolsa de regalos entrenable

Lanzado en julio de 2022, YOLOv7 introdujo varias reformas estructurales en la arquitectura de YOLO , centrándose en optimizar el proceso de formación sin aumentar el coste de inferencia.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv:YOLOv7: una bolsa de regalos entrenable establece un nuevo estado de la técnica
GitHub:WongKinYiu/yolov7

Arquitectura destacada

YOLOv7 utiliza E-ELAN (Extended Efficient Layer Aggregation Network), que controla las rutas de gradiente más cortas y más largas para permitir que la red aprenda más características de forma eficaz. También popularizó el escalado de modelos basados en concatenación, permitiendo escalar simultáneamente la profundidad y la anchura. Una innovación clave fue la convolución re-parametrizada planificada, que racionaliza la arquitectura del modelo durante la inferencia para aumentar la velocidad.

Legado

Aunque YOLOv7 sigue siendo un modelo capaz, carece del soporte nativo para las nuevas optimizaciones que se encuentran en el ecosistemaUltralytics . Los desarrolladores pueden encontrar más difícil la integración con las herramientas modernas de MLOps en comparación con las iteraciones más recientes.

Más información sobre YOLOv7

YOLOv9: resolver el cuello de botella de la información

YOLOv9, presentado a principios de 2024, aborda un problema fundamental en el aprendizaje profundo: la pérdida de información a medida que los datos pasan por capas sucesivas.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:YOLOv9: Aprender lo que se quiere aprender utilizando IGP
GitHub:WongKinYiu/yolov9

Arquitectura destacada

La principal innovación de YOLOv9 es la información de gradiente programable (PGI). En las redes profundas, puede perderse información útil durante el proceso feedforward, lo que da lugar a gradientes poco fiables. PGI proporciona un marco de supervisión auxiliar que garantiza la conservación de la información clave para la función de pérdida. Además, la Red de Agregación de Capas Eficiente Generalizada (GELAN) amplía las capacidades de ELAN al permitir el bloqueo arbitrario, maximizando el uso de parámetros y recursos computacionales.

Esta arquitectura hace que YOLOv9 sea excepcionalmente potente para tareas de detección complejas, como la detección de objetos pequeños en entornos desordenados o el análisis de imágenes aéreas de alta resolución.

Más información sobre YOLOv9

Por qué los modelos Ultralytics YOLO11 y YOLOv8) son la opción preferida

Mientras que YOLOv7 y YOLOv9 son logros académicos impresionantes, el Ultralytics YOLO que incluye YOLOv8 y el vanguardista YOLO11-está diseñada específicamente para el desarrollo de aplicaciones prácticas en el mundo real. Estos modelos priorizan la facilidad de uso, la integración en el ecosistema y la eficiencia operativa, lo que los convierte en la mejor opción para la mayoría de los equipos de ingeniería.

Experiencia de usuario optimizada

Los modelos Ultralytics están envueltos en una APIPython unificada que abstrae las complejidades de los procesos de formación. El cambio entre las tareas de detección de objetos, segmentación de instancias, estimación de poses y recuadro delimitador orientado (OBB ) solo requiere un cambio de argumento, una versatilidad de la que carecen las implementaciones estándar de YOLOv7 o YOLOv9 .

from ultralytics import YOLO

# Load a model (YOLO11 automatically handles architecture)
model = YOLO("yolo11n.pt")  # Load a pretrained model

# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Perform inference on an image
results = model("path/to/image.jpg")

Ecosistema bien mantenido

La elección de un modelo Ultralytics garantiza el acceso a un sólido ecosistema. Esto incluye una integración perfecta con Ultralytics HUB (y la próxima Ultralytics Platform) para la formación en la nube y la gestión de conjuntos de datos. Además, la comunidad activa y las actualizaciones frecuentes garantizan la compatibilidad con el hardware más reciente, como la exportación a TensorRT o OpenVINO para una velocidad de inferencia óptima.

Memoria y eficacia del entrenamiento

Los modelos Ultralytics son famosos por su eficacia de formación. A diferencia de los modelos basados en transformadores (como RT-DETR), que pueden consumir mucha memoria y converger con lentitud, los modelosYOLO de Ultralytics utilizan cargadores de datos optimizados y el aumento de Mosaic para proporcionar tiempos de entrenamiento rápidos con menores requisitos de memoria CUDA . Esto permite a los desarrolladores entrenar modelos de última generación en GPU de consumo.

Más información sobre YOLO11

Casos de Uso Ideales

Seleccionar el modelo adecuado depende de las limitaciones específicas de su proyecto.

Aplicaciones reales de YOLOv9

Investigación y evaluación comparativa: Ideal para estudios académicos que requieran la máxima precisión en el conjunto de datosCOCO .
Vigilancia de alta fidelidad: En escenarios como los sistemas de alarma de seguridad, donde una ganancia de precisión del 1-2% justifica una mayor complejidad de implementación.

Aplicaciones reales de YOLOv7

Sistemas heredados: Proyectos ya construidos en la Darknet o en los primeros ecosistemas PyTorch que requieren una cantidad estable y conocida sin refactorizar toda la base de código.

Aplicaciones reales de Ultralytics YOLO11

Ciudades inteligentes: Uso del seguimiento de objetos para el análisis del flujo de tráfico, donde la velocidad y la facilidad de despliegue son primordiales.
Sanidad:Análisis de imágenes médicas en las que a menudo es necesario segmentar y detectar simultáneamente.
Fabricación: Implantación de sistemas de control de calidad en dispositivos periféricos como NVIDIA Jetson o Raspberry Pi, que se benefician de las sencillas opciones de exportación a TFLite y ONNX.

Conclusión

Tanto YOLOv7 como YOLOv9 representan hitos significativos en la historia de la visión por ordenador. YOLOv9 ofrece una mejora convincente con respecto a la v7 gracias a su arquitectura PGI, que proporciona una mayor eficacia y precisión. Sin embargo, para los desarrolladores que buscan una solución versátil, fácil de usar y con un buen soporte, Ultralytics YOLO11 sigue siendo la opción recomendada. Su equilibrio entre rendimiento, documentación exhaustiva y capacidades multitareadetect, segment, classify, plantear) proporcionan el camino más rápido del concepto a la producción.

Explorar Otros Modelos

Para encontrar la solución perfecta para sus tareas específicas de visión computerizada, considere explorar estas otras comparaciones:

YOLOv9 vs. YOLOv9 - Compara la ampliamente adoptada v8 con la v9, centrada en la investigación.
YOLOv10 frente a YOLOv9: vea cómo se comporta YOLOv10 de extremo a extremo.
YOLO11 vs. YOLOv8 - Comprenda las mejoras de la última versión Ultralytics .
RT-DETR vs. YOLOv9 - Una mirada a la detección basada en transformadores vs. CNNs.

YOLOv9 vs. YOLOv9: una comparación técnica exhaustiva

Análisis de rendimiento y eficiencia

YOLOv7: Optimizar la bolsa de regalos entrenable

Arquitectura destacada

YOLOv9: resolver el cuello de botella de la información

Arquitectura destacada

Por qué los modelos Ultralytics YOLO11 y YOLOv8) son la opción preferida

Experiencia de usuario optimizada

Ecosistema bien mantenido

Memoria y eficacia del entrenamiento

Casos de Uso Ideales

Aplicaciones reales de YOLOv9

Aplicaciones reales de YOLOv7

Aplicaciones reales de Ultralytics YOLO11

Conclusión

Explorar Otros Modelos

Comentarios