YOLOv9 frente a YOLO11: evolución arquitectónica y análisis de rendimiento
El panorama de la visión por ordenador se define por la rápida innovación, con modelos que superan continuamente los límites de la precisión, la velocidad y la eficacia. Esta comparativa explora dos hitos significativos en la detección de objetos: YOLOv9un modelo centrado en la investigación que introduce conceptos arquitectónicos novedosos, y Ultralytics YOLO11la última evolución lista para la producción y diseñada para la versatilidad en el mundo real.
En YOLOv9 se centra en abordar los cuellos de botella del aprendizaje profundo de la información mediante avances teóricos, Ultralytics YOLO11 perfecciona el rendimiento de última generación (SOTA) centrándose en la facilidad de uso, la eficiencia y la integración perfecta en el ecosistemaUltralytics .
Métricas de rendimiento: Velocidad y precisión
La siguiente tabla presenta una comparación directa de las principales métricas de rendimiento evaluadas en el conjunto de datosCOCO . Al seleccionar un modelo, es crucial equilibrar la precisión mediamAP) con la velocidad de inferencia y el coste computacional (FLOPs).
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Como ilustran los datos, YOLO11 demuestra una eficiencia superior. Por ejemplo, el modelo Y OLO11n alcanza un mAP más alto (39,5%) que YOLOv9t (38,3%) al tiempo que utiliza menos FLOPs y funciona significativamente más rápido en GPU. Aunque el modelo YOLOv9e de mayor tamaño tiene una ligera ventaja en precisión bruta, requiere casi el doble de tiempo de inferencia que YOLO11l, lo que convierte a YOLO11 en la opción más pragmática para escenarios de inferencia en tiempo real.
YOLOv9: el cuello de botella de la información
YOLOv9 se lanzó con un objetivo académico específico: resolver el problema de la pérdida de información cuando los datos pasan por redes neuronales profundas. Su arquitectura está muy influida por la necesidad de retener la información del gradiente durante el entrenamiento.
Detalles técnicos:
Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics
Principales características arquitectónicas
Las principales innovaciones de YOLOv9 son la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN).
- IGP: Este marco de supervisión auxiliar garantiza que las capas profundas reciban información de gradiente fiable, mitigando el "cuello de botella informativo" que a menudo dificulta la convergencia de las redes profundas.
- GELAN: Esta arquitectura optimiza la eficiencia de los parámetros combinando los puntos fuertes de CSPNet y ELAN, lo que permite un escalado computacional flexible.
Enfoque académico
YOLOv9 constituye un excelente caso de estudio para los investigadores interesados en la teoría del aprendizaje profundo, concretamente en lo que respecta al flujo de gradiente y la preservación de la información en redes neuronales convolucionales.
Ultralytics YOLO11: la versatilidad se une a la eficiencia
Basándose en el legado de YOLOv8YOLO11 representa la cúspide de la visión por ordenador orientada a la producción. No solo se ha diseñado para obtener puntuaciones de referencia, sino también para ofrecer un despliegue práctico, facilidad de uso y capacidad multitarea.
Detalles técnicos:
Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11
Principales características arquitectónicas
YOLO11 introduce una arquitectura refinada diseñada para maximizar la extracción de características minimizando la sobrecarga computacional. Emplea una estructura mejorada de columna vertebral y cuello que mejora la integración de características a distintas escalas, lo que es fundamental para detectar objetos pequeños.
El modelo también presenta diseños de cabeza mejorados para una convergencia más rápida durante el entrenamiento. A diferencia de los modelos centrados en la investigación, YOLO11 se ha creado dentro de un marco unificado que admite de forma nativa la detección, segmentación, clasificación, estimación de poses y cajas delimitadoras orientadas (OBB).
Puntos de comparación detallados
Facilidad de uso y ecosistema
Una de las diferencias más significativas radica en la experiencia del usuario. Ultralytics YOLO11 se ha diseñado con una mentalidad de "desarrollador primero". Se integra a la perfección con el ecosistema más amplio de Ultralytics , que incluye herramientas para la anotación de datos, la gestión de conjuntos de datos y la exportación de modelos.
- YOLO11: Se puede entrenar, validar y desplegar con unas pocas líneas de código utilizando la aplicación
ultralyticsPaquete Python o CLI. Se beneficia de actualizaciones frecuentes, amplia documentación y una comunidad masiva. - YOLOv9: Aunque se admite en la biblioteca Ultralytics , la implementación original y algunas configuraciones avanzadas pueden requerir un conocimiento más profundo del trabajo de investigación subyacente.
Requisitos de memoria y eficacia del entrenamiento
La utilización eficiente de los recursos es una característica distintiva de los modelos Ultralytics . YOLO está optimizado para requerir menos memoria CUDA durante el entrenamiento en comparación con muchas alternativas basadas en transformadores o iteraciones anteriores de YOLO . Esto permite a los desarrolladores entrenar lotes de mayor tamaño en hardware de consumo, lo que acelera el ciclo de desarrollo.
Además, YOLO11 ofrece pesos preentrenados de alta calidad y fácilmente disponibles para todas las tareas, lo que garantiza que el aprendizaje por transferencia sea rápido y eficaz. Esto contrasta con los modelos de investigación que pueden ofrecer puntos de control preentrenados limitados centrados principalmente en la detección de COCO .
Versatilidad de tareas
Aunque YOLOv9 es reconocido principalmente por sus logros en la detección de objetos, YOLO11 ofrece soporte nativo para una amplia gama de tareas de visión por ordenador dentro de un único marco:
- Segmentación de instancias: Enmascaramiento preciso de objetos.
- Estimación de la pose: Detección de puntos clave esqueléticos (por ejemplo, para la pose humana).
- Clasificación: Categorización de imágenes completas.
- Cajas delimitadoras orientadas (OBB): Detección de objetos girados, vital para las imágenes aéreas.
API unificada
Pasar de una tarea a otra en YOLO11 es tan sencillo como cambiar el archivo de pesos del modelo (por ejemplo, de yolo11n.pt para la detección a yolo11n-seg.pt para la segmentación).
Ejemplo de código: Comparación en acción
El siguiente código Python demuestra la facilidad con la que ambos modelos pueden cargarse y utilizarse en el marco de Ultralytics , destacando la API unificada que simplifica las pruebas de diferentes arquitecturas.
from ultralytics import YOLO
# Load the research-focused YOLOv9 model (compact version)
model_v9 = YOLO("yolov9c.pt")
# Load the production-optimized YOLO11 model (medium version)
model_11 = YOLO("yolo11m.pt")
# Run inference on a local image
# YOLO11 provides a balance of speed and accuracy ideal for real-time apps
results_11 = model_11("path/to/image.jpg")
# Display results
results_11[0].show()
Casos de Uso Ideales
Cuándo elegir YOLOv9
YOLOv9 es una opción excelente para la investigación académica y escenarios en los que la máxima precisión en imágenes estáticas es la única prioridad, independientemente del coste computacional.
- Proyectos de investigación: Investigación del flujo gradiente y la arquitectura de redes neuronales.
- Evaluación comparativa: Competiciones en las que cada fracción de mAP cuenta.
- Implantaciones de servidores de gama alta: Cuando se dispone de GPU potentes (como las A100) para manejar los FLOP más altos de la variante "E".
¿Cuándo elegir Ultralytics YOLO11?
YOLO11 es la opción recomendada para aplicaciones comerciales, computación de borde y sistemas multitarea.
- Edge AI: despliegue en dispositivos como NVIDIA Jetson o Raspberry Pi gracias a una relación velocidad-peso superior.
- Análisis en tiempo real: Supervisión del tráfico, análisis de deportes y control de calidad de la fabricación cuando la latencia es crítica.
- Pipelines complejos: Aplicaciones que requieren detección, segmentación y estimación de pose simultáneamente.
- Creación rápida de prototipos: Startups y empresas que necesitan pasar rápidamente del concepto a la implantación utilizando la API deUltralytics .
Otros modelos a explorar
Aunque YOLOv9 y YOLO11 son potentes contendientes, la biblioteca Ultralytics admite otros modelos adaptados a necesidades específicas:
- YOLOv8: El fiable predecesor de YOLO11, aún ampliamente utilizado y respaldado.
- RT-DETR: Detector basado en transformador que destaca por su precisión, pero puede requerir más memoria.
- YOLOv10: una arquitectura distinta centrada en la formación NMS para reducir la latencia en configuraciones específicas.
Explore toda la gama de opciones en la sección Comparación de modelos.
Conclusión
Ambas arquitecturas representan logros significativos en visión por ordenador. YOLOv9 aporta valiosos conocimientos teóricos sobre el entrenamiento de redes profundas, mientras que Ultralytics YOLO11 sintetiza estos avances en una herramienta robusta, versátil y altamente eficiente para el mundo. Para la mayoría de los desarrolladores e investigadores que buscan crear aplicaciones escalables y en tiempo real, el equilibrio entre rendimiento, facilidad de uso y soporte integral del ecosistema de YOLO11 lo convierten en la mejor opción.