DAMO-YOLO vs. YOLOv9: Avances en la detección de objetos en tiempo real
El panorama de la detección de objetos está en constante evolución, con investigadores que amplían continuamente los límites de la precisión, la latencia y la eficiencia. Dos arquitecturas destacadas que han causado un gran revuelo en la comunidad de la visión artificial son YOLO, desarrollada por Alibaba Group, y YOLOv9, creada por los investigadores de la Academia Sinica.
Aunque ambos modelos tienen como objetivo resolver el reto de la detección en tiempo real, abordan el problema con filosofías arquitectónicas distintas.YOLO la búsqueda de arquitectura neuronal (NAS) y una reparametrización intensiva para optimizar la baja latencia, mientras que YOLOv9 conceptos como la información de gradiente programable (PGI) para maximizar la retención de información durante el proceso de aprendizaje profundo.
YOLO: Eficiencia mediante la búsqueda de arquitecturas neuronales
YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once) se introdujo a finales de 2022, centrándose en equilibrar estrictamente el rendimiento y la velocidad para aplicaciones industriales.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 23/11/2022
Arxiv:YOLO: Informe sobre el diseño de la detección de objetos en tiempo real
GitHub:YOLO
Características arquitectónicas clave
YOLO basa en tres tecnologías principales diseñadas para sacar el máximo rendimiento de los recursos de hardware limitados:
- MAE-NAS Backbone: A diferencia de las redes troncales diseñadas manualmente,YOLO una búsqueda de arquitectura neuronal basada en un autoencoder enmascarado (MAE) para encontrar la estructura de red óptima. El resultado es una estructura que se adapta matemáticamente a restricciones computacionales específicas.
- RepGFPN eficiente: emplea una red piramidal de características generalizadas (GFPN) mejorada con mecanismos de reparametrización. Esto permite que el modelo disfrute de las ventajas de la fusión de características multiescala complejas durante el entrenamiento, al tiempo que se reduce a una estructura más simple y rápida durante la inferencia.
- ZeroHead y AlignedOTA: El cabezal de detección, denominado «ZeroHead», es extremadamente ligero para reducir la carga computacional de las capas de salida finales. Además, la estrategia de asignación de etiquetas, AlignedOTA, resuelve los problemas de desalineación entre las tareas de clasificación y regresión durante el entrenamiento.
Fortalezas y Debilidades
La principal ventaja deYOLO su relación entre latencia y precisión. Para hardware industrial específico, la red troncal derivada de NAS puede ofrecer un rendimiento superior. Sin embargo, la dependencia del modelo de un complejo proceso de entrenamiento de destilación, en el que primero se debe entrenar un modelo «maestro» más grande para guiar al modelo más pequeño, puede hacer que el proceso de entrenamiento resulte engorroso para los desarrolladores que necesitan iteraciones rápidas. Además, el ecosistema en torno aYOLO menos activo en comparación con la YOLO más amplia, lo que podría limitar el soporte para los nuevos objetivos de implementación.
YOLOv9: Aprendizaje con gradientes programables
YOLOv9, lanzado a principios de 2024, aborda el problema de la pérdida de información en las redes profundas. A medida que las redes neuronales convolucionales se vuelven más profundas, a menudo se pierden datos esenciales necesarios para mapear la entrada a la salida, un fenómeno conocido como «cuello de botella de la información».
- Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica
Fecha: 21/02/2024
Arxiv:YOLOv9: Aprender lo que quieres aprender utilizando información de gradiente programable
GitHub:WongKinYiu/yolov9
Características arquitectónicas clave
YOLOv9 dos conceptos innovadores para mitigar la pérdida de información:
- Información de gradiente programable (PGI): PGI es un marco de supervisión auxiliar que genera gradientes fiables para actualizar los pesos de la red, lo que garantiza que las capas profundas conserven la información semántica crítica. Incluye una rama auxiliar reversible que solo se utiliza durante el entrenamiento y se elimina para la inferencia, sin incurrir en ningún coste adicional en la implementación.
- GELAN (Red de agregación de capas eficiente generalizada): esta arquitectura combina las mejores características de CSPNet y ELAN. GELAN está diseñada para ser ligera y rápida, al tiempo que admite diferentes bloques computacionales, lo que permite un control estricto del número de parámetros sin sacrificar el campo receptivo.
Fortalezas y Debilidades
YOLOv9 por su precisión, estableciendo nuevos puntos de referencia en el COCO . Su capacidad para retener información lo hace excepcional para detectar objetos difíciles que otros modelos podrían pasar por alto. Sin embargo, la complejidad arquitectónica introducida por las ramas auxiliares puede hacer que el código base sea más difícil de modificar para tareas personalizadas en comparación con diseños modulares más simples. Aunque es muy eficaz en las GPU, es posible que las agregaciones de capas específicas no estén totalmente optimizadas para todos los dispositivos periféricos CPU en comparación con los modelos diseñados específicamente para esos objetivos.
Comparación de rendimiento
La siguiente tabla destaca las métricas de rendimiento deYOLO YOLOv9. Obsérvese la relación entre el número de parámetros, la carga computacional (FLOP) y la precisión (mAP).
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Mientras YOLOv9 alcanza generalmente una mayor precisión máxima (hasta un 55,6 % mAP), YOLO ofrece un rendimiento competitivo en el régimen de modelos pequeños, aunque a costa de un mayor número de parámetros para la variante «tiny». YOLOv9t es significativamente más ligero en términos de FLOP (7,7 G frente a 18,1 G), lo que lo hace potencialmente mejor para dispositivos con recursos extremadamente limitados, a pesar de su menor mAP.
La Ventaja de Ultralytics: Presentamos YOLO26
Si bienYOLO YOLOv9 importantes logros académicos, los desarrolladores que se centran en la producción en el mundo real a menudo requieren una combinación de rendimiento de vanguardia, facilidad de uso y flexibilidad de implementación. Aquí es donde Ultralytics destaca como la opción superior para las aplicaciones modernas de IA.
¿Por qué YOLO26?
Lanzado en enero de 2026, YOLO26 se basa en el legado de generaciones anteriores, pero introduce cambios fundamentales en la arquitectura y la estabilidad del entrenamiento.
- Diseño integral NMS: a diferencia de YOLOv9 YOLO, que suelen requerir la supresión no máxima (NMS) para filtrar los cuadros delimitadores duplicados, YOLO26 es integral de forma nativa. Esto elimina por completo el paso NMS , lo que reduce la latencia y la varianza de la inferencia y simplifica considerablemente los procesos de implementación.
- Optimizador MuSGD: Inspirado en las innovaciones en el entrenamiento de modelos de lenguaje grandes (LLM), YOLO26 utiliza el optimizador MuSGD. Este híbrido de SGD Muon (de Kimi K2 de Moonshot AI) aporta una estabilidad sin precedentes al entrenamiento, lo que garantiza una convergencia más rápida y reduce la necesidad de un ajuste exhaustivo de los hiperparámetros.
- Eficiencia Edge-First: al eliminar la pérdida focal de distribución (DFL) y optimizar la arquitectura para CPU , YOLO26 alcanza velocidades CPU hasta un 43 % más rápidas. Esto lo convierte en el candidato ideal para la computación periférica en dispositivos como Raspberry Pi o teléfonos móviles que no cuentan con GPU.
- Detección mejorada de objetos pequeños: con la introducción de ProgLoss + STAL (aprendizaje autónomo de anclajes), YOLO26 presenta mejoras notables en el reconocimiento de objetos pequeños, un requisito fundamental para las imágenes de drones y los sensores IoT.
Flujo de trabajo optimizado con Ultralytics
Olvídese de las complejas tuberías de destilación o de las configuraciones manuales del entorno. Con la Ultralytics , puede gestionar sus conjuntos de datos, entrenar modelos YOLO26 en la nube e implementar en cualquier formato (ONNX, TensorRT, CoreML) con un solo clic.
Versatilidad Inigualable
AunqueYOLO principalmente un modelo de detección, el Ultralytics garantiza que YOLO26 admita una amplia gama de tareas desde el primer momento. Tanto si necesita segmentación de instancias, estimación de poses con estimación de log-verosimilitud residual (RLE) o detección de cuadros delimitadores orientados (OBB) para estudios aéreos, la API sigue siendo coherente y sencilla.
Ejemplo de código: Entrenamiento con Ultralytics
Python Ultralytics elimina la complejidad del entrenamiento de modelos avanzados. Puede cambiar entre YOLOv9 YOLO26 sin problemas.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Use GPU 0
)
# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")
Conclusión
La elección del modelo adecuado depende de tus limitaciones específicas. YOLO es una opción muy interesante si estás investigando arquitecturas NAS o tienes hardware que se beneficia específicamente de su estructura RepGFPN. YOLOv9 es una excelente opción para escenarios que exigen la mayor precisión posible en benchmarks académicos como COCO.
Sin embargo, para los desarrolladores y las empresas que buscan una solución lista para la producción, Ultralytics ofrece el paquete más atractivo. Su diseñoNMS, CPU y la integración con la Ultralytics reducen significativamente el tiempo de comercialización. Al combinar las fortalezas teóricas de los modelos anteriores con innovaciones prácticas como el optimizador MuSGD, YOLO26 garantiza que no solo obtenga un modelo, sino una solución de visión completa y preparada para el futuro.