Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO frente a YOLOv9#

El panorama de la detección de objetos en tiempo real continúa evolucionando a un ritmo vertiginoso. A medida que los equipos de ingeniería y los investigadores se esfuerzan por lograr el equilibrio perfecto entre precisión, velocidad de inferencia y eficiencia computacional, han surgido dos arquitecturas notables en la comunidad investigadora: DAMO-YOLO y YOLOv9. Ambos modelos introducen importantes innovaciones arquitectónicas destinadas a ampliar los límites de lo que es posible en visión artificial.

Esta guía técnica detallada ofrece un análisis profundo de estos dos modelos, comparando sus enfoques arquitectónicos únicos, metodologías de entrenamiento y capacidades de despliegue en el mundo real. También exploraremos cómo el ecosistema de software más amplio desempeña un papel crucial en el desarrollo moderno de IA, destacando las ventajas de plataformas integradas como la Plataforma Ultralytics y la nueva generación de modelos como YOLO26.

Link to this sectionResumen ejecutivo: elegir la arquitectura adecuada#

Aunque ambos modelos representan hitos significativos en la investigación del aprendizaje profundo, responden a filosofías de despliegue ligeramente diferentes.

DAMO-YOLO destaca en entornos donde se puede utilizar la Búsqueda de Arquitectura Neuronal (NAS) pesada para extraer perfiles de rendimiento específicos, lo que lo convierte en un estudio interesante para el despliegue personalizado en el borde (edge). Por el contrario, YOLOv9 se centra intensamente en resolver los cuellos de botella de información del aprendizaje profundo, ofreciendo una eficiencia de parámetros excepcionalmente alta.

Sin embargo, para despliegues listos para producción, los equipos de ingeniería recomiendan constantemente aprovechar el ecosistema Ultralytics unificado. Para nuevos proyectos, el último modelo YOLO26 ofrece lo mejor de ambos mundos: precisión de vanguardia combinada con un diseño nativo de extremo a extremo que elimina la necesidad de un procesamiento posterior complejo.

Prepara tu pipeline de visión artificial para el futuro

Aunque DAMO-YOLO y YOLOv9 son modelos académicos potentes, su despliegue en producción a menudo requiere una ingeniería personalizada significativa. Utilizar Ultralytics YOLO26 proporciona acceso a un rendimiento de vanguardia con una API simplificada y fácil de mantener.

Link to this sectionEspecificaciones técnicas y autoría#

Comprender los orígenes y el enfoque de desarrollo de estos modelos proporciona un contexto esencial para sus respectivas fortalezas.

Link to this sectionDAMO-YOLO#

Desarrollado por investigadores de Alibaba Group, DAMO-YOLO se centra intensamente en la generación automatizada de arquitecturas y la fusión eficiente de características.

Más información sobre DAMO-YOLO

Link to this sectionYOLOv9#

Presentado como una solución a la pérdida de información en redes convolucionales profundas, YOLOv9 supera los límites teóricos de la preservación del gradiente durante el entrenamiento.

Aprende más sobre YOLOv9

Link to this sectionInnovaciones arquitectónicas#

Link to this sectionDAMO-YOLO: impulsado por la búsqueda de arquitectura neuronal#

DAMO-YOLO se diferencia por sus componentes altamente personalizados generados por máquina. Su estructura principal se genera mediante Búsqueda de Arquitectura Neuronal (NAS), dirigiéndose específicamente a la inferencia de baja latencia en diversos tipos de hardware.

La arquitectura cuenta con una RepGFPN (Red de Pirámide de Características Generalizada Reparametrizada) eficiente para la fusión de características, lo que mejora la detección de objetos a múltiples escalas sin aumentar excesivamente la carga computacional. Además, emplea un diseño ZeroHead para simplificar la cabecera de detección y utiliza AlignedOTA para la asignación de etiquetas, junto con un sofisticado proceso de mejora por destilación durante el entrenamiento. Aunque estas técnicas proporcionan una inferencia rápida, el proceso de destilación de múltiples etapas suele requerir una VRAM significativa y tiempos de entrenamiento prolongados.

Link to this sectionYOLOv9: resolviendo el cuello de botella de información#

YOLOv9 aborda un problema fundamental en las redes profundas: la pérdida gradual de información de los datos de entrada a medida que pasan por capas sucesivas.

Para combatir esto, los autores introdujeron la Información de Gradiente Programable (PGI), un marco de supervisión auxiliar diseñado para retener detalles cruciales para capas profundas, generando gradientes altamente fiables para las actualizaciones de peso. Junto a PGI se encuentra la arquitectura GELAN (Red de Agregación de Capas Eficiente Generalizada). GELAN optimiza la eficiencia de los parámetros combinando las fortalezas de CSPNet y ELAN, maximizando el flujo de información y minimizando estrictamente las Operaciones de Punto Flotante (FLOPs).

Link to this sectionAnálisis de rendimiento y métricas#

Al evaluar el rendimiento, ambos modelos demuestran una fuerte precisión media (mAP) en puntos de referencia estándar como COCO. YOLOv9 logra una mayor precisión absoluta en tamaños de modelo equivalentes, aprovechando su arquitectura PGI para mantener una alta fidelidad en conjuntos de datos difíciles.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Como se muestra arriba, YOLOv9-E logra la mayor precisión, mientras que las variantes más pequeñas de DAMO-YOLO y YOLOv9 mantienen velocidades de inferencia altamente competitivas mediante optimizaciones de TensorRT.

Link to this sectionMetodologías de entrenamiento y ecosistema#

Aunque la arquitectura bruta es importante, la usabilidad y la eficiencia de entrenamiento dictadas por el ecosistema de un modelo son primordiales para la aplicación en el mundo real.

La dependencia de DAMO-YOLO de la destilación de conocimiento a menudo requiere entrenar un modelo "profesor" engorroso antes de transferir el conocimiento al modelo "alumno" de destino. Este enfoque de investigación tradicional aumenta significativamente los requisitos de memoria y los tiempos del ciclo de entrenamiento. Del mismo modo, el repositorio original de YOLOv9 requiere navegar por archivos de configuración complejos que pueden ralentizar el desarrollo ágil.

Por el contrario, integrar modelos en la Plataforma Ultralytics transforma completamente la experiencia del desarrollador. El paquete de Python de Ultralytics abstrae el código repetitivo, permitiendo a los equipos manejar la aumentación de datos, el ajuste de hiperparámetros y la exportación de modelos sin esfuerzo.

Link to this sectionAplicaciones y casos de uso en el mundo real#

Las diferentes arquitecturas destacan naturalmente en industrias específicas según sus requisitos de recursos y perfiles de precisión.

  • DAMO-YOLO en Edge AI: Debido a sus backbones optimizados por NAS, DAMO-YOLO se explora con frecuencia en sistemas integrados donde la reparametrización específica del hardware es una necesidad estricta, como el despliegue de ASIC personalizados en el control de calidad de fabricación básico.
  • YOLOv9 en analítica de precisión: Con su alta eficiencia de parámetros y retención de gradiente impulsada por PGI, YOLOv9 es excelente para escenarios de detección de objetos densos, como el análisis de imágenes aéreas o el seguimiento de objetos pequeños en entornos minoristas concurridos.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre DAMO-YOLO y YOLOv9 depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias del ecosistema.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO es una buena opción para:

  • Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 se recomienda para:

  • Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
  • Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
  • Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics: avanzar hacia YOLO26#

Para los usuarios que comparan arquitecturas heredadas, la transición al ecosistema moderno de Ultralytics —específicamente los modelos YOLO26 más recientes— ofrece una ventaja sin igual.

YOLO26 altera fundamentalmente el panorama del despliegue a través de su diseño de extremo a extremo sin NMS. Al eliminar por completo el procesamiento posterior de Supresión de No Máximos (NMS), ofrece arquitecturas de despliegue más rápidas y drásticamente más simples. Junto con la eliminación de la Pérdida Focal de Distribución (DFL), YOLO26 ofrece una compatibilidad superior para dispositivos de borde y de baja potencia.

Además, YOLO26 incorpora el revolucionario optimizador MuSGD, un híbrido de Descenso de Gradiente Estocástico y optimizaciones Muon inspirado en las innovaciones de entrenamiento de modelos lingüísticos (LLM). Esto produce una convergencia de entrenamiento altamente estable mientras se mantiene una utilización de memoria notablemente baja en comparación con las alternativas pesadas en Transformers.

Entrenamiento simplificado con YOLO26

Gracias a la intuitiva API de Ultralytics, puedes entrenar un modelo YOLO26 de vanguardia con seguimiento de experimentos integrado en solo unas pocas líneas de Python.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Ya sea que necesites segmentación de instancias avanzada, estimación de pose de alta precisión o detección estándar de cuadros delimitadores (bounding boxes), la versatilidad del marco de trabajo de Ultralytics garantiza que tu equipo pase menos tiempo configurando entornos de aprendizaje profundo y más tiempo implementando soluciones de IA robustas. Con mejoras de tareas especializadas como ProgLoss + STAL para un mejor reconocimiento de objetos pequeños, YOLO26 se erige como la elección principal para la próxima generación de aplicaciones de visión.

Colaboradores

Comentarios