Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 frente a DAMO-YOLO#

La rápida evolución de la visión artificial ha producido una gran variedad de arquitecturas potentes adaptadas a diferentes restricciones de despliegue y requisitos de precisión. Dos entradas destacadas en este espacio son YOLOv9, célebre por su gestión robusta de los cuellos de botella de información, y DAMO-YOLO, que se centra enormemente en la búsqueda de arquitectura neuronal (NAS) y en pirámides de características eficientes.

Esta guía ofrece una comparativa técnica y detallada de YOLOv9 y DAMO-YOLO, destacando sus diferencias arquitectónicas, metodologías de entrenamiento y escenarios ideales de despliegue. También exploraremos cómo el ecosistema Ultralytics proporciona un camino fluido desde el desarrollo hasta la producción, y por qué modelos modernos como YOLO26 se han convertido en el estándar recomendado para nuevos proyectos.

Link to this sectionAnálisis arquitectónico en profundidad#

Entender los mecanismos centrales que impulsan a cada modelo revela por qué funcionan de manera distinta a través de diversas métricas.

Link to this sectionYOLOv9: información de gradiente programable#

YOLOv9 fue diseñado para abordar directamente la pérdida de información que ocurre a medida que los datos fluyen a través de redes neuronales profundas.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Institute of Information Science, Academia Sinica, Taiwán
Fecha: 21 de febrero de 2024
Enlaces: Arxiv, GitHub, Docs

Aprende más sobre YOLOv9

YOLOv9 introduce la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). PGI garantiza que la información espacial y semántica vital se conserve durante el proceso de alimentación directa (feed-forward), evitando la degradación de los gradientes utilizados para las actualizaciones de pesos. GELAN complementa esto maximizando la eficiencia de los parámetros, permitiendo que el modelo logre una precisión media promedio (mAP) de última generación con menos FLOPs que muchas CNN convencionales.

Link to this sectionDAMO-YOLO: Eficiencia impulsada por NAS#

Desarrollado por Alibaba Group, DAMO-YOLO adopta un enfoque diferente, aprovechando la búsqueda arquitectónica automatizada para encontrar el equilibrio óptimo entre velocidad y precisión.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23 de noviembre de 2022
Enlaces: Arxiv, GitHub

Más información sobre DAMO-YOLO

DAMO-YOLO se basa en un backbone MAE-NAS (Autoencoders enmascarados para búsqueda de arquitectura neuronal) para generar automáticamente estructuras de red eficientes. Utiliza una RepGFPN (red de pirámide de características generalizada reparametrizada) para una fusión de características robusta y un diseño "ZeroHead" para minimizar la carga computacional de la cabeza de detección. Además, incorpora AlignedOTA para la asignación de etiquetas y destilación de conocimiento para impulsar el rendimiento de sus variantes más pequeñas.

El papel de NAS en la visión artificial

La búsqueda de arquitectura neuronal (NAS) automatiza el diseño de redes neuronales artificiales. Aunque puede producir modelos altamente eficientes como DAMO-YOLO, a menudo requiere recursos computacionales masivos para buscar en el espacio de la arquitectura, contrastando con la filosofía de diseño más determinista de modelos como YOLOv9.

Link to this sectionComparación de rendimiento y métricas#

Al seleccionar un modelo de detección de objetos, es fundamental equilibrar la precisión, la velocidad y la huella computacional.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionAnálisis#

  • Precisión frente a parámetros: YOLOv9 generalmente demuestra una relación parámetro-precisión superior. Por ejemplo, YOLOv9c alcanza un 53,0% de mAP con 25,3 millones de parámetros, mientras que DAMO-YOLOl alcanza un 50,8% de mAP pero requiere significativamente más parámetros (42,1 millones).
  • Velocidad de inferencia: La arquitectura de DAMO-YOLO proporciona velocidades de inferencia TensorRT competitivas en GPUs T4, superando ligeramente a YOLOv9 en los niveles medios. Sin embargo, la eficiencia de YOLOv9 en FLOPs y recuento de parámetros se traduce en una eficiencia de memoria GPU excepcional.
  • Requisitos de memoria: Los modelos Ultralytics YOLO, incluido YOLOv9, suelen mostrar un menor uso de memoria tanto durante el entrenamiento como en la inferencia en comparación con modelos complejos generados por NAS o arquitecturas pesadas de Transformer, lo que los hace altamente accesibles para el despliegue en hardware de borde (edge) con limitaciones.

Link to this sectionLa ventaja del ecosistema Ultralytics#

Aunque las métricas teóricas son importantes, la implementación práctica dicta en gran medida el éxito de un proyecto. Aquí es donde la Plataforma Ultralytics y su ecosistema de software integral superan a repositorios independientes como DAMO-YOLO.

Link to this sectionFacilidad de uso y eficiencia de entrenamiento#

Entrenar un modelo YOLOv9 personalizado requiere un código repetitivo mínimo. La API de Python de Ultralytics abstrae procesos complejos como la aumentación de datos, el entrenamiento distribuido y la optimización de hardware.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Por el contrario, utilizar DAMO-YOLO a menudo requiere navegar por archivos de configuración rígidos y complejas cadenas de dependencias específicas para su conducto (pipeline) de entrenamiento único, lo que resulta en una curva de aprendizaje más pronunciada.

Link to this sectionVersatilidad en todas las tareas#

Un sello distintivo de los modelos Ultralytics es su versatilidad inherente. Más allá de la detección de cajas delimitadoras estándar, el marco de trabajo de Ultralytics admite sin problemas tareas como segmentación de instancias, estimación de poses, clasificación de imágenes y detección de cajas delimitadoras orientadas (OBB). DAMO-YOLO está estrictamente optimizado para la detección de objetos 2D, lo que requiere una reingeniería significativa para adaptarse a otros paradigmas visuales.

Exportación a dispositivos de borde

Ultralytics simplifica el conducto de despliegue ofreciendo exportación de modelos con un solo clic a formatos como TensorRT, OpenVINO y CoreML, asegurando el máximo rendimiento independientemente de tu hardware de destino.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv9 y DAMO-YOLO depende de tus requisitos específicos de proyecto, restricciones de despliegue y preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 es una opción sólida para:

  • Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
  • Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
  • Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO se recomienda para:

  • Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionEl futuro: pasarse a YOLO26#

Aunque YOLOv9 y DAMO-YOLO representan hitos históricos importantes, la visión artificial moderna ha cambiado hacia arquitecturas nativamente de extremo a extremo (end-to-end). Para cualquier desarrollo nuevo, YOLO26 es el estándar recomendado.

Lanzado en 2026, YOLO26 se basa en los éxitos de sus predecesores, ofreciendo un salto tanto en precisión como en simplicidad de despliegue.

Link to this sectionInnovaciones clave de YOLO26#

  • Diseño de extremo a extremo sin NMS: YOLO26 elimina por completo el post-procesamiento de Supresión No Máxima (NMS). Esto crea un conducto de despliegue simplificado que es nativamente de extremo a extremo, un avance pionero primero en YOLOv10.
  • Eliminación de DFL: Se ha eliminado la Pérdida Focal de Distribución (Distribution Focal Loss) para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia.
  • Inferencia en CPU hasta un 43% más rápida: Al eliminar el post-procesamiento complejo y optimizar las convoluciones centrales, YOLO26 es especialmente adecuado para escenarios de computación en el borde que carecen de GPUs dedicadas.
  • Optimizador MuSGD: Inspirado en innovaciones de entrenamiento de LLM, YOLO26 utiliza un híbrido de SGD y Muon (MuSGD) para garantizar ejecuciones de entrenamiento más estables y tiempos de convergencia notablemente más rápidos.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas proporcionan mejoras notables en el reconocimiento de objetos pequeños, lo que hace que YOLO26 sea ideal para imágenes aéreas de gran altitud y dispositivos IoT.

Si actualmente estás investigando YOLO11 o YOLOv8 para tu próximo proyecto, actualizar a YOLO26 garantiza que estás utilizando el marco de trabajo de visión artificial más optimizado y de vanguardia disponible hoy en día.

Link to this sectionResumen#

Elegir el modelo correcto depende de tus restricciones operativas específicas:

  • DAMO-YOLO ofrece un vistazo fascinante a la optimización impulsada por NAS, proporcionando velocidades competitivas para perfiles de hardware muy específicos donde brilla su arquitectura RepGFPN.
  • YOLOv9 es una excelente opción para investigadores que se centran en conservar detalles visuales de grano fino, aprovechando su arquitectura PGI para evitar la pérdida de información en redes profundas.
  • Ultralytics YOLO26 se erige como la elección definitiva para aplicaciones empresariales y de investigación modernas. Su facilidad de uso inigualable, arquitectura sin NMS y optimizaciones de entrenamiento MuSGD de vanguardia lo convierten en el modelo más fiable, preciso y fácilmente desplegable en el panorama de la visión artificial.
Colaboradores

Comentarios