Ir al contenido

DAMO-YOLO vs. YOLOX: Una comparación técnica

En el panorama en rápida evolución de la visión por ordenador, seleccionar el modelo de detección de objetos adecuado es crucial para el éxito de cualquier proyecto de IA. Este artículo ofrece una comparación en profundidad entre dos arquitecturas influyentes: YOLO, desarrollada por Alibaba Group, y YOLOX, creada por Megvii. Ambos modelos han realizado importantes aportaciones a este campo, ampliando los límites de la velocidad y la precisión. Exploraremos sus arquitecturas únicas, sus métricas de rendimiento y sus casos de uso ideales para ayudarle a tomar una decisión informada.

YOLO: optimizado para la inferencia a alta velocidad

YOLO representa un salto adelante en la detección de objetos en tiempo real, ya que prioriza la baja latencia en el hardware de GPU sin comprometer la precisión. Desarrollado por investigadores de Alibaba, integra principios de diseño de redes neuronales de última generación para lograr un impresionante equilibrio entre velocidad y precisión.

Detalles técnicos:

Arquitectura e Innovaciones

La arquitectura de YOLO se basa en varias tecnologías innovadoras diseñadas para maximizar la eficiencia:

  • Búsqueda de arquitectura neuronal (NAS): El modelo utiliza MAE-NAS para buscar automáticamente la estructura troncal más eficiente, lo que da lugar a un extractor de características conocido como GiraffeNet. Este enfoque garantiza que la profundidad y la anchura de la red se optimicen para las limitaciones específicas del hardware.
  • Cuello RepGFPN: Para gestionar la fusión de características multiescala, YOLO emplea una red piramidal de características generalizadas (GFPN) mejorada con reparametrización. Esto permite un rico flujo de información a través de diferentes escalas, manteniendo al mismo tiempo altas velocidades de inferencia.
  • ZeroHead: un cabezal de detección ligero que desacopla las tareas de clasificación y regresión, pero reduce significativamente la carga computacional en comparación con los cabezales desacoplados tradicionales.
  • AlignedOTA: una novedosa estrategia de asignación de etiquetas que resuelve los desajustes entre los objetivos de clasificación y regresión, garantizando que el modelo aprenda de las muestras más relevantes durante el entrenamiento.

Puntos fuertes y casos de uso ideales

YOLO destaca en situaciones en las que el rendimiento en tiempo real no es negociable. Sus optimizaciones arquitectónicas lo convierten en el mejor candidato para aplicaciones industriales que requieren un alto rendimiento.

  • Automatización industrial: Perfecto para la detección de defectos a alta velocidad en líneas de fabricación donde los milisegundos cuentan.
  • Vigilancia de ciudades inteligentes: capaz de procesar múltiples secuencias de vídeo simultáneamente para la gestión del tráfico y la supervisión de la seguridad.
  • Robótica: Permite a los robots autónomos navegar por entornos complejos mediante el procesamiento instantáneo de datos visuales.

Más información sobre DAMO-YOLO

YOLOX: el pionero sin anclajes

YOLOX marcó un momento crucial en la serie YOLO al alejarse de los mecanismos basados en anclajes. Desarrollado por Megvii, introdujo un diseño sin anclajes que simplificó el proceso de detección y mejoró la generalización, estableciendo un nuevo estándar de rendimiento en 2021.

Detalles técnicos:

Principales características arquitectónicas

YOLOX se distingue por una sólida filosofía de diseño que resuelve problemas comunes de versiones anteriores de YOLO :

  • Mecanismo sin anclajes: Al eliminar los cuadros de anclaje predefinidos, YOLOX evita la complejidad del ajuste de anclaje y reduce el número de hiperparámetros heurísticos. Esto mejora el rendimiento en diversos conjuntos de datos.
  • Cabezal desacoplado: el modelo divide las tareas de clasificación y localización en ramas separadas. Esta separación mejora la velocidad de convergencia y la precisión al permitir que cada tarea aprenda sus características óptimas de forma independiente.
  • SimOTA Asignación de etiquetas: Una estrategia avanzada que trata la asignación de etiquetas como un problema de transporte óptimo. SimOTA asigna dinámicamente muestras positivas a las verdades sobre el terreno, lo que mejora la capacidad del modelo para manejar escenas abarrotadas y oclusiones.
  • Potentes aumentos de datos: YOLOX aprovecha técnicas como Mosaic y MixUp para mejorar la solidez y evitar el sobreajuste durante el entrenamiento.

Puntos fuertes y casos de uso ideales

YOLOX es famoso por su gran precisión y estabilidad, lo que lo convierte en una opción fiable para aplicaciones en las que la precisión es primordial.

  • Conducción autónoma: Proporciona la detección de objetos de alta precisión necesaria para que los sistemas de percepción de los vehículos identifiquen peatones y obstáculos con seguridad.
  • Retail Analytics: Detección precisa para la supervisión de estanterías y la gestión de inventarios en entornos minoristas complejos.
  • Bases de investigación: Debido a su implementación limpia y sin anclajes, sirve como una excelente línea de base para la investigación académica de nuevas metodologías de detección.

Más información sobre YOLOX

Análisis de rendimiento

La siguiente tabla presenta una comparación directa de YOLO y YOLOX con modelos de distintos tamaños. Las métricas destacan las compensaciones entre la complejidad del modelo (parámetros y FLOPs), la velocidad de inferencia y la precisión de detecciónmAP) en el conjunto de datos COCO .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Puntos clave

  • Ventaja en latencia: YOLO supera sistemáticamente a YOLOX en términos de velocidad de inferencia en GPU para niveles de precisión comparables. Por ejemplo, DAMO-YOLOs consigue 46,0 mAP en 3,45 ms, mientras que YOLOXm necesita 5,43 ms para alcanzar 46,9 mAP con FLOPs significativamente superiores.
  • Eficiencia: La red troncal optimizada para NAS de YOLO proporciona un mejor ratio de eficiencia de parámetros.
  • Precisión máxima: YOLOX-x sigue siendo un fuerte competidor en precisión máxima (51,1 mAP), aunque tiene un alto coste computacional (281,9B FLOPs).
  • Opciones ligeras: YOLOX-Nano es extremadamente ligero (0,91M params), por lo que es adecuado para microcontroladores con recursos estrictamente limitados, aunque la precisión cae significativamente.

Optimización de GPU

El uso intensivo de re-parametrización y estructuras de cuello eficientes de YOLO lo hacen particularmente adecuado para TensorRT en GPUs NVIDIA , donde puede aprovechar al máximo la capacidad de cálculo paralelo.

La ventaja Ultralytics

Mientras que YOLO y YOLOX ofrecen sólidas capacidades, los modelosYOLO Ultralytics -específicamenteYOLO11-proporcionan una solución integral superior para el desarrollo moderno de la visión por ordenador. Ultralytics ha cultivado un ecosistema que no solo aborda el rendimiento bruto, sino todo el ciclo de vida de las operaciones de aprendizaje automático.

¿Por qué elegir Ultralytics?

Los desarrolladores e investigadores recurren cada vez más a los modelos Ultralytics por varias razones de peso:

  • Facilidad de uso inigualable: LaAPIPython Ultralytics está diseñada para la simplicidad. Cargar un modelo de última generación e iniciar el entrenamiento solo requiere unas pocas líneas de código, lo que reduce drásticamente la barrera de entrada en comparación con los complejos archivos de configuración que suelen requerir los repositorios académicos.
  • Ecosistema bien mantenido: A diferencia de muchos proyectos de investigación que se estancan, los modelos de Ultralytics están respaldados por una comunidad próspera y un desarrollo activo. Las actualizaciones periódicas garantizan la compatibilidad con las últimas versiones de PyTorch formatos de exportación y aceleradores de hardware.
  • Versatilidad: Los modelos Ultralytics no se limitan a los cuadros delimitadores. Admiten de forma nativa una amplia gama de tareas, como la segmentación de instancias, la estimación de poses, la clasificación de imágenes y la detección de objetos orientados (OBB), todo ello dentro de un único marco.
  • Equilibrio de rendimiento: Los modelosYOLO Ultralytics están diseñados para alcanzar el "punto óptimo" entre velocidad y precisión. Suelen alcanzar mayores mAP más altas que las de sus competidores, al tiempo que mantienen tiempos de inferencia más rápidos tanto en CPU como en GPU.
  • Eficiencia del entrenamiento: Con cargadores de datos optimizados e hiperparámetros preajustados, el entrenamiento de un modelo de Ultralytics es altamente eficiente. Los usuarios pueden aprovechar los pesos preentrenados en COCO para lograr una convergencia más rápida, ahorrando un valioso tiempo de cálculo y energía.
  • Eficiencia de memoria: Los modelos Ultralytics suelen demostrar un menor uso de memoria durante el entrenamiento y la inferencia en comparación con las arquitecturas pesadas basadas en transformadores o las CNN más antiguas, lo que los hace accesibles en una gama más amplia de hardware, incluidos los dispositivos de borde.

Ejemplo de flujo de trabajo continuo

Experimente la simplicidad del flujo de trabajo Ultralytics con este ejemplo Python :

from ultralytics import YOLO

# Load the YOLO11 model (pre-trained on COCO)
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Más información sobre YOLO11

Conclusión

Tanto YOLO como YOLOX han consolidado su lugar en la historia de la detección de objetos. YOLO es una opción excelente para aplicaciones GPU especializadas de alto rendimiento en las que cada milisegundo de latencia es importante. YOLOX sigue siendo un detector sólido, preciso y sin anclajes que goza de gran reconocimiento en la comunidad investigadora.

Sin embargo, para la inmensa mayoría de las aplicaciones del mundo real, Ultralytics YOLO11 destaca como la mejor opción. Su combinación de rendimiento de vanguardia, versatilidad multitarea y un ecosistema fácil de usar y bien mantenido permite a los desarrolladores crear soluciones sólidas de forma más rápida y eficiente. Ultralytics proporciona las herramientas necesarias para triunfar en el competitivo panorama actual de la inteligencia artificial, tanto si se implementa en la nube como en el perímetro.

Explorar otras comparaciones

Para comprender mejor el panorama de la detección de objetos, explore cómo se comparan estos modelos con otras arquitecturas de vanguardia:


Comentarios