Ir al contenido

YOLOX frente aYOLO: análisis de las arquitecturas de detección de objetos de última generación

En el panorama en rápida evolución de la visión artificial, el cambio de los detectores basados en anclajes a los detectores sin anclajes ha marcado un hito importante. Dos modelos destacados que han dado forma a esta transición son YOLOX y YOLO. Esta comparación explora sus innovaciones arquitectónicas, métricas de rendimiento y metodologías de entrenamiento para ayudar a los investigadores e ingenieros a seleccionar la herramienta adecuada para sus necesidades específicas de detección de objetos.

Métricas de rendimiento

La siguiente tabla presenta una comparación directa de las métricas clave de rendimiento entreYOLO YOLOX yYOLO .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOX: Uniendo la investigación y la industria

YOLOX surgió como una actualización fundamental de la YOLO , pasando a un mecanismo sin anclaje e introduciendo técnicas de detección avanzadas que agilizaron el proceso entre la investigación académica y la aplicación industrial.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización:Megvii
Fecha: 18-07-2021
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX

Arquitectura e innovación

YOLOX se distingue por eliminar los cuadros de anclaje que se encontraban en versiones anteriores como YOLOv4 y YOLOv5. Su arquitectura «Decoupled Head» separa las tareas de clasificación y localización, lo que mejora significativamente la velocidad de convergencia y la precisión.

Además, YOLOX emplea SimOTA, una estrategia dinámica de asignación de etiquetas que considera el proceso de entrenamiento como un problema de transporte óptimo. Esto permite al modelo asignar automáticamente muestras positivas a verdades fundamentales basándose en una estrategia de optimización global, lo que reduce la necesidad de ajustar los hiperparámetros heurísticos.

Más información sobre YOLOX

DAMO-YOLO: Eficiencia en la Búsqueda de Arquitectura Neuronal

YOLO los límites de las compensaciones entre latencia y precisión mediante el uso de la búsqueda de arquitectura neuronal (NAS) y una reparametrización intensiva.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 23/11/2022
Arxiv:YOLO: Informe sobre el diseño de la detección de objetos en tiempo real
GitHub:YOLO

Tecnologías clave

YOLO una red troncal MAE-NAS, construida mediante una búsqueda evolutiva multiobjetivo para encontrar la estructura de red óptima bajo restricciones de latencia específicas. También utiliza RepGFPN (Red piramidal de características generalizadas reparametrizada eficiente) para una fusión eficaz de características en todas las escalas.

Una característica destacable es ZeroHead, que simplifica el cabezal de detección a una complejidad mínima, confiando en la columna vertebral y el cuello para realizar el trabajo pesado. El entrenamiento se complementa con AlignedOTA para la asignación de etiquetas y una etapa de destilación en la que un modelo maestro más grande guía al alumno, lo que garantiza un alto rendimiento incluso para variantes de modelos más pequeños.

Más información sobre DAMO-YOLO

La ventaja de Ultralytics

Mientras que YOLOX yYOLO soluciones robustas para escenarios específicos, el Ultralytics proporciona una alternativa completa, fácil de usar y de alto rendimiento que aborda las complejidades del desarrollo moderno de la IA.

Facilidad de uso y ecosistema sin fisuras

Uno de los principales puntos de fricción con modelos comoYOLO la complejidad de sus recetas de entrenamiento, que a menudo implican destilación en múltiples etapas o espacios de búsqueda NAS especializados. Por el contrario, Ultralytics están diseñados para ser accesibles de forma inmediata. Tanto si utiliza YOLO11 o el innovador YOLO26, todo el flujo de trabajo, desde la carga del conjunto de datos hasta la exportación del modelo, se gestiona a través de una API unificada.

Los desarrolladores pueden aprovechar la Ultralytics para gestionar conjuntos de datos, visualizar experimentos e implementar modelos sin problemas. Este enfoque integrado elimina las barreras de entrada, lo que permite a los equipos centrarse en resolver problemas empresariales en lugar de depurar scripts de formación.

Equilibrio de rendimiento con YOLO26

Para aquellos que buscan lo último en velocidad y precisión, YOLO26 representa lo más avanzado. Se basa en las lecciones aprendidas de modelos como YOLOX (diseño sin anclajes) y YOLOv10 (inferenciaNMS) para ofrecer un rendimiento excepcional.

YOLO26 Innovación: NMS de extremo a extremo

YOLO26 es nativamente de extremo a extremo, lo que elimina la necesidad del posprocesamiento de supresión no máxima (NMS). Esto simplifica significativamente los procesos de implementación, especialmente en dispositivos periféricos donde NMS pueden suponer un cuello de botella en la latencia.

Las características principales de YOLO26 incluyen:

  • Eliminación de DFL: La eliminación de la pérdida focal de distribución simplifica el gráfico del modelo para facilitar la exportación a formatos como ONNX y TensorRT.
  • Optimizador MuSGD: una combinación de SGD Muon (inspirada en el entrenamiento LLM) garantiza una convergencia estable.
  • CPU : optimizada arquitectónicamente para la computación periférica, lo que proporciona una inferencia hasta un 43 % más rápida en las CPU.
  • ProgLoss + STAL: Funciones de pérdida avanzadas que mejoran drásticamente la detección de objetos pequeños, un requisito fundamental para las imágenes de drones y la robótica.

Versatilidad en todas las tareas

A diferencia de YOLOX yYOLO, que se centran principalmente en la detección de objetos, Ultralytics son intrínsecamente multimodales. Una sola biblioteca admite:

Esta versatilidad permite a los desarrolladores abordar proyectos complejos, como el análisis de la mecánica de los jugadores en los deportes mediante la estimación de posturas, sin necesidad de cambiar de marco de trabajo.

Eficiencia del entrenamiento y memoria

Ultralytics están diseñados para ser eficientes en cuanto a recursos. Por lo general, requieren menos GPU durante el entrenamiento en comparación con los modelos pesados basados en transformadores, como RT-DETR. Esta eficiencia democratiza la IA, permitiendo entrenar modelos potentes en hardware estándar de consumo.

Así de sencillo es entrenar un modelo YOLO26 de última generación utilizando elPython Ultralytics :

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Más información sobre YOLO26

Aplicaciones en el mundo real

La elección del modelo adecuado suele depender de las limitaciones específicas del entorno de implementación.

Control de calidad industrial

Para las líneas de fabricación de alta velocidad, YOLO es un fuerte competidor debido a su baja latencia en GPU , lo que lo hace adecuado para detectar defectos en cintas transportadoras de movimiento rápido. Sin embargo, YOLO26 es cada vez más preferido aquí porque su diseñoNMS garantiza tiempos de inferencia deterministas, lo que evita la fluctuación que puede desincronizar los actuadores robóticos.

IA periférica y dispositivos móviles

YOLOX-Nano ha sido históricamente uno de los favoritos para aplicaciones móviles debido a su reducido número de parámetros. Hoy en día, YOLO26n (Nano) ofrece una alternativa superior, ya que proporciona una mayor precisión con tamaños de modelo similares, al tiempo que se beneficia de CPU un 43 % más rápida. Esto lo hace ideal para dispositivos alimentados por batería, como cámaras inteligentes o sensores agrícolas.

Sistemas Autónomos

En robótica y conducción autónoma, la capacidad de manejar objetos de diferentes tamaños es fundamental. Si bien el cabezal desacoplado de YOLOX ayuda, la implementación de ProgLoss + STAL en YOLO26 proporciona una mejora tangible en el reconocimiento de objetos distantes o pequeños, como señales de tráfico o peatones, lo que mejora la seguridad general del sistema.

Resumen

Tanto YOLOX comoYOLO contribuido significativamente al avance de la detección de objetos. YOLOX popularizó el paradigma sin anclajes, mientras queYOLO el poder de la búsqueda de arquitectura neuronal.

Sin embargo, si se busca una solución moderna y preparada para el futuro que ofrezca un equilibrio entre rendimiento, facilidad de uso y flexibilidad de implementación, Ultralytics destaca por encima del resto. Su integración en el amplio Ultralytics , su compatibilidad con múltiples tareas y sus procesos de exportación simplificados lo convierten en la opción recomendada tanto para la investigación académica como para aplicaciones de nivel empresarial.

Explora todo el potencial de estos modelos visitando la Ultralytics y comenzando tu formación hoy mismo.


Comentarios