YOLO YOLOv8: evolución arquitectónica en la detección de objetos

La búsqueda de la detección de objetos en tiempo real ha impulsado importantes innovaciones en el diseño de redes neuronales. Dos arquitecturas destacadas que han dado forma a este panorama sonYOLO, desarrollada por el equipo de investigación de Alibaba, y YOLOv8, creada por Ultralytics. Esta comparación explora las diferencias técnicas entre estos modelos, examinando sus estrategias de entrenamiento, la eficiencia de su arquitectura y su idoneidad para su implementación.

DAMO-YOLO Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23/11/2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO

YOLOv8 Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización: Ultralytics
Fecha: 10/01/2023
GitHub: ultralytics
Documentación: yolov8

Filosofías Arquitectónicas

La diferencia fundamental entre estos dos modelos radica en el origen de su diseño.YOLO en gran medida en estrategias de búsqueda automatizadas, mientras que YOLOv8 el diseño arquitectónico manual mediante exhaustivas pruebas empíricas.

YOLO: Búsqueda de arquitectura neuronal (NAS)

YOLO un enfoque basado en la tecnología denominado MAE-NAS (Method-Automated Efficiency Neural Architecture Search, búsqueda de arquitectura neuronal automatizada y eficiente). En lugar de diseñar bloques manualmente, los autores utilizaron la búsqueda de arquitectura neuronal para descubrir una estructura eficiente bajo restricciones de latencia específicas.

Los componentes arquitectónicos clave incluyen:

MAE-NAS Backbone: una estructura optimizada automáticamente para equilibrar la precisión de la detección con la velocidad de inferencia.
RepGFPN eficiente: una red piramidal de características generalizada (FPN) que utiliza la reparametrización para mejorar la fusión de características sin añadir costes de inferencia.
ZeroHead: un cabezal de detección ligero diseñado para reducir la carga computacional en las capas de salida finales.
AlignedOTA: una estrategia dinámica de asignación de etiquetas que resuelve la desalineación entre las tareas de clasificación y regresión.

YOLOv8: Diseño manual perfeccionado

YOLOv8 en el legado de la YOLO e introduce el módulo C2f (cuello de botella parcial entre etapas con dos convoluciones). Este módulo está diseñado para mejorar la información del flujo de gradiente, lo que permite a la red aprender características más complejas sin dejar de ser ligera.

Las características arquitectónicas clave incluyen:

Detección sin anclajes: YOLOv8 los cuadros de anclaje y predice directamente los centros de los objetos. Esto simplifica el NMS y reduce el número de hiperparámetros que los usuarios deben ajustar.
Cabezal desacoplado: Separa las ramas de clasificación y regresión, lo que permite que cada una converja de manera más eficaz.
Aumento de mosaico: una técnica de entrenamiento avanzada que combina cuatro imágenes en una, lo que obliga al modelo a aprender el contexto y la invariancia de escala.

Métricas de rendimiento

La siguiente tabla compara el rendimiento deYOLO YOLOv8 el COCO . Mientras queYOLO mAP impresionante mAP una destilación intensiva, YOLOv8 ofrece YOLOv8 velocidades de inferencia superiores y una menor complejidad de implementación.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Eficiencia y complejidad de la formación

Una distinción fundamental para los desarrolladores es el proceso de formación.YOLO una sofisticada estrategia de destilación. Para lograr sus excelentes resultados, primero se debe entrenar un gran modelo «maestro» que sirva de guía a los modelos «alumnos» más pequeños. Aunque esto proporciona una gran precisión, complica considerablemente el flujo de trabajo de formación, aumenta los requisitos GPU y prolonga el tiempo de formación.

Por el contrario, Ultralytics dan prioridad a la eficiencia del entrenamiento. YOLOv8 un enfoque «Bag of Freebies» en el que las elecciones arquitectónicas y las estrategias de aumento (como MixUp Mosaic) proporcionan ganancias de precisión sin necesidad de un proceso de destilación en varias etapas. Esto hace que YOLOv8 sea YOLOv8 más rápido de entrenar en hardware de consumo, lo que reduce la barrera de entrada para los conjuntos de datos personalizados.

Eficiencia de recursos

YOLO Ultralytics suelen presentar menores requisitos de memoria durante el entrenamiento y la inferencia en comparación con los complejos modelos basados en transformadores o los procesos de destilación. Esto permite tamaños de lotes más grandes y una experimentación más rápida en GPU estándar.

La ventaja del ecosistema de Ultralytics

Si bienYOLO contribuciones académicas novedosas, el Ultralytics proporciona una ventaja distintiva para el desarrollo de aplicaciones en el mundo real.

Versatilidad más allá de la detección

YOLO diseñado principalmente para la detección de cuadros delimitadores. Por el contrario, el Ultralytics es nativamente multitarea. Una única API permite a los desarrolladores realizar:

Segmentación de instancias para un enmascaramiento preciso a nivel de píxel.
Estimación de la postura para el seguimiento del esqueleto.
Cuadro delimitador orientado (OBB) para la detección de objetos aéreos y girados.
Clasificación de imágenes para la categorización de imágenes completas.

Facilidad de Uso y Despliegue

Ultralytics una experiencia de usuario optimizada. El Python permite el entrenamiento, la validación y la implementación en menos de cinco líneas de código. Además, las amplias opciones de exportación permiten una conversión perfecta a ONNX, TensorRT, CoreML, TFLite y OpenVINO, lo que garantiza que los modelos se puedan implementar en todo tipo de dispositivos, desde servidores en la nube hasta Raspberry Pis.

El futuro de la IA visual: YOLO26

Para los desarrolladores que buscan lo último en tecnología para 2026, Ultralytics YOLO26. Basándose en los éxitos de YOLOv8 YOLO11, YOLO26 introduce cambios fundamentales en la arquitectura para mejorar la velocidad y la estabilidad.

Más información sobre YOLO26

Diseño de extremo a extremo sin NMS

A diferencia deYOLO YOLOv8, que requieren un posprocesamiento de supresión no máxima (NMS) para filtrar los recuadros superpuestos, YOLO26 es nativamente integral. Este avance, pionero en YOLOv10, elimina NMS . Esto da como resultado procesos de implementación simplificados y una menor latencia, especialmente en escenarios con muchos objetos detectados.

Optimización avanzada y funciones de pérdida

YOLO26 integra el optimizador MuSGD, un híbrido de SGD Muon (inspirado en las innovaciones de entrenamiento LLM de Kimi K2 de Moonshot AI). Esto aporta la estabilidad del entrenamiento de modelos de lenguaje grandes a la visión por computadora, lo que da como resultado una convergencia más rápida. Además, la eliminación de la pérdida focal de distribución (DFL) y la introducción de ProgLoss y STAL (pérdida suave alineada con la tarea) mejoran significativamente el rendimiento en objetos pequeños, un reto común en robótica e IoT.

Equilibrio del rendimiento

YOLO26 está optimizado para la computación periférica y ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores. Esto lo convierte en la opción ideal para aplicaciones que se ejecutan en dispositivos sin GPU dedicadas, superando la eficiencia de los enfoques antiguos basados en NAS.

Ejemplo de código: Ultralytics

El siguiente ejemplo muestra lo fácil que es para un desarrollador cambiar entre generaciones de modelos utilizando la Ultralytics . Esta flexibilidad permite realizar rápidamente una evaluación comparativa de YOLOv8 al nuevo YOLO26 en un conjunto de datos personalizado.

from ultralytics import YOLO

# Load the models
model_v8 = YOLO("yolov8n.pt")
model_v26 = YOLO("yolo26n.pt")  # Recommended for new projects

# Train YOLO26 on a custom dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model_v26.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the NMS-free architecture
# No post-processing tuning required
prediction = model_v26("https://ultralytics.com/images/bus.jpg")
prediction[0].show()

Resumen

TantoYOLO YOLOv8 hitos importantes en la visión artificial.YOLO el poder de la búsqueda de arquitectura neuronal y la destilación para lograr una alta precisión. Sin embargo, para la mayoría de los desarrolladores, investigadores y empresas, Ultralytics YOLOv8—y, en concreto, el más reciente YOLO26— ofrece un equilibrio superior.

La combinación de un ecosistema bien mantenido, facilidad de uso, compatibilidad con tareas versátiles y funciones de vanguardia, como la detección NMS, hace que Ultralytics sea Ultralytics opción preferida para soluciones de IA escalables y preparadas para el futuro. Los desarrolladores que busquen otras opciones de alto rendimiento también pueden explorar RT-DETR para obtener precisión basada en transformadores o YOLO11 para una robustez probada.