Ir al contenido

YOLO26 frente aYOLO: la evolución de la detección de objetos en tiempo real

El panorama de la visión artificial evoluciona rápidamente, con nuevas arquitecturas que superan constantemente los límites de velocidad y precisión. Dos hitos importantes en esta línea temporal son YOLO, desarrollado por Alibaba Group a finales de 2022, y YOLO26, el modelo de última generación lanzado por Ultralytics 2026.

Mientras queYOLO conceptos innovadores como la búsqueda de arquitectura neuronal (NAS) en la YOLO , YOLO26 representa un cambio de paradigma hacia el procesamiento nativo de extremo a extremo y el diseño edge-first. Esta comparación detallada explora las diferencias arquitectónicas, las métricas de rendimiento y las realidades de implementación de estos dos potentes modelos para ayudar a los desarrolladores a elegir la herramienta adecuada para sus necesidades de detección de objetos.

Comparación de métricas de rendimiento

La siguiente tabla compara el rendimiento de YOLO26 con el deYOLO. Obsérvese la mejora significativa en la velocidad de inferencia, especialmente en las operaciones CPU, lo cual es una característica distintiva de la arquitectura YOLO26.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Ultralytics : el nuevo estándar

Lanzado en enero de 2026 por Ultralytics, YOLO26 se basa en el legado de YOLO11 y YOLOv8, introduciendo cambios radicales en el proceso de detección. Su filosofía de diseño principal se centra en eliminar los cuellos de botella en la implementación y el entrenamiento, lo que lo convierte en el modelo más eficiente tanto para GPU de gama alta como para dispositivos periféricos con limitaciones.

Innovaciones clave

  1. Diseño integral NMS: a diferencia de las generaciones anteriores y de competidores comoYOLO, YOLO26 es integral de forma nativa. Elimina la necesidad del posprocesamiento de supresión no máxima (NMS). Esto reduce la variación de la latencia y simplifica los procesos de implementación, un enfoque innovador que se utilizó por primera vez en YOLOv10.
  2. Optimizador MuSGD: Inspirado en los recientes avances en el entrenamiento de modelos de lenguaje grandes (LLM), YOLO26 utiliza una combinación de SGD Muon. Este optimizador proporciona una mayor estabilidad durante el entrenamiento y una convergencia más rápida, lo que reduce el coste computacional necesario para alcanzar una precisión óptima.
  3. Optimización Edge-First: al eliminar la pérdida focal de distribución (DFL), se simplifica la arquitectura del modelo para facilitar la exportación a formatos como ONNX CoreML. Esto contribuye a una velocidad CPU un 43 % más rápida en comparación con las iteraciones anteriores, lo que lo hace ideal para dispositivos como Raspberry Pi o teléfonos móviles.
  4. Detección mejorada de objetos pequeños: la integración de ProgLoss y STAL (Scale-Aware Training Adaptive Loss) mejora significativamente el rendimiento en objetos pequeños, lo que soluciona una debilidad común en los detectores de una sola etapa.

Despliegue optimizado

Dado que YOLO26 elimina el NMS , los modelos exportados son redes neuronales puras sin código de posprocesamiento complejo. Esto facilita considerablemente la integración en entornos C++ o móviles y reduce la probabilidad de que se produzcan errores lógicos.

Ejemplo de código

La experiencia del usuario con YOLO26 sigue siendo coherente con el Python optimizado Ultralytics Python .

from ultralytics import YOLO

# Load the nano model
model = YOLO("yolo26n.pt")

# Run inference on an image without needing NMS configuration
results = model.predict("image.jpg", show=True)

# Export to ONNX for edge deployment
path = model.export(format="onnx")

Más información sobre YOLO26

YOLO: El retador impulsado por NAS

YOLO, desarrollado por la Academia DAMO de Alibaba, causó sensación en 2022 al aprovechar la búsqueda de arquitectura neuronal (NAS) para diseñar su estructura principal. En lugar de crear manualmente la estructura de la red, los autores utilizaron MAE-NAS (método de aristas auxiliares) para descubrir automáticamente arquitecturas eficientes bajo restricciones de latencia específicas.

Características clave

  • MAE-NAS Backbone: La estructura de la red se optimizó matemáticamente para maximizar el flujo de información y minimizar el coste computacional.
  • RepGFPN: Una red piramidal de características eficiente que utiliza la reparametrización para mejorar la fusión de características en diferentes escalas.
  • ZeroHead: un diseño de cabezal de detección ligero destinado a reducir el número de parámetros al final de la red.
  • AlignedOTA: una estrategia de asignación de etiquetas que ayuda al modelo a comprender mejor qué cuadros de anclaje corresponden a los objetos de referencia durante el entrenamiento.

AunqueYOLO un rendimiento excelente para su época, su dependencia de un complejo proceso de entrenamiento por destilación —en el que un modelo maestro más grande guía al modelo alumno más pequeño— hace que el entrenamiento personalizado requiera más recursos en comparación con las capacidades de «entrenamiento desde cero» de Ultralytics .

Comparación detallada

Estabilidad de la arquitectura y la formación

La diferencia más notable radica en el enfoque de optimización.YOLO en NAS para encontrar la mejor estructura, lo que puede generar FLOP teóricos muy eficientes, pero a menudo da lugar a arquitecturas difíciles de modificar o depurar.

YOLO26, por el contrario, emplea mejoras arquitectónicas artesanales e intuitivas (como la eliminación de DFL y el cabezal NMS) reforzadas por el optimizador MuSGD. Este optimizador aporta a la visión artificial la estabilidad que suele observarse en los LLM. Para los desarrolladores, esto significa que YOLO26 es menos sensible al ajuste de hiperparámetros y converge de forma fiable en conjuntos de datos personalizados.

Velocidad de Inferencia y Eficiencia de Recursos

Mientras queYOLO para GPU utilizando TensorRT, YOLO26 adopta un enfoque más amplio. La eliminación de DFL y NMS YOLO26 destacar en las CPU, alcanzando velocidades hasta un 43 % más rápidas que sus predecesores. Esto es crucial para aplicaciones en análisis minorista o ciudades inteligentes, donde los dispositivos periféricos pueden no tener GPU dedicadas.

Además, los requisitos de memoria de YOLO26 durante el entrenamiento son generalmente menores. Mientras queYOLO requiere entrenar un modelo maestro pesado para la destilación a fin de lograr resultados óptimos, YOLO26 alcanza resultados SOTA directamente, lo que ahorra una cantidad significativa de GPU y electricidad.

Versatilidad y ecosistema

Una de las principales ventajas del Ultralytics es su versatilidad.YOLO principalmente un detector de objetos. Por el contrario, la arquitectura YOLO26 admite de forma nativa una amplia gama de tareas de visión artificial, entre las que se incluyen:

Esto permite que un único equipo de desarrollo utilice una API y un marco de trabajo para múltiples problemas distintos, lo que reduce drásticamente la deuda técnica.

Tabla comparativa: Características

CaracterísticaYOLO26DAMO-YOLO
Fecha de lanzamientoEnero de 2026Noviembre de 2022
ArquitecturaDe extremo a extremo, NMSBasado en NAS, sin anclajes
PostprocesamientoNinguno (resultado del modelo = final)Supresión No Máxima (NMS)
OptimizadorMuSGD (SGD muón)SGD AdamW
Proceso de formaciónUna sola etapa, entrenamiento desde ceroDestilación compleja (profesor-alumno)
Tareas admitidasdetect, segment, Pose, obb, classifyDetección
Optimización para EdgeAlta (sin DFL, optimizada para CPU)Moderado (TensorRT )

Conclusión

Ambas arquitecturas representan hitos importantes en la historia de la detección de objetos.YOLO el poder de la búsqueda automatizada de arquitecturas y la reparametrización. Sin embargo, YOLO26 representa el futuro del despliegue práctico de la IA.

Al eliminar el NMS , introducir optimizadores de grado LLM como MuSGD y proporcionar una solución unificada para la segmentación, la pose y la detección, Ultralytics ofrece un equilibrio superior entre rendimiento y facilidad de uso. Para los desarrolladores que crean aplicaciones del mundo real, desde la automatización industrial hasta las aplicaciones móviles, el sólido ecosistema, la amplia documentación y la Ultralytics hacen que YOLO26 sea la recomendación clara.

Si te interesan otras comparaciones, puedes explorar YOLO11 YOLO o buscar alternativas basadas en transformadores como RT-DETR.

Autoría y referencias

YOLO26

DAMO-YOLO

  • Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
  • Organización: Alibaba Group
  • Fecha: 2022-11-23
  • Artículo:arXiv:2211.15444

Comentarios