Ir al contenido

YOLO26 vs. YOLOv5: Comparación de Arquitectura, Velocidad y Casos de Uso

La evolución de los modelos de detección de objetos ha sido rápida y transformadora. En esta comparación, exploramos las características distintivas de Ultralytics YOLO26 y Ultralytics YOLOv5, examinando cómo los avances en la arquitectura y las metodologías de entrenamiento han moldeado sus capacidades. Mientras que YOLOv5 sigue siendo un pilar fundamental en la comunidad de visión por computadora, el recién lanzado YOLO26 introduce eficiencias innovadoras diseñadas para el despliegue en el borde de próxima generación y la inferencia de alta velocidad.

Descripción general del modelo

Ambos modelos representan hitos significativos en la historia de la arquitectura YOLO (You Only Look Once). Comparten un compromiso con el rendimiento en tiempo real y la facilidad de uso, aunque atienden a eras ligeramente diferentes del desarrollo de la IA.

Ultralytics YOLO26

YOLO26 es la última iteración de Ultralytics, lanzada en enero de 2026. Representa un cambio hacia arquitecturas nativamente de extremo a extremo que eliminan la necesidad de post-procesamiento de Supresión No Máxima (NMS). Diseñado pensando en la computación de borde, simplifica el despliegue al tiempo que amplía los límites de la precisión.

  • Autores: Glenn Jocher y Jing Qiu
  • Organización:Ultralytics
  • Fecha: 2026-01-14
  • Documentación:Documentación de YOLO26
  • Innovación Clave: Detección de extremo a extremo sin NMS, eliminación de DFL y optimizador MuSGD.

Más información sobre YOLO26

Ultralytics YOLOv5

YOLOv5 fue lanzado a mediados de 2020 y rápidamente se convirtió en el estándar de la industria por su equilibrio entre velocidad, precisión e ingeniería fácil de usar. Introdujo el ecosistema PyTorch a millones de desarrolladores y sigue siendo ampliamente utilizado en entornos de producción donde la estabilidad y el soporte de versiones anteriores son primordiales.

  • Autor: Glenn Jocher
  • Organización:Ultralytics
  • Fecha: 2020-06-26
  • Documentación:Documentación de YOLOv5
  • Innovación Clave: Implementación PyTorch fácil de usar, aumento de mosaico y mecanismos de auto-anclaje.

Más información sobre YOLOv5

Diferencias Arquitectónicas

La transición de YOLOv5 a YOLO26 implica cambios fundamentales en cómo se detectan los objetos y cómo se optimiza el modelo durante el entrenamiento.

De Extremo a Extremo vs. Post-Procesamiento

YOLOv5 se basa en la Supresión No Máxima (NMS) para filtrar cuadros delimitadores duplicados. Aunque efectiva, NMS es un proceso heurístico que puede ser un cuello de botella durante la inferencia, especialmente en dispositivos de borde con ciclos de CPU limitados. Introduce hiperparámetros como los umbrales de IoU que deben ajustarse para conjuntos de datos específicos.

En contraste, YOLO26 es nativamente de extremo a extremo. Al adoptar un diseño pionero en YOLOv10, YOLO26 predice el conjunto exacto de objetos directamente desde la salida de la red sin requerir NMS. Esto simplifica significativamente la cadena de despliegue, ya que la salida del modelo es el resultado final.

Simplicidad de Despliegue

La eliminación de NMS en YOLO26 significa que ya no es necesario compilar pasos complejos de post-procesamiento al exportar a formatos como CoreML o TensorRT. La salida bruta del modelo está lista para usar, lo que reduce la latencia y la complejidad de la integración.

Funciones de pérdida y optimización

YOLO26 introduce ProgLoss (Balance de Pérdida Progresivo) y STAL (Asignación de Etiquetas Sensible a Objetivos Pequeños). Estas innovaciones abordan específicamente las debilidades comunes en la detección de objetos, como la dificultad para detectar objetos pequeños en imágenes aéreas o escenas abarrotadas. ProgLoss ajusta dinámicamente el peso de los diferentes componentes de pérdida durante el entrenamiento para estabilizar la convergencia.

Además, YOLO26 utiliza el optimizador MuSGD, un híbrido de SGD y el optimizador Muon inspirado en técnicas de entrenamiento de Modelos de Lenguaje Grandes (LLM). Esto aporta la estabilidad del entrenamiento de LLM a la visión por computadora, lo que resulta en una convergencia más rápida y pesos más robustos.

Arquitectura de Cabezal Simplificada

Un cambio importante en YOLO26 es la eliminación de Distribution Focal Loss (DFL). Si bien DFL ayudó con la precisión de los cuadros en iteraciones anteriores como YOLOv8, añadió una sobrecarga computacional y complejidad durante la exportación. Al refinar la pérdida de regresión, YOLO26 logra alta precisión sin DFL, lo que lo hace hasta un 43% más rápido en CPUs en comparación con generaciones anteriores, una métrica crucial para aplicaciones de IA de borde.

Comparación de métricas de rendimiento

La siguiente tabla compara el rendimiento de YOLO26 y YOLOv5 en el conjunto de datos COCO. YOLO26 demuestra ganancias significativas tanto en precisión (mAP) como en velocidad de inferencia, particularmente en hardware de CPU donde sus optimizaciones arquitectónicas destacan.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Puntos clave

  1. Salto en Precisión: YOLO26n (Nano) logra un mAP de 40.9, superando significativamente al YOLOv5n con 28.0 mAP. Esto permite a los usuarios desplegar modelos más pequeños sin sacrificar la calidad de la detección.
  2. Eficiencia de CPU: La simplificación arquitectónica en YOLO26 resulta en una inferencia de CPU drásticamente más rápida. Por ejemplo, YOLO26n se ejecuta a ~39ms en CPU, en comparación con ~74ms para YOLOv5n, lo que lo hace ideal para raspberry pi o despliegues móviles.
  3. Eficiencia de Parámetros: YOLO26 logra una mayor precisión con menos parámetros en muchos casos (por ejemplo, YOLO26l tiene 24.8M de parámetros frente a los 53.2M de YOLOv5l), reduciendo la huella de memoria durante el entrenamiento y la inferencia.

Entrenamiento y ecosistema

Ambos modelos se benefician del robusto ecosistema de Ultralytics, pero YOLO26 aprovecha herramientas más nuevas e integraciones más profundas.

Facilidad de uso y API

Ambos modelos utilizan el paquete unificado de ultralytics python (YOLOv5 era originalmente independiente, pero ahora está integrado). Esto asegura que cambiar entre ellos sea tan simple como modificar una cadena de nombre de modelo.

from ultralytics import YOLO

# Load YOLO26 for state-of-the-art performance
model_26 = YOLO("yolo26n.pt")
model_26.train(data="coco8.yaml", epochs=100)

# Load YOLOv5 for legacy comparison
model_v5 = YOLO("yolov5nu.pt")
model_v5.train(data="coco8.yaml", epochs=100)

Características Avanzadas de Entrenamiento

YOLO26 soporta estrategias mejoradas de aumento de datos y el nuevo optimizador MuSGD, que ayuda a escapar de los mínimos locales de manera más efectiva que el SGD estándar utilizado en YOLOv5. Además, YOLO26 ofrece mejoras específicas para tareas, como la Estimación de Verosimilitud Logarítmica Residual (RLE) para la estimación de pose y pérdidas angulares especializadas para tareas de Oriented Bounding Box (obb), características que estaban ausentes o menos refinadas en la era de YOLOv5.

Los usuarios también pueden aprovechar la Plataforma Ultralytics para gestionar conjuntos de datos, entrenar modelos en la nube y desplegar en varios puntos finales de forma fluida.

Casos de Uso Ideales

Cuándo Elegir YOLO26

YOLO26 es la opción recomendada para casi todos los proyectos nuevos debido a su superior relación precisión-latencia.

  • IA en el Borde e IoT: Con la eliminación de DFL y la inferencia sin NMS, YOLO26 es perfecto para dispositivos como NVIDIA Jetson, Raspberry Pi o teléfonos móviles donde la eficiencia de CPU/NPU es crítica.
  • detect de Objetos Pequeños: Gracias a STAL, YOLO26 sobresale en escenarios como imágenes de drones o detect de defectos en la fabricación, donde los objetivos suelen ser diminutos en relación con el tamaño de la imagen.
  • Análisis de Video en Tiempo Real: Las mejoras de velocidad permiten procesar tasas de fotogramas más altas, esencial para el monitoreo de tráfico o el análisis deportivo.

Cuándo elegir YOLOv5

Aunque más antiguo, YOLOv5 todavía tiene un nicho:

  • Sistemas Heredados: Las pipelines existentes construidas estrictamente alrededor de la estructura del repositorio YOLOv5 de la era 2020 pueden encontrar más fácil mantener el modelo antiguo que migrar.
  • Soporte de Hardware Más Amplio: Al ser más antiguo, YOLOv5 ha sido portado a prácticamente todas las plataformas concebibles, incluyendo microcontroladores muy oscuros que quizás aún no tengan soporte optimizado para arquitecturas más nuevas.

Conclusión

Mientras que YOLOv5 sentó las bases para la detect de objetos moderna con su accesibilidad y fiabilidad, YOLO26 representa un salto significativo. Al adoptar un diseño de extremo a extremo sin NMS, optimizar para hardware de borde e incorporar técnicas de entrenamiento avanzadas como MuSGD y ProgLoss, YOLO26 ofrece una actualización convincente para los desarrolladores que buscan el mejor rendimiento.

Para la mayoría de los usuarios, la elección es clara: YOLO26 proporciona la velocidad, precisión y versatilidad necesarias para las exigentes aplicaciones de visión por computadora actuales.

Explorar Otros Modelos

Si está interesado en explorar otras arquitecturas, consulte YOLO11, el predecesor directo de YOLO26, o YOLO-World para capacidades de detect de vocabulario abierto.


Comentarios