YOLOv5 vs. YOLO26: Evolución de la detección de objetos en tiempo real
La evolución de la detección de objetos ha estado marcada por avances significativos en eficiencia y precisión. Durante años, YOLOv5 se mantuvo como el estándar de la industria, apreciado por su equilibrio entre velocidad y facilidad de uso. Sin embargo, el panorama de la visión artificial cambia rápidamente. Presentamos YOLO26, la última generación de Ultralytics, que redefine lo que es posible tanto en dispositivos edge como en servidores de alto rendimiento.
Esta guía ofrece una comparación técnica entre el legendario YOLOv5 y el vanguardista YOLO26, analizando sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a elegir la herramienta adecuada para su próximo proyecto de visión artificial.
Comparación de un vistazo
Aunque ambos modelos son el resultado del compromiso de Ultralytics con la IA accesible, representan diferentes eras de filosofía de diseño. YOLOv5 se centró en establecer un ecosistema robusto y fácil de usar, mientras que YOLO26 supera los límites de la latencia y la eficiencia arquitectónica.
YOLOv5: El estándar heredado
Lanzado en junio de 2020 por Glenn Jocher, YOLOv5 revolucionó la accesibilidad de la detección de objetos. Fue uno de los primeros modelos en ofrecer una experiencia de entrenamiento fluida directamente dentro del ecosistema PyTorch, alejándose del framework Darknet de sus predecesores.
- Fecha: 2020-06-26
- Autores: Glenn Jocher
- Organización:Ultralytics
- Característica clave: Detección basada en anclajes que requiere supresión no máxima (NMS).
YOLOv5 sigue siendo una solución robusta y fiable, especialmente para sistemas heredados donde la actualización del pipeline de inferencia podría ser costosa. Su arquitectura "Anchor-Based" se basa en cajas predefinidas para predecir la ubicación de los objetos, un método eficaz pero que requiere un ajuste cuidadoso de los hiperparámetros.
YOLO26: La nueva frontera
Lanzado en enero de 2026 por Glenn Jocher y Jing Qiu, YOLO26 introduce cambios arquitectónicos radicales diseñados para la era moderna de la Edge AI. Se aleja de las anclas y del postprocesamiento complejo para ofrecer una velocidad pura sin comprometer la precisión.
- Fecha: 2026-01-14
- Autores: Glenn Jocher, Jing Qiu
- Organización:Ultralytics
- Característica Clave: NMS-Free de extremo a extremo, Optimizador MuSGD, Eliminación de DFL.
YOLO26 está diseñado para desarrolladores que necesitan el máximo rendimiento. Al eliminar la necesidad de NMS, simplifica la lógica de despliegue y reduce la latencia, convirtiéndolo en la opción superior para aplicaciones en tiempo real en CPUs y dispositivos móviles.
Comparación del rendimiento técnico
Las siguientes métricas destacan el salto generacional en el rendimiento. Las pruebas se realizaron en el conjunto de datos COCO, un referente estándar para las tareas de detección de objetos.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Puntos clave
- Eficiencia de CPU: YOLO26n es casi 2 veces más rápido en CPU que YOLOv5n, al tiempo que ofrece un salto masivo en precisión (28.0% vs 40.9% mAP). Esto es fundamental para despliegues en Raspberry Pi o dispositivos móviles donde los recursos de GPU no están disponibles.
- Eficiencia de Parámetros: YOLO26x logra una precisión significativamente mayor (57.5% mAP) que YOLOv5x (50.7%) utilizando casi la mitad de los parámetros (55.7M vs 97.2M). Esta reducción en el tamaño del modelo disminuye los requisitos de memoria y los costos de almacenamiento.
- Compromiso Precisión/Velocidad: La versión "Nano" de YOLO26 supera a la versión "Small" de YOLOv5 en precisión, a pesar de ser una clase de modelo más pequeña.
Actualización desde YOLOv5
Si actualmente utiliza YOLOv5s, cambiar a YOLO26n probablemente le proporcionará mayor precisión y inferencia más rápida simultáneamente, reduciendo tanto sus costos de cómputo como la latencia.
Análisis Arquitectónico en Profundidad
La brecha de rendimiento se debe a diferencias fundamentales en cómo los modelos abordan el problema de la detección.
1. Diseño de extremo a extremo sin NMS
YOLOv5 utiliza un enfoque tradicional que genera miles de posibles cajas delimitadoras. Un paso de postprocesamiento llamado Supresión No Máxima (NMS) es necesario para filtrar estas hasta las detecciones finales. Este paso es a menudo lento y difícil de acelerar en hardware como FPGAs o NPUs.
YOLO26 es nativamente de extremo a extremo. Utiliza una estrategia de asignación de doble etiqueta durante el entrenamiento que fuerza al modelo a predecir una única caja de alta calidad por objeto. Esto elimina completamente el paso de NMS durante la inferencia.
- Beneficio: Menor latencia y pipelines de despliegue más simples (no es necesario implementar NMS en C++ o CUDA para exportaciones personalizadas).
- Resultado: Hasta un 43% más rápido en inferencia de CPU en comparación con generaciones anteriores que dependían de un postprocesamiento intensivo.
2. Funciones de pérdida: Eliminación de DFL y ProgLoss
YOLOv5 (y el posterior YOLOv8) utilizaba Distribution Focal Loss (DFL) para refinar los límites de las cajas. Aunque eficaz, DFL añade una sobrecarga computacional y complejidad al proceso de exportación.
YOLO26 elimina DFL, volviendo a un cabezal de regresión simplificado que es más fácil de cuantificar para despliegues INT8. Para compensar cualquier posible pérdida de precisión, YOLO26 introduce ProgLoss (Balanceo Progresivo de Pérdidas) y STAL (Asignación de Etiquetas Sensible a Objetivos Pequeños).
- STAL: Aborda específicamente el problema de los "objetos pequeños", impulsando el rendimiento en objetivos distantes o diminutos, una debilidad común en versiones anteriores de YOLO, incluida la v5.
- ProgLoss: Ajusta dinámicamente el peso de diferentes componentes de pérdida durante el entrenamiento para estabilizar la convergencia.
3. El optimizador MuSGD
La estabilidad del entrenamiento fue un enfoque principal para el equipo de YOLO26. Mientras que YOLOv5 normalmente se basaba en optimizadores SGD o Adam estándar, YOLO26 incorpora MuSGD, un optimizador híbrido inspirado en Kimi K2 de Moonshot AI y en las técnicas de entrenamiento de Modelos de Lenguaje Grandes (LLM).
- Innovación: Aporta la estabilidad de la optimización Muon a la visión por computadora, permitiendo tasas de aprendizaje más altas y una convergencia más rápida sin el riesgo de picos de pérdida.
Versatilidad y Soporte de Tareas
Ambos modelos están integrados en el ecosistema Ultralytics, lo que significa que soportan una amplia gama de tareas de visión por computadora. Sin embargo, YOLO26 incluye mejoras arquitectónicas específicas para cada tarea de las que carece YOLOv5.
| Característica | YOLOv5 | YOLO26 |
|---|---|---|
| Detección de objetos | ✅ Basado en anclas estándar | ✅ NMS-Free, STAL para objetos pequeños |
| Segmentación | ✅ Añadido en v7.0 | ✅ Pérdida Semántica y Proto multiescala |
| Estimación de pose | ❌ (Disponible en bifurcaciones) | ✅ RLE (Estimación de Verosimilitud Logarítmica Residual) |
| OBB | ❌ (Disponible en bifurcaciones) | ✅ Pérdida de Ángulo para una rotación precisa |
| Clasificación | ✅ Compatible | ✅ Arquitecturas optimizadas |
El soporte de YOLO26 para la Estimación de Verosimilitud Logarítmica Residual (RLE) en la estimación de pose proporciona puntos clave significativamente más precisos para el seguimiento de la pose humana, lo que lo hace superior para análisis deportivos y aplicaciones de atención médica.
Entrenamiento y Uso
Una de las fortalezas del ecosistema Ultralytics es la API unificada. Ya sea que utilice YOLOv5 (a través del paquete moderno) o YOLO26, el código sigue siendo consistente y simple.
Ejemplo de código python
Así es como puede entrenar e inferir con ambos modelos utilizando el ultralytics paquete. Tenga en cuenta que para YOLOv5, el paquete moderno utiliza los yolov5u pesos (adaptados sin anclajes) por defecto para una mejor compatibilidad, pero la comparación es válida para la arquitectura.
from ultralytics import YOLO
# Load the models
model_v5 = YOLO("yolov5s.pt") # Legacy standard
model_26 = YOLO("yolo26n.pt") # New NMS-free standard
# Comparison: Inference on an image
# YOLO26 requires no NMS post-processing arguments in export/deployment
results_v5 = model_v5("https://ultralytics.com/images/bus.jpg")
results_26 = model_26("https://ultralytics.com/images/bus.jpg")
# Print results to see speed differences
print(f"YOLOv5 Speed: {results_v5[0].speed}")
print(f"YOLO26 Speed: {results_26[0].speed}")
# Train YOLO26 on custom data
# The MuSGD optimizer is handled automatically
results = model_26.train(data="coco8.yaml", epochs=100, imgsz=640)
La Plataforma Ultralytics (anteriormente HUB) simplifica aún más esto al permitirle gestionar conjuntos de datos y entrenar ambos modelos en la nube sin escribir código, aunque YOLO26 es la opción predeterminada recomendada para nuevos proyectos creados en la plataforma.
Implementación y ecosistema
YOLOv5 cuenta con un enorme ecosistema heredado. Existen miles de tutoriales, repositorios de terceros e integraciones de hardware escritos específicamente para yolov5 formatos. Si trabaja con una pipeline de hardware rígida y antigua que requiere estrictamente la forma exacta del tensor de salida de YOLOv5, sigue siendo una opción viable.
Sin embargo, para la implementación moderna, YOLO26 ofrece opciones de exportación superiores.
- IA en el Borde: La eliminación de DFL y NMS hace que los modelos YOLO26 sean significativamente más fáciles de convertir a formatos como TensorRT y OpenVINO.
- Cuantificación: YOLO26 está diseñado para ser compatible con la cuantificación, manteniendo una mayor precisión al convertirse a INT8 para procesadores móviles.
Conclusión
Mientras que YOLOv5 sigue siendo un modelo legendario que democratizó la detección de objetos, YOLO26 representa el futuro. Con su diseño de extremo a extremo sin NMS, la eliminación de funciones de pérdida pesadas y la integración de optimizadores inspirados en LLM como MuSGD, YOLO26 ofrece un perfil de rendimiento que YOLOv5 simplemente no puede igualar.
Para los desarrolladores que inician nuevos proyectos, YOLO26 es la recomendación clara. Ofrece mayor precisión con menor latencia, menor uso de memoria y una ruta de implementación más sencilla.
Explorar Otros Modelos
Para los usuarios interesados en arquitecturas especializadas, considere explorar YOLO11, el predecesor directo de YOLO26 que ofrece un excelente rendimiento de propósito general, o YOLO-World para tareas de detección de vocabulario abierto donde necesita detect objetos no presentes en su conjunto de entrenamiento.