YOLO26 vs YOLOv5: Un Salto Generacional en Detección de Objetos
La evolución de la visión por computadora se ha definido por la búsqueda incesante de velocidad, precisión y accesibilidad. Elegir la arquitectura adecuada es fundamental para el éxito de cualquier proyecto de IA. En esta guía exhaustiva, comparamos dos lanzamientos monumentales de Ultralytics: el pionero YOLOv5 y el revolucionario YOLO26. Si bien ambos han influido enormemente en el panorama de la detección de objetos en tiempo real, sus tecnologías subyacentes reflejan un cambio de paradigma masivo en cómo las redes neuronales procesan los datos visuales.
Descripción general del modelo
Antes de adentrarnos en los matices arquitectónicos, establezcamos los detalles fundamentales de ambos modelos.
Detalles de YOLO26:
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2026-01-14
- GitHub: https://github.com/ultralytics/ultralytics
- Documentación: YOLO26 Documentation
YOLOv5 Detalles:
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Documentación: Documentación de YOLOv5
Explorando otras opciones
Si bien esta guía se centra en YOLO26 y YOLOv5, los desarrolladores que migran sistemas heredados también podrían estar interesados en comparar YOLO11 o la arquitectura pionera sin NMS de YOLOv10. Ambos ofrecen excelentes puntos de partida para entornos de despliegue específicos.
Innovaciones Arquitectónicas
La brecha de seis años entre YOLOv5 y YOLO26 representa un salto masivo en la investigación de aprendizaje profundo. YOLOv5 popularizó el uso generalizado de PyTorch para modelos de visión, ofreciendo un mecanismo de detección basado en anclajes altamente optimizado que se convirtió en el estándar de la industria. Sin embargo, dependía en gran medida de la Supresión No Máxima (NMS) durante el postprocesamiento, lo que podía introducir cuellos de botella de latencia en dispositivos con recursos limitados.
YOLO26 rediseña completamente el pipeline de inferencia con un diseño de extremo a extremo sin NMS. Al eliminar la necesidad de posprocesamiento NMS, YOLO26 ofrece una lógica de despliegue más rápida y mucho más sencilla, un concepto pionero en YOLOv10 pero perfeccionado aquí. Además, YOLO26 presenta la eliminación de DFL (Distribution Focal Loss), lo que simplifica drásticamente el cabezal de salida. Esto hace que la exportación del modelo a formatos como ONNX y TensorRT sea increíblemente fluida, asegurando una excelente compatibilidad con dispositivos de borde y de baja potencia.
Durante el entrenamiento, YOLO26 emplea el vanguardista Optimizador MuSGD, un híbrido de SGD y Muon inspirado en Kimi K2 de Moonshot AI. Esto introduce innovaciones de entrenamiento de LLM en el ámbito de la visión por computadora, garantizando un entrenamiento altamente estable y una convergencia significativamente más rápida en comparación con los optimizadores SGD o AdamW tradicionales utilizados en YOLOv5.
Rendimiento y métricas
Al evaluar modelos, el equilibrio entre la precisión media promedio (mAP) y la velocidad de inferencia determina la viabilidad en el mundo real. YOLO26 está optimizado de forma nativa tanto para GPUs de gama alta como para CPUs de borde.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Los benchmarks revelan una mejora asombrosa. Por ejemplo, YOLO26n alcanza un mAP de 40.9 en comparación con YOLOv5nde 28.0, al tiempo que ofrece hasta un 43% más rápido en inferencia de CPU. Esto hace que YOLO26 sea muy superior para despliegues embebidos como Raspberry Pi o dispositivos móviles. Aunque YOLOv5 tiene una ligera ventaja en la velocidad de la GPU con TensorRT a escala Nano, la compensación de precisión favorece en gran medida a YOLO26.
Ecosistema de Entrenamiento y Facilidad de Uso
Ambos modelos se benefician enormemente del ecosistema Ultralytics bien mantenido. Ofrecen una experiencia "de cero a héroe" con una API Python optimizada, documentación extensa y soporte activo de la comunidad. Sin embargo, YOLO26 lleva la eficiencia del entrenamiento a un nuevo nivel.
Los modelos Ultralytics demandan consistentemente una memoria CUDA significativamente menor durante el entrenamiento que las alternativas con transformadores pesados. YOLO26 amplifica esto con sus funciones de pérdida ProgLoss + STAL. Estos avances producen mejoras notables en el reconocimiento de objetos pequeños sin aumentar la sobrecarga de memoria.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
Este sencillo script permite a los desarrolladores iterar rápidamente sobre conjuntos de datos personalizados, pasando sin problemas de la ingesta de datos a un modelo listo para producción.
Implementación simplificada
Utilizando la Plataforma Ultralytics, puede exportar automáticamente sus modelos YOLO26 entrenados a formatos como CoreML o TensorFlow Lite sin escribir una sola línea de código de conversión.
Versatilidad y Casos de Uso Ideales
¿Cuándo usar YOLOv5?
YOLOv5 sigue siendo un caballo de batalla fiable para sistemas heredados. Si tiene una pipeline industrial existente fuertemente acoplada a salidas basadas en anclas, o si está ejecutando inferencia en dispositivos NVIDIA Jetson más antiguos con pilas TensorRT maduras y congeladas, YOLOv5 proporciona una solución estable y altamente documentada.
¿Cuándo usar YOLO26?
YOLO26 es la elección definitiva para proyectos modernos de visión por computadora. Su versatilidad supera con creces a la de su predecesor. Mientras que YOLOv5 se centra principalmente en la detección (con adiciones posteriores de segmentación), YOLO26 ofrece un soporte profundo y nativo para segmentación de instancias, estimación de pose, clasificación de imágenes y Oriented Bounding Boxes (OBB).
YOLO26 introduce mejoras específicas para cada tarea, como una función de pérdida de segmentación semántica especializada, Estimación de Log-Verosimilitud Residual (RLE) para puntos clave de pose ultraprecisos, y una función de pérdida de ángulo avanzada para OBB para resolver problemas de límites complejos.
- IoT y Robótica en el Borde: La arquitectura sin NMS y la inferencia en CPU un 43% más rápida hacen que YOLO26 sea ideal para la navegación robótica en tiempo real y las cámaras inteligentes para el hogar.
- Imágenes Aéreas: Las mejoras de ProgLoss + STAL hacen que la detección de objetos diminutos desde drones—como vehículos en estacionamientos o cultivos en campos agrícolas—sea sustancialmente más fiable.
- Análisis de vídeo en tiempo real: Ya sea haciendo track de atletas en transmisiones deportivas o monitoreando flujos de tráfico, el equilibrio de rendimiento de YOLO26 asegura una alta recuperación sin pérdida de fotogramas.
En última instancia, el compromiso de Ultralytics con un ecosistema accesible y de alto rendimiento garantiza que la transición de YOLOv5 a YOLO26 sea fluida, desbloqueando capacidades de vanguardia tanto para investigadores como para desarrolladores.