YOLO26 vs YOLOv5: Un salto generacional en la detección de objetos

La evolución de la visión artificial se ha definido por la búsqueda incesante de velocidad, precisión y accesibilidad. Elegir la arquitectura adecuada es fundamental para el éxito de cualquier proyecto de IA. En esta guía completa, comparamos dos lanzamientos monumentales de Ultralytics: el pionero YOLOv5 y el innovador YOLO26. Aunque ambos han influido enormemente en el panorama de la detección de objetos en tiempo real, sus tecnologías subyacentes reflejan un cambio de paradigma masivo en cómo las redes neuronales procesan datos visuales.

Descripción general del modelo

Antes de profundizar en los matices arquitectónicos, establezcamos los detalles fundamentales de ambos modelos.

Detalles de YOLO26:

Más información sobre YOLO26

Detalles de YOLOv5:

Más información sobre YOLOv5

Exploración de otras opciones

Aunque esta guía se centra en YOLO26 y YOLOv5, los desarrolladores que migran sistemas heredados también podrían estar interesados en comparar YOLO11 o la arquitectura pionera sin NMS de YOLOv10. Ambos ofrecen excelentes puntos de partida para entornos de despliegue específicos.

Innovaciones arquitectónicas

La brecha de seis años entre YOLOv5 y YOLO26 representa un salto masivo en la investigación de aprendizaje profundo. YOLOv5 popularizó el uso generalizado de PyTorch para modelos de visión, ofreciendo un mecanismo de detección basado en anclas altamente optimizado que se convirtió en el estándar de la industria. Sin embargo, dependía en gran medida de la Supresión no máxima (NMS) durante el postprocesamiento, lo que podía introducir cuellos de botella de latencia en dispositivos con recursos limitados.

YOLO26 reimagina por completo el flujo de inferencia con un diseño de extremo a extremo sin NMS. Al eliminar la necesidad de postprocesamiento NMS, YOLO26 ofrece una lógica de despliegue mucho más rápida y sencilla, un concepto pionero en YOLOv10 pero perfeccionado aquí. Además, YOLO26 presenta la eliminación de DFL (Distribution Focal Loss), que simplifica drásticamente el cabezal de salida. Esto hace que exportar el modelo a formatos como ONNX y TensorRT sea increíblemente fluido, garantizando una excelente compatibilidad con dispositivos de borde y de bajo consumo.

Durante el entrenamiento, YOLO26 emplea el optimizador de vanguardia MuSGD Optimizer, un híbrido de SGD y Muon inspirado en Kimi K2 de Moonshot AI. Esto aporta innovaciones de entrenamiento de LLM al ámbito de la visión artificial, garantizando un entrenamiento altamente estable y una convergencia significativamente más rápida en comparación con los optimizadores tradicionales SGD o AdamW utilizados en YOLOv5.

Rendimiento y métricas

Al evaluar modelos, el equilibrio entre la precisión media promedio (mAP) y la velocidad de inferencia determina la viabilidad en el mundo real. YOLO26 está optimizado de forma nativa tanto para GPU de gama alta como para CPU de borde.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Los puntos de referencia revelan una mejora asombrosa. Por ejemplo, YOLO26n logra un mAP de 40.9 en comparación con los 28.0 de YOLOv5n, ofreciendo al mismo tiempo una inferencia de CPU hasta un 43 % más rápida. Esto hace que YOLO26 sea muy superior para despliegues integrados como Raspberry Pi o dispositivos móviles. Aunque YOLOv5 mantiene una ligera ventaja en la velocidad de GPU de TensorRT a escala Nano, la compensación de precisión favorece enormemente a YOLO26.

Ecosistema de entrenamiento y facilidad de uso

Ambos modelos se benefician enormemente del ecosistema Ultralytics, bien mantenido. Ofrecen una experiencia "de cero a cien" con una API de Python optimizada, documentación extensa y soporte comunitario activo. Sin embargo, YOLO26 lleva la eficiencia del entrenamiento a un nuevo nivel.

Los modelos de Ultralytics requieren constantemente mucha menos memoria CUDA durante el entrenamiento que las alternativas centradas en Transformer. YOLO26 amplifica esto con sus funciones de pérdida ProgLoss + STAL. Estos avances generan mejoras notables en el reconocimiento de objetos pequeños sin aumentar la sobrecarga de memoria.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Este sencillo script permite a los desarrolladores iterar rápidamente sobre conjuntos de datos personalizados, pasando sin problemas de la ingesta de datos a un modelo listo para producción.

Despliegue simplificado

Mediante la plataforma Ultralytics, puedes exportar automáticamente tus modelos YOLO26 entrenados a formatos como CoreML o TensorFlow Lite sin escribir una sola línea de código de conversión.

Versatilidad y casos de uso ideales

Cuándo usar YOLOv5

YOLOv5 sigue siendo un caballo de batalla fiable para sistemas heredados. Si tienes un pipeline industrial existente fuertemente acoplado a salidas basadas en anclas, o si ejecutas inferencia en dispositivos NVIDIA Jetson más antiguos con pilas TensorRT maduras y fijas, YOLOv5 ofrece una solución estable y altamente documentada.

Cuándo usar YOLO26

YOLO26 es la elección definitiva para proyectos modernos de visión artificial. Su versatilidad supera con creces a la de su predecesor. Mientras que YOLOv5 se centra principalmente en la detección (con adiciones posteriores de segmentación), YOLO26 ofrece un soporte nativo profundo para segmentación de instancias, estimación de pose, clasificación de imágenes y cuadros delimitadores orientados (OBB).

YOLO26 introduce mejoras específicas para cada tarea, como una pérdida de segmentación semántica especializada, estimación de probabilidad logarítmica residual (RLE) para puntos clave de pose ultraprecisos y una pérdida de ángulo avanzada para OBB, con el fin de resolver problemas complejos de límites.

  • IoT de borde y robótica: La arquitectura sin NMS y una inferencia de CPU un 43 % más rápida hacen que YOLO26 sea ideal para la navegación robótica en tiempo real y cámaras domésticas inteligentes.
  • Imágenes aéreas: Las mejoras de ProgLoss + STAL hacen que la detección de objetos diminutos desde drones, como vehículos en aparcamientos o cultivos en campos agrícolas, sea sustancialmente más fiable.
  • Análisis de vídeo en tiempo real: Ya sea rastreando atletas en retransmisiones deportivas o monitorizando flujos de tráfico, el equilibrio de rendimiento de YOLO26 garantiza una alta recuperación sin perder fotogramas.

En última instancia, el compromiso de Ultralytics con un ecosistema accesible y de alto rendimiento garantiza que la transición de YOLOv5 a YOLO26 sea fluida, desbloqueando capacidades de vanguardia tanto para investigadores como para desarrolladores.

Comentarios