Ir al contenido

YOLOv7 vs YOLO26: Evolución de la detección de objetos en tiempo real

El campo de la visión artificial evoluciona rápidamente, con cada nueva generación de modelos ampliando los límites de lo posible en el análisis en tiempo real. Esta comparación exhaustiva explora las diferencias entre el legado YOLOv7 y el vanguardista YOLO26, analizando sus arquitecturas, métricas de rendimiento y escenarios de implementación ideales. Mientras que YOLOv7 representó un hito significativo en 2022, YOLO26 introduce innovaciones revolucionarias como el procesamiento de extremo a extremo y estrategias de optimización derivadas del entrenamiento de Modelos de Lenguaje Grandes (LLM).

Descripción general del modelo

YOLOv7

Lanzado en julio de 2022, YOLOv7 introdujo el concepto de un "conjunto de mejoras entrenables gratuitas", optimizando el proceso de entrenamiento para mejorar la precisión sin aumentar los costes de inferencia. Se centró en gran medida en reformas arquitectónicas como las Redes de Agregación de Capas Eficientes Extendidas (E-ELAN) y técnicas de escalado de modelos.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 06-07-2022
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7

Ultralytics YOLO26

YOLO26, lanzado a principios de 2026, representa un cambio de paradigma en el linaje YOLO. Está diseñado para una máxima eficiencia en dispositivos de borde y una implementación optimizada. Las innovaciones clave incluyen un diseño nativo de extremo a extremo sin NMS, que elimina la necesidad de un postprocesamiento complejo, y la eliminación de la Distribution Focal Loss (DFL) para simplificar la exportabilidad.

Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 14-01-2026
Documentación:Ultralytics YOLO26
GitHub:ultralytics/ultralytics

Más información sobre YOLO26

Comparación Técnica

La siguiente tabla destaca el salto de rendimiento de YOLOv7 a YOLO26. Mientras que YOLOv7 estableció puntos de referencia en su momento, YOLO26 ofrece una velocidad y eficiencia superiores, particularmente para la inferencia basada en CPU.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Análisis de rendimiento

YOLO26l supera la precisión del mucho más pesado YOLOv7x (55.0 vs 53.1 mAP) mientras utiliza significativamente menos parámetros (24.8M vs 71.3M) y FLOPs (86.4B vs 189.9B). Esta eficiencia hace que YOLO26 sea ideal para entornos con recursos limitados donde la optimización del modelo es crítica.

Diferencias Arquitectónicas

Arquitectura de YOLOv7

La arquitectura de YOLOv7 se basa en E-ELAN (Extended Efficient Layer Aggregation Network), que permite a la red aprender características más diversas controlando las rutas de gradiente más cortas y más largas. También emplea el escalado de modelos para modelos basados en concatenación, ajustando la profundidad y el ancho de la red simultáneamente. Sin embargo, YOLOv7 todavía se basa en cabezas de detección basadas en anclajes y requiere Supresión No Máxima (NMS) durante el postprocesamiento para filtrar cuadros delimitadores duplicados. Este paso de NMS puede ser un cuello de botella en la implementación, a menudo requiriendo una implementación personalizada para diferentes backends de hardware como TensorRT o CoreML.

Arquitectura de YOLO26

YOLO26 introduce varios cambios radicales diseñados para simplificar la experiencia del usuario y aumentar el rendimiento:

  • De extremo a extremo sin NMS: Al adoptar una arquitectura nativa de extremo a extremo (pionera en YOLOv10), YOLO26 elimina la necesidad de NMS. El modelo genera las detecciones finales directamente, reduciendo la latencia y simplificando significativamente las cadenas de implementación.
  • Eliminación de DFL: La eliminación de la Distribution Focal Loss optimiza la cabeza de salida, haciendo que el modelo sea más compatible con dispositivos de borde y formatos de menor precisión como INT8.
  • Optimizador MuSGD: Inspirado en innovaciones en el entrenamiento de Modelos de Lenguaje Grandes (LLM) como Kimi K2 de Moonshot AI, YOLO26 utiliza un optimizador MuSGD híbrido. Esto combina el momento de SGD con las propiedades adaptativas del optimizador Muon, lo que resulta en un entrenamiento más estable y una convergencia más rápida.
  • Optimización de objetos pequeños: La integración de Progressive Loss Balancing (ProgLoss) y Small-Target-Aware Label Assignment (STAL) aborda directamente los desafíos comunes en la detección de objetos pequeños, haciendo que YOLO26 sea particularmente efectivo para imágenes aéreas y aplicaciones de IoT.

Entrenamiento y usabilidad

Facilidad de uso

Una de las características distintivas del Ecosistema Ultralytics es la accesibilidad. Mientras que YOLOv7 requiere clonar un repositorio específico y gestionar archivos de configuración complejos, YOLO26 está integrado directamente en el ultralytics paquete python. Esto proporciona una API unificada para el entrenamiento, la validación y el despliegue.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single line of code
results = model.train(data="coco8.yaml", epochs=100)

Versatilidad

YOLOv7 se centra principalmente en la detección de objetos y la estimación de pose. En contraste, YOLO26 ofrece un marco unificado que soporta una gama más amplia de tareas de visión artificial, incluyendo:

  • Segmentación de instancias: Con pérdidas especializadas para un enmascaramiento preciso.
  • Estimación de pose: Utilizando la Estimación de Log-Verosimilitud Residual (RLE) para puntos clave precisos.
  • Cajas delimitadoras orientadas (OBB): Con una pérdida de ángulo especializada para objetos rotados.
  • Clasificación: Para una categorización eficiente de imágenes.

Eficiencia del entrenamiento

El proceso de entrenamiento de YOLO26 está altamente optimizado. El optimizador MuSGD permite una convergencia más rápida, lo que significa que los usuarios pueden lograr mejores resultados en menos épocas en comparación con optimizadores más antiguos. Además, la menor huella de memoria de los modelos YOLO26 permite tamaños de lote más grandes en el mismo hardware, acelerando aún más el ciclo de entrenamiento. Esto representa una ventaja significativa sobre los modelos basados en transformadores, que suelen requerir una memoria CUDA sustancial.

Aplicaciones en el mundo real

Dónde destaca YOLOv7

YOLOv7 sigue siendo un modelo capaz para investigadores interesados en las propiedades arquitectónicas específicas de las redes ELAN o para aquellos que mantienen sistemas heredados construidos alrededor de la arquitectura estilo Darknet. Sirve como un excelente punto de referencia para la comparación académica.

Donde YOLO26 Sobresale

YOLO26 es la opción recomendada para la mayoría de las aplicaciones modernas debido a su equilibrio de rendimiento y facilidad de despliegue:

  • Computación en el Borde: Con una inferencia en CPU hasta un 43% más rápida, YOLO26 es perfecto para ejecutarse en Raspberry Pi, dispositivos móviles o servidores locales sin GPU dedicadas.
  • Robótica y Sistemas Autónomos: El diseño de extremo a extremo reduce la variabilidad de la latencia, lo cual es crítico para la toma de decisiones en tiempo real en robótica. La detección mejorada de objetos pequeños (mediante STAL) ayuda en la navegación y la evitación de obstáculos.
  • Despliegue Comercial: La eliminación de NMS y DFL simplifica el proceso de exportación a formatos como ONNX, TensorRT y CoreML, asegurando un comportamiento consistente en diferentes entornos de despliegue.
  • Monitorización Agrícola: La alta precisión en la detección de objetos pequeños hace que YOLO26 sea excelente para tareas como la identificación de plagas o el recuento de cultivos a partir de imágenes de drones.

Migración desde YOLOv7

Los usuarios que migren de YOLOv7 a YOLO26 encontrarán la transición fluida gracias a la API de Ultralytics. Las grandes mejoras en velocidad y facilidad de exportación suelen justificar la actualización para sistemas de producción. Para aquellos que buscan otras alternativas modernas, YOLO11 es otra opción robusta totalmente compatible con el ecosistema de Ultralytics.

Conclusión

Aunque YOLOv7 fue una contribución significativa a la comunidad de código abierto, YOLO26 representa el futuro de la visión artificial eficiente. Al abordar cuellos de botella críticos como NMS y aprovechar técnicas de optimización modernas del mundo de los LLM, YOLO26 ofrece un modelo que no solo es más rápido y ligero, sino también significativamente más fácil de entrenar y desplegar.

Para los desarrolladores que buscan una solución fiable, bien mantenida y versátil, YOLO26 es la opción superior. Su integración en el ecosistema de Ultralytics garantiza el acceso a actualizaciones continuas, documentación exhaustiva y una próspera comunidad de soporte.

Más información sobre YOLO26


Comentarios