Ir al contenido

YOLOv7 YOLO: equilibrio entre innovación arquitectónica y velocidad

El panorama de la detección de objetos en tiempo real experimentó cambios significativos en 2022 con la introducción de YOLOv7 y YOLO. Ambos modelos tenían como objetivo superar los límites de la precisión y la latencia, pero abordaron el reto desde perspectivas de ingeniería fundamentalmente diferentes. YOLOv7 en optimizar el proceso de entrenamiento mediante un enfoque de «bolsa de regalos», mientras queYOLO la búsqueda de arquitectura neuronal (NAS) para descubrir estructuras eficientes de forma automática.

Esta comparación exhaustiva analiza sus arquitecturas, métricas de rendimiento y metodologías de entrenamiento para ayudarle a decidir qué modelo se adapta mejor a sus aplicaciones específicas de visión artificial. Aunque ambos siguen siendo relevantes para proyectos heredados, también analizaremos por qué soluciones modernas como YOLO26 son ahora el estándar recomendado para nuevos desarrollos.

YOLOv7: El "Bag-of-Freebies" Entrenable

Lanzado en julio de 2022, YOLOv7 un hito importante en la YOLO , centrándose en reformas arquitectónicas que mejoraron la precisión sin aumentar los costes de inferencia.

Innovaciones Arquitectónicas

YOLOv7 la Red de Agregación de Capas Eficiente Extendida (E-ELAN). A diferencia de la ELAN estándar, que controla las rutas de gradiente más cortas y más largas, la E-ELAN utiliza la cardinalidad de expansión, mezcla y fusión para mejorar la capacidad de aprendizaje de la red sin destruir la ruta de gradiente original. Este diseño permite al modelo aprender características más diversas, mejorando el rendimiento en conjuntos de datos complejos como COCO.

Un concepto clave en YOLOv7 el «trainable bag-of-freebies» (bolsa de regalos entrenable). Se trata de métodos de optimización, como la reparametrización de modelos y la asignación dinámica de etiquetas, que aumentan los costes de entrenamiento para mejorar la precisión, pero no suponen ninguna penalización durante la inferencia. Esto convierte a YOLOv7 en YOLOv7 excelente opción para escenarios que requieren una alta precisión, como el análisis de imágenes médicas o la inspección industrial crítica para la seguridad.

Más información sobre YOLOv7

Desarrollado por Alibaba Group,YOLO posteriormente integrado en la suite de visión de DAMO-Academy) priorizaba la velocidad y la baja latencia, y estaba dirigido específicamente a aplicaciones industriales en las que se aplican estrictas restricciones de milisegundos.

MAE-NAS y destilación

La arquitecturaYOLO se derivó utilizando un método denominado MAE-NAS (método de búsqueda automatizada de arquitecturas neuronales eficientes). Este proceso automatizado encontró estructuras troncales que maximizaban el rendimiento de detección con presupuestos de latencia específicos. También introdujo RepGFPN (red piramidal de características generalizadas parametrizada por repetición) para una fusión eficiente de características y ZeroHead, un cabezal de detección ligero.

Una característica distintiva deYOLO su gran dependencia de la destilación. Los modelos suelen entrenarse con la ayuda de un modelo «maestro» más grande, que guía al modelo «alumno» para que aprenda mejores representaciones. Aunque esto produce una eficiencia impresionante, complica significativamente el proceso de entrenamiento en comparación con los flujos de trabajo estándar de detección de objetos.

Comparación de rendimiento

La siguiente tabla compara el rendimiento deYOLO YOLOv7 YOLO . YOLOv7 alcanza una mayor precisión (mAP), mientras queYOLO modelos extremadamente ligeros optimizados para la velocidad.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análisis de compensaciones

  • Precisión:YOLOv7x lidera con un mAP 53,1 %, lo que lo hace adecuado para tareas en las que pasar por alto una detección puede resultar costoso.
  • Velocidad:DAMO-YOLO es increíblemente rápido (2,32 ms en T4 TensorRT), ideal para la comprensión de vídeo con altos FPS o para su implementación en dispositivos periféricos con limitaciones.
  • Complejidad: los parámetros y FLOP YOLOv7 son significativamente más altos, lo que refleja su enfoque en la capacidad por encima de la eficiencia pura.

Nota sobre la complejidad de la formación

AunqueYOLO un excelente equilibrio entre velocidad y precisión, reproducir sus resultados en conjuntos de datos personalizados puede resultar complicado. Su receta de entrenamiento suele requerir un proceso de varias etapas que implica un modelo de enseñanza complejo para la destilación, mientras que YOLOv7 una metodología sencilla de «entrenamiento desde cero» que es más fácil de implementar.

Por qué Ultralytics es la mejor opción

Aunque YOLOv7 YOLO un gran impacto en su momento, el campo ha avanzado rápidamente. Para los desarrolladores e investigadores que inicien nuevos proyectos en 2026, YOLO26 ofrece una solución unificada que supera a sus predecesores al combinar una alta precisión con una implementación simplificada.

Facilidad de Uso y Ecosistema Inigualables

El Ultralytics es conocido por su diseño fácil de usar. A diferencia de las complejas tuberías de destilación deYOLO, YOLO26 ofrece una Python optimizada que se encarga de todo, desde la anotación de datos hasta la implementación de modelos.

Avances técnicos de YOLO26

YOLO26 introduce varias innovaciones clave que resuelven las limitaciones de las arquitecturas anteriores:

  1. Diseño integral NMS: al eliminar la supresión no máxima (NMS), YOLO26 reduce la latencia de inferencia y simplifica la lógica de exportación, una característica que no se encuentra ni en YOLOv7 enYOLO estándarYOLO .
  2. Optimizador MuSGD: inspirado en el entrenamiento LLM (como Kimi K2), este optimizador híbrido combina SGD Muon para una convergencia más rápida y un entrenamiento estable.
  3. Optimización de bordes: la eliminación de la pérdida focal de distribución (DFL) y CPU específicas CPU hacen que YOLO26 sea hasta un 43 % más rápido en la inferencia CPU en comparación con las generaciones anteriores, lo que responde a las necesidades de baja latencia queYOLO tenía como objetivoYOLO .
  4. ProgLoss + STAL: Las funciones de pérdida avanzadas mejoran la detección de objetos pequeños, una capacidad fundamental para las imágenes de drones y la robótica.

Más información sobre YOLO26

Ejemplo de código: Entrenamiento con Ultralytics

Este ejemplo muestra lo fácil que es entrenar un modelo YOLO26 moderno utilizando la Ultralytics . Esta interfaz única sustituye a los complejos archivos de configuración y los procesos de varias etapas que requerían los repositorios antiguos.

from ultralytics import YOLO

# Load the latest YOLO26 model (recommended over YOLOv7/DAMO-YOLO)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Conclusión

Tanto YOLOv7 YOLO significativamente a la evolución de la visión artificial. YOLOv7 que las arquitecturas diseñadas manualmente aún podían lograr resultados SOTA mediante estrategias de entrenamiento inteligentes, mientras queYOLO el poder de NAS para entornos con restricciones de latencia.

Sin embargo, para una implementación práctica y realista en la actualidad, YOLO26 es la opción definitiva. Ofrece un equilibrio entre alto rendimiento y velocidad, unos requisitos de memoria durante el entrenamiento drásticamente inferiores en comparación con Transformers y el sólido soporte del Ultralytics . Tanto si está desarrollando para el borde como para la nube, el diseño integral y la compatibilidad con tareas versátiles de YOLO26 proporcionan la ruta más eficiente hacia la producción.

Lecturas adicionales


Comentarios