YOLOv7 YOLOv9: evolución de la detección de objetos en tiempo real
El panorama de la visión artificial ha experimentado una rápida evolución, con la familia YOLO You Only Look Once) liderando constantemente la detección de objetos en tiempo real. Dos hitos importantes en esta línea son YOLOv7, lanzado en julio de 2022, y YOLOv9, lanzado en febrero de 2024. Aunque ambas arquitecturas fueron desarrolladas por investigadores del Instituto de Ciencias de la Información de la Academia Sinica, representan generaciones distintas de optimización del aprendizaje profundo.
Esta guía ofrece una comparación técnica de estos dos potentes modelos, analizando sus innovaciones arquitectónicas, métricas de rendimiento y casos de uso ideales dentro del Ultralytics .
Innovaciones Arquitectónicas
La diferencia fundamental entre estos modelos radica en cómo gestionan la propagación de características y el flujo de gradientes a través de redes profundas.
YOLOv7: La bolsa de regalos
Escrito por Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao, YOLOv7 introdujo la E-ELAN (Extended Efficient Layer Aggregation Network, red de agregación de capas eficiente ampliada). Esta arquitectura permite a la red aprender características más diversas mediante el control de las rutas de gradiente más cortas y más largas.
YOLOv7 famoso por su «Bag-of-Freebies», una colección de métodos de entrenamiento que mejoran la precisión sin aumentar el coste de inferencia. Entre ellos se incluyen técnicas de reparametrización y supervisión auxiliar, que ayudan al modelo a aprender mejores representaciones durante el entrenamiento, pero que se fusionan o eliminan durante la exportación del modelo para acelerar su implementación.
YOLOv9: Información de Gradiente Programable
YOLOv9, desarrollado por Chien-Yao Wang y Hong-Yuan Mark Liao, aborda el problema del «cuello de botella de la información» inherente a las redes profundas. A medida que los datos pasan por capas sucesivas, la información de entrada a menudo se pierde. YOLOv9 dos conceptos innovadores que se detallan en su artículo de Arxiv:
- GELAN (Red de agregación de capas eficiente generalizada): una arquitectura que combina las ventajas de CSPNet y ELAN para maximizar la eficiencia de los parámetros.
- PGI (Información de gradiente programable): un marco de supervisión auxiliar que genera gradientes fiables para actualizar los pesos de la red, lo que garantiza que el modelo conserve la información crucial en toda la profundidad de la red.
Análisis de rendimiento
A la hora de elegir entre diferentes arquitecturas, los desarrolladores deben sopesar la precisión media (mAP), la velocidad de inferencia y el coste computacional (FLOP). La siguiente tabla destaca las diferencias de rendimiento en el COCO .
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Puntos clave
- Eficiencia: YOLOv9m alcanza la misma precisión (51,4 % mAP) que YOLOv7l, pero con casi un 45 % menos de parámetros (20,0 millones frente a 36,9 millones) y un número significativamente menor de FLOP.
- Velocidad: para aplicaciones en tiempo real en las que cada milisegundo cuenta, YOLOv9t ofrece velocidades increíbles (2,3 ms en T4 TensorRT) adecuadas para dispositivos periféricos.
- Precisión:YOLOv9e amplía los límites de la precisión de detección, alcanzando un 55,6 % mAP, lo que lo hace superior para tareas que requieren una alta precisión.
La ventaja del ecosistema de Ultralytics
Independientemente de si eliges YOLOv7 YOLOv9, utilizarlos a través del Python Ultralytics Python proporciona una experiencia unificada y optimizada.
Facilidad de uso y formación
Ultralytics los complejos bucles de entrenamiento que se encuentran en PyTorch sin procesar PyTorch . Los desarrolladores pueden cambiar entre arquitecturas modificando un único argumento de cadena, lo que simplifica el ajuste de hiperparámetros y la experimentación.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model (or substitute with "yolov7.pt")
model = YOLO("yolov9c.pt")
# Train on the COCO8 dataset with efficient memory management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
Gestión de memoria y recursos
Una ventaja significativa de Ultralytics es el uso optimizado de la memoria. A diferencia de muchos modelos basados en Transformer (como las variantes DETR) o los detectores de dos etapas más antiguos,YOLO Ultralytics están diseñados para minimizar los picos CUDA . Esto permite a los investigadores utilizar lotes de mayor tamaño en GPU de consumo, democratizando el acceso al entrenamiento de modelos de alta gama.
Gestión integrada de conjuntos de datos
Ultralytics automáticamente las descargas y el formateo de los conjuntos de datos. Puede comenzar a entrenar inmediatamente con conjuntos de datos estándar como COCO8 u Objects365 sin necesidad de escribir complejos cargadores de datos.
Aplicaciones en el mundo real
Cuándo elegir YOLOv7
YOLOv7 una opción sólida para sistemas en los que la compatibilidad con versiones anteriores es fundamental.
- Canales establecidos: Los proyectos que ya están integrados con los canales de exportación C++ de la era 2022 pueden encontrar más fácil seguir con YOLOv7.
- Detección de propósito general: para análisis de vídeo estándar en los que el número mínimo absoluto de parámetros no es la restricción principal, YOLOv7 ofreciendo un rendimiento admirable.
Cuándo elegir YOLOv9
Por lo general, YOLOv9 recomienda YOLOv9 para nuevas implementaciones debido a su eficiencia superior en cuanto a parámetros.
- Computación periférica: La naturaleza ligera de GELAN hace que YOLOv9 sea YOLOv9 para sistemas integrados y aplicaciones móviles en los que el almacenamiento y la capacidad de cálculo son limitados.
- Imágenes médicas: La arquitectura PGI ayuda a conservar la información detallada, lo cual es fundamental para detectar pequeñas anomalías en las exploraciones médicas.
- Vigilancia aérea: la mejora en la retención de características ayuda a detectar objetos pequeños, como vehículos o ganado, a partir de imágenes tomadas desde drones a gran altitud.
La Próxima Generación: YOLO26
Aunque YOLOv7 YOLOv9 modelos excelentes, el campo de la IA avanza hacia una simplicidad y velocidad aún mayores. Presentamos YOLO26, la última versión de Ultralytics en enero de 2026.
YOLO26 representa un cambio de paradigma con su diseño integral NMS. Al eliminar la supresión no máxima (NMS), YOLO26 elimina un importante cuello de botella en los procesos de inferencia, lo que simplifica la implementación en TensorRT y ONNX.
- Optimizador MuSGD: Inspirado en las innovaciones en el entrenamiento de LLM (como Kimi K2 de Moonshot AI), YOLO26 utiliza el optimizador MuSGD para una convergencia más rápida y una mayor estabilidad.
- Optimización de borde: con la eliminación de la pérdida focal de distribución (DFL) y funciones de pérdida optimizadas como ProgLoss + STAL, YOLO26 funciona hasta un 43 % más rápido en CPU, lo que lo convierte en la mejor opción para la IA de borde.
- Versatilidad: a diferencia de los modelos anteriores, que podían ser específicos para la detección, YOLO26 admite de forma nativa la estimación de poses, la segmentación y los recuadros delimitadores orientados (OBB).
Conclusión
Tanto YOLOv7 YOLOv9 contribuido significativamente al avance de la visión artificial. YOLOv7 un alto nivel de exigencia en cuanto a velocidad y precisión en 2022, mientras que YOLOv9 novedosos cambios arquitectónicos para mejorar el flujo de gradientes y la eficiencia de los parámetros en 2024.
Hoy en día, los desarrolladores suelen inclinarse por YOLOv9 por su eficiencia o el innovador YOLO26 por su arquitectura NMS y CPU . Con el respaldo de la robusta Ultralytics , cambiar entre estos modelos para encontrar el que mejor se adapte a sus necesidades específicas, ya sea la supervisión de ciudades inteligentes o la robótica agrícola, nunca ha sido tan fácil.