YOLOv9 YOLOv7: navegando por la evolución de la detección de objetos de última generación
En el campo de la visión artificial, que avanza rápidamente, mantenerse al día con las últimas arquitecturas es fundamental para crear aplicaciones eficientes y precisas. Esta comparación profundiza en dos hitos importantes en la línea YOLO You Only Look Once): YOLOv9, introducido a principios de 2024 con novedosas técnicas de optimización de gradientes, y YOLOv7, el referente de 2022 para la detección en tiempo real. Ambos modelos han dado forma al panorama de la detección de objetos, ofreciendo ventajas únicas tanto para investigadores como para desarrolladores.
Punto de referencia del rendimiento
La siguiente tabla destaca las métricas de rendimiento de YOLOv9 YOLOv7 el COCO . Mientras que YOLOv7 un listón muy alto en cuanto a velocidad y precisión en 2022, YOLOv9 mejoras arquitectónicas que amplían aún más estos límites, especialmente en lo que respecta a la eficiencia de los parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9: Información de Gradiente Programable
YOLOv9 un cambio en la forma en que las arquitecturas de aprendizaje profundo gestionan el flujo de información. Lanzado en febrero de 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao, aborda el problema del «cuello de botella de la información», por el que se pierden datos al pasar por capas profundas.
Innovaciones arquitectónicas clave
La innovación principal de YOLOv9 PGI (Información de gradiente programable). PGI proporciona un marco de supervisión auxiliar que garantiza que la rama principal conserve la información de características críticas durante todo el proceso de entrenamiento. Esto se complementa con la arquitectura GELAN (Red de agregación de capas eficiente generalizada), que optimiza la utilización de parámetros más allá de métodos anteriores como CSPNet.
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización:Institute of Information Science, Academia Sinica
- Fecha: 21 de febrero de 2024
- Enlaces:Arxiv, GitHub
YOLOv7: El "Bag-of-Freebies" Entrenable
YOLOv7 diseñado para ser el detector de objetos en tiempo real más rápido y preciso en el momento de su lanzamiento en julio de 2022. Introdujo varios métodos de optimización «bag-of-freebies» que mejoran la precisión sin aumentar el coste de inferencia.
Innovaciones arquitectónicas clave
YOLOv7 en E-ELAN (Extended Efficient Layer Aggregation Network), que permite a la red aprender características más diversas mediante el control de las rutas de gradiente más cortas y más largas. También fue pionera en técnicas de escalado de modelos que ajustan simultáneamente la profundidad y la anchura, lo que la hace muy adaptable a diferentes limitaciones de hardware.
- Autores: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- Organización:Institute of Information Science, Academia Sinica
- Fecha: 6 de julio de 2022
- Enlaces:Arxiv, GitHub
Análisis comparativo: Arquitectura y casos de uso
Precisión y retención de características
YOLOv9 superar a YOLOv7 escenarios que requieren la detección de objetos pequeños u ocultos. El marco PGI garantiza que los gradientes no se diluyan, lo que resulta especialmente beneficioso para el análisis de imágenes médicas, donde pasar por alto una pequeña anomalía puede ser crítico. YOLOv7 una opción sólida para la detección de uso general, pero puede tener algo más de dificultad con los cuellos de botella de información extremos en redes muy profundas.
Velocidad y eficiencia de inferencia
Aunque ambos modelos están diseñados para aplicaciones en tiempo real, YOLOv9 un mejor equilibrio entre parámetros y precisión. Por ejemplo, YOLOv9c alcanza una precisión similar a la de YOLOv7x, pero con un número significativamente menor de parámetros (25,3 millones frente a 71,3 millones) y FLOP. Esto hace que YOLOv9 sea YOLOv9 adecuado para su implementación en dispositivos en los que el ancho de banda de la memoria es una limitación, como las cámaras de IA periféricas.
Flexibilidad de implementación
Ultralytics son conocidos por su portabilidad. Tanto YOLOv9 YOLOv7 se YOLOv7 exportar fácilmente a formatos como ONNX y TensorRT utilizando laPython Ultralytics , lo que agiliza el proceso desde la investigación hasta la producción.
Eficiencia del entrenamiento
Una ventaja importante del Ultralytics es la optimización del uso de la memoria durante el entrenamiento. YOLOv9, integrado de forma nativa en Ultralytics, se beneficia de cargadores de datos y una gestión de memoria eficientes. Esto permite a los desarrolladores entrenar modelos competitivos en GPU de consumo (por ejemplo, RTX 3060 o 4070) sin encontrarse con errores de memoria insuficiente (OOM), que son habituales en arquitecturas con gran cantidad de transformadores o repositorios no optimizados.
Aplicaciones en el mundo real
La elección entre estos modelos a menudo depende del entorno de implementación específico.
- Vehículos autónomos:YOLOv7 ha sido ampliamente probado en escenarios de conducción autónoma, demostrando su fiabilidad en la detección de peatones y señales de tráfico a altas velocidades de fotogramas.
- Imágenes médicas:YOLOv9 destaca en el campo de las imágenes médicas, como la detección de tumores o fracturas, donde es fundamental preservar los detalles más precisos a través de capas profundas.
- Análisis minorista: para la gestión de inventario, YOLOv9 proporciona una alta precisión para el recuento de artículos densamente empaquetados en estanterías, aprovechando sus capacidades superiores de integración de características.
- Ciudades inteligentes: los sistemas de control del tráfico se benefician de YOLOv7, esenciales para la gestión del tráfico en tiempo real.
La ventaja de Ultralytics
El uso de cualquiera de los dos modelos dentro del Ultralytics ofrece ventajas claras con respecto a las implementaciones independientes:
- Facilidad de uso: una API unificada le permite cambiar entre YOLOv7, YOLOv9 y modelos más recientes con una sola línea de código.
- Ecosistema bien mantenido: el apoyo activo de la comunidad y las frecuentes actualizaciones garantizan la compatibilidad con las últimas versiones de PyTorch y CUDA .
- Versatilidad: más allá de la detección, el Ultralytics admite tareas de segmentación de instancias, estimación de poses y cuadros delimitadores orientados (OBB), lo que le permite ampliar el alcance de su proyecto sin necesidad de aprender a utilizar nuevas herramientas.
Ejemplo de código: Entrenamiento con Ultralytics
El entrenamiento de cualquiera de los dos modelos es sencillo. A continuación se explica cómo se puede entrenar un YOLOv9 con un conjunto de datos personalizado:
from ultralytics import YOLO
# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt") # or "yolov7.pt"
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
model.val()
Preparados para el futuro con YOLO26
Aunque YOLOv9 YOLOv7 herramientas potentes, el campo evoluciona rápidamente. La última versión, YOLO26, lanzada en enero de 2026, representa la vanguardia de la visión artificial.
YOLO26 cuenta con un diseño nativo integral NMS, lo que elimina la latencia del posprocesamiento y simplifica la implementación. Elimina la pérdida focal de distribución (DFL) para mejorar la compatibilidad con los dispositivos periféricos e introduce el optimizador MuSGD, un híbrido de SGD Muon inspirado en el entrenamiento LLM, para lograr una estabilidad sin precedentes. Con funciones de pérdida especializadas como ProgLoss + STAL, YOLO26 mejora significativamente el reconocimiento de objetos pequeños, lo que lo convierte en la opción recomendada para nuevas aplicaciones de alto rendimiento.
Para aquellos que exploran otras opciones, modelos como YOLO11 y RT-DETR también ofrecen ventajas únicas para casos de uso específicos dentro de Ultralytics .