YOLOv9 YOLO: avances en la detección de objetos en tiempo real
La evolución de la detección de objetos en tiempo real se ha caracterizado por una búsqueda constante del equilibrio óptimo entre precisión y latencia. En esta comparación detallada, exploramos dos arquitecturas significativas: YOLOv9, conocida por su información de gradiente programable (PGI) y su red de agregación de capas eficiente generalizada (GELAN), y YOLO, una familia de modelos optimizados mediante la búsqueda de arquitectura neuronal (NAS) y técnicas de rep-parametrización.
También presentamos la última generación, YOLO26, que amplía aún más estos límites con un diseño integral NMS y optimización para dispositivos periféricos.
Métricas comparativas de rendimiento
La siguiente tabla presenta una comparación directa de las métricas clave de rendimiento en el conjunto de datos COCO . YOLOv9 una eficiencia de parámetros superior y, a menudo, una mayor precisión para tamaños de modelo comparables.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9: Información de Gradiente Programable
YOLOv9 representa un avance significativo en el diseño de la arquitectura del aprendizaje profundo, ya que aborda el problema del cuello de botella de la información inherente a las redes profundas.
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización:Institute of Information Science, Academia Sinica
- Fecha: 2024-02-21
- Arxiv:YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable
- GitHub:WongKinYiu/yolov9
Innovaciones arquitectónicas clave
- Información de gradiente programable (PGI): a medida que las redes se vuelven más profundas, la información de características críticas a menudo se pierde durante el proceso de alimentación directa. PGI introduce una rama reversible auxiliar que proporciona información de gradiente confiable a la rama principal durante el entrenamiento. Esto garantiza que la red conserve las características esenciales para una detección precisa, resolviendo eficazmente el problema del «cuello de botella de la información» sin añadir costes de inferencia.
- GELAN Backbone: La red de agregación de capas eficiente generalizada (GELAN) combina los mejores aspectos de CSPNet y ELAN. Permite elegir bloques computacionales flexibles (como ResBlocks o bloques CSP) y maximiza la utilización de parámetros. El resultado son modelos ligeros pero increíblemente potentes.
Estas innovaciones hacen que YOLOv9 sea YOLOv9 eficaz para la detección de objetos de uso general y especialmente hábil para conservar detalles muy precisos en escenas complejas.
YOLO: Optimización de la búsqueda de arquitectura neuronal
YOLO se centra en descubrir arquitecturas eficientes de forma automática y emplear técnicas de destilación para mejorar el rendimiento.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- Organización: Alibaba Group
- Fecha: 2022-11-23
- Arxiv:DAMO-YOLO: A Report on Real-Time Object Detection Design
- GitHub:tinyvision/DAMO-YOLO
Puntos destacados de la arquitectura
YOLO una tecnología denominada Neural Architecture Search (NAS) para construir su columna vertebral, MAE-NAS. Este enfoque tiene como objetivo encontrar la estructura de red óptima dentro de restricciones de latencia específicas. Además, emplea una Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network) para fusionar características en diferentes escalas. El modelo también se basa en gran medida en «ZeroHead» y en la mejora de la destilación, donde un modelo maestro más grande guía el entrenamiento del modelo alumno más pequeño para mejorar su precisión.
Aunque innovador, el uso de NAS y complejas tuberías de destilación puede hacer que reproducir resultados o modificar la arquitectura para tareas personalizadas resulte más complicado en comparación con el diseño modular de YOLOv9.
Ultralytics de Ultralytics : ecosistema y facilidad de uso
Aunque ambas arquitecturas ofrecen importantes contribuciones teóricas, la experiencia práctica para los desarrolladores difiere significativamente. Ultralytics , incluidos YOLOv9 YOLO26, proporcionan una experiencia fluida y «sin fricciones».
Flujo de Trabajo Optimizado
El entrenamiento deYOLO suele implicar archivos de configuración complejos y entornos específicos (como PaddlePaddle CUDA específicas CUDA ). Por el contrario, laPython Ultralytics estandariza el flujo de trabajo. Puede cargar, entrenar e implementar modelos de última generación en cuestión de minutos.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Versatilidad y Soporte de Tareas
Ultralytics no se limitan a los cuadros delimitadores. El marco admite de forma nativa la segmentación de instancias, la estimación de poses y la detección de cuadros delimitadores orientados (OBB). Esta versatilidad permite a los equipos alternar entre tareas sin necesidad de aprender nuevas bibliotecas. Por el contrario,YOLO centra principalmente en la detección estándar, con un soporte menos integrado para estas complejas tareas posteriores.
Eficiencia del entrenamiento y memoria
YOLO Ultralytics están diseñados para ser eficientes. Por lo general, requieren menos GPU durante el entrenamiento en comparación con las arquitecturas con gran cantidad de transformadores o los modelos generados por NAS, que pueden tener patrones de acceso a la memoria irregulares. Esto permite a los investigadores entrenar modelos robustos en hardware de consumo, democratizando el acceso a la visión artificial de alta gama.
Aplicaciones en el mundo real
La elección del modelo adecuado depende de las limitaciones de implementación y los objetivos de rendimiento.
Casos de Uso Ideales para YOLOv9
- Análisis minorista: la alta precisión de YOLOv9c lo hace excelente para la detección de productos en estantes abarrotados donde la oclusión es habitual.
- Imágenes médicas: la arquitectura PGI ayuda a conservar información crítica sobre características, lo cual es vital a la hora de detectar pequeñas anomalías en exploraciones médicas o identificar fracturas.
- Vigilancia de uso general: para fuentes de seguridad estándar en las que se requiere un equilibrio entre mAP alto mAP un FPS razonable.
Casos de uso ideales paraYOLO
- Búsqueda de hardware restringida: si está investigando sobre NAS para encontrar una red troncal específicamente adaptada a una restricción de hardware muy particular en la que las redes troncales estándar fallan.
- Benchmarking académico: Para investigadores que comparan la eficacia de las técnicas de destilación frente a la reparametrización estructural.
Por qué YOLO26 es el futuro
Para los desarrolladores que inicien nuevos proyectos en 2026, YOLO26 ofrece el conjunto de características más atractivo. Se basa en los puntos fuertes de YOLOv9 introduce un diseño integral NMS, lo que elimina la necesidad del posprocesamiento de supresión no máxima. Esto simplifica considerablemente la implementación y reduce la latencia, especialmente en dispositivos periféricos.
Las innovaciones clave de YOLO26 incluyen:
- Optimizador MuSGD: un híbrido entre SGD Muon que estabiliza el entrenamiento y acelera la convergencia, aportando la estabilidad del entrenamiento de modelos de lenguaje grandes (LLM) a la visión.
- Eliminación de DFL: La eliminación de la pérdida focal de distribución simplifica el gráfico del modelo, lo que facilita la exportación a formatos como ONNX y TensorRT más fluida.
- Detección mejorada de objetos pequeños: gracias a ProgLoss y STAL, YOLO26 destaca en aplicaciones de imágenes aéreas y drones.
Prepare su implementación para el futuro
La migración a YOLO26 garantiza que su aplicación se beneficie de los últimos avances en optimización de borde. El diseño nativo de extremo a extremo permite una inferencia más rápida en CPU y NPU, lo cual es crucial para los dispositivos IoT alimentados por batería.
Conclusión
Mientras queYOLO conceptos interesantes sobre la búsqueda de arquitectura neuronal y la destilación, YOLOv9 y el más reciente YOLO26 ofrecen una solución más práctica, potente y fácil de usar para la gran mayoría de aplicaciones de visión artificial. El Ultralytics garantiza que los desarrolladores tengan acceso a las mejores herramientas para entrenar, rastrear e implementar modelos, respaldadas por una amplia documentación y el apoyo de la comunidad.
Para obtener más información sobre las arquitecturas de los modelos, consulte nuestras comparaciones entre YOLOv10 YOLO o YOLO11 YOLOv9.