Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs YOLOv7#

La evolución de la detección de objetos en tiempo real ha sido impulsada por una búsqueda continua para equilibrar la eficiencia computacional con una alta precisión. Dos arquitecturas emblemáticas en este viaje son YOLOv9 y YOLOv7, ambas desarrolladas por investigadores del Institute of Information Science, Academia Sinica en Taiwán. Mientras que YOLOv7 introdujo revolucionarios "bag-of-freebies" entrenables, el más reciente YOLOv9 aborda directamente los cuellos de botella de información en el aprendizaje profundo.

Esta comparativa técnica exhaustiva explora las diferencias arquitectónicas, métricas de rendimiento y escenarios de despliegue ideales para ambos modelos, ayudando a los ingenieros de ML e investigadores a elegir la herramienta adecuada para sus flujos de trabajo de visión artificial.

Link to this sectionComparación de rendimiento y métricas#

Al comparar estos modelos, el rendimiento bruto y la eficiencia son factores críticos. La siguiente tabla detalla la precisión media media (mAP) y los requisitos computacionales para los benchmarks estándar del conjunto de datos COCO.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Equilibrio de rendimiento

Observa cómo YOLOv9c logra aproximadamente la misma precisión (53.0 mAP) que YOLOv7x (53.1 mAP) mientras utiliza significativamente menos parámetros (25.3M frente a 71.3M) y FLOPs. Esto demuestra las mejoras en el Equilibrio de Rendimiento en las arquitecturas modernas.

Link to this sectionYOLOv9: resolviendo el cuello de botella de información#

Introducido a principios de 2024, YOLOv9 cambió fundamentalmente la forma en que las redes neuronales profundas retienen datos a través de sus capas.

Link to this sectionInnovaciones en la arquitectura#

YOLOv9 introduce la Generalized Efficient Layer Aggregation Network (GELAN) y la Programmable Gradient Information (PGI). GELAN combina las fortalezas de CSPNet y ELAN para optimizar la eficiencia de los parámetros y el coste computacional, asegurando una alta precisión con un menor número de parámetros. PGI es un marco de supervisión auxiliar diseñado para evitar la pérdida de datos en redes profundas, generando gradientes fiables para actualizar los pesos durante el proceso de entrenamiento.

Link to this sectionPuntos fuertes y limitaciones#

La principal fortaleza de YOLOv9 es su capacidad para extraer características sutiles sin una carga computacional inmensa, lo que lo hace increíblemente capaz para tareas que requieren una alta fidelidad de características, como el análisis de imágenes médicas. Sin embargo, la compleja estructura de PGI durante el entrenamiento puede hacer que las modificaciones arquitectónicas personalizadas sean más desafiantes para los principiantes en comparación con marcos más unificados.

Aprende más sobre YOLOv9

Link to this sectionYOLOv7: El pionero de los "bag-of-freebies"#

Lanzado en 2022, YOLOv7 estableció un nuevo estándar para lo que era posible en hardware de consumo, introduciendo innovaciones estructurales que aumentaron significativamente las velocidades de inferencia en tiempo real.

Link to this sectionInnovaciones en la arquitectura#

La contribución principal de YOLOv7 es la Extended Efficient Layer Aggregation Network (E-ELAN). Esta arquitectura permite al modelo aprender características más diversas de forma continua. Además, YOLOv7 emplea "bag-of-freebies entrenables": técnicas como convoluciones reparametrizadas planificadas y asignación dinámica de etiquetas. Estos métodos mejoran la precisión del modelo durante el entrenamiento sin añadir costes de inferencia durante el despliegue.

Link to this sectionPuntos fuertes y limitaciones#

YOLOv7 está altamente optimizado para el procesamiento en tiempo real en el borde (edge) y sigue siendo un elemento básico en sistemas heredados y entornos CUDA antiguos. Su limitación principal hoy en día es su mayor tamaño de parámetros en comparación con modelos más nuevos. Como se muestra en la tabla de rendimiento, lograr una precisión de primer nivel requiere el pesado modelo YOLOv7x, que exige mucha más memoria GPU que las arquitecturas modernas equivalentes.

Más información sobre YOLOv7

Link to this sectionLa ventaja de Ultralytics: Despliegue optimizado#

Aunque los repositorios de investigación originales de YOLOv9 y YOLOv7 ofrecen excelentes fundamentos académicos, desplegar estos modelos en entornos de producción puede ser complejo. Integrarlos a través del paquete ultralytics ofrece una Facilidad de Uso inigualable.

Al utilizar la Plataforma Ultralytics integrada, los desarrolladores se benefician de un ecosistema bien mantenido que incluye una API de Python intuitiva, soporte comunitario activo y un robusto seguimiento de experimentos.

Link to this sectionPreparado para el futuro con YOLO26#

Si estás iniciando un nuevo proyecto de visión artificial, recomendamos encarecidamente explorar el recientemente lanzado YOLO26 en lugar de YOLOv9 y YOLOv7. Lanzado como el nuevo estándar de vanguardia, YOLO26 aporta avances revolucionarios:

  • Diseño de extremo a extremo sin NMS: Elimina el postprocesamiento de Non-Maximum Suppression, reduciendo drásticamente la complejidad y la latencia del despliegue.
  • Inferencia en CPU hasta un 43% más rápida: Optimizado para entornos de computación de borde, asegurando que tu aplicación funcione sin problemas incluso sin GPUs dedicadas.
  • Optimizador MuSGD: Un optimizador híbrido inspirado en el entrenamiento de LLM, que ofrece una convergencia altamente estable y reduce el tiempo de entrenamiento.
  • Eliminación de DFL: Exportación de modelos simplificada al eliminar la Distribution Focal Loss, mejorando la compatibilidad con dispositivos móviles de baja potencia.
  • ProgLoss + STAL: Mejora drásticamente el rendimiento en la detección de objetos pequeños, convirtiéndolo en la opción principal para imágenes aéreas y vigilancia.

Otras alternativas populares dentro del ecosistema incluyen Ultralytics YOLOv8 y YOLO11, los cuales ofrecen una gran versatilidad en tareas como la segmentación de instancias y la estimación de pose.

Link to this sectionEjemplo de implementación#

Entrenar y exportar cualquiera de estas arquitecturas es increíblemente sencillo con la API unificada. El código a continuación demuestra la característica de Eficiencia de Entrenamiento simplificada de las herramientas de Ultralytics.

from ultralytics import YOLO

# Initialize YOLOv9 or the recommended YOLO26 model
model = YOLO("yolov9c.pt")  # Swap with "yolo26n.pt" for faster edge performance

# Train on a custom dataset with built-in data augmentation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")
Requisitos de memoria

Al entrenar en hardware de grado de consumo, la eficiencia de memoria es crucial. Las implementaciones de Ultralytics de YOLOv9 y YOLO26 están altamente optimizadas para reducir los picos de VRAM, a diferencia de los modelos basados en Transformer (como RT-DETR) que a menudo sufren de un grave exceso de memoria durante el entrenamiento.

Link to this sectionAplicaciones del mundo real y casos de uso ideales#

Elegir entre estas arquitecturas a menudo se reduce a las restricciones específicas de tu entorno de producción.

Cuándo usar YOLOv9: YOLOv9 destaca en entornos donde es necesaria la retención de detalles minuciosos. Su robusta extracción de características lo hace ideal para el análisis minorista para contar productos densamente empaquetados en estantes, o para aplicaciones agrícolas donde identificar enfermedades de cultivos en etapa temprana en hojas pequeñas es crítico.

Cuándo usar YOLOv7: YOLOv7 sigue siendo un candidato fuerte para flujos de trabajo de despliegue heredados. Si estás integrando en sistemas de hardware antiguos (como ciertas generaciones del Google Coral Edge TPU), la arquitectura CNN directa de YOLOv7 puede ser más fácil de compilar que las complejas ramas de gradiente de los modelos más nuevos.

Cuándo usar YOLO26 (Recomendado): Para cualquier despliegue moderno—desde drones autónomos hasta gestión de tráfico en ciudades inteligentes—YOLO26 es la opción superior. Su arquitectura sin NMS garantiza tiempos de inferencia deterministas, lo cual es esencial para la robótica crítica para la seguridad, mientras que su alta precisión supera a YOLOv9 y YOLOv7 en todos los ámbitos.

Comentarios