Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs YOLOv10: Un análisis técnico profundo sobre la evolución de la detección de objetos en tiempo real#

El panorama de la visión artificial en tiempo real ha experimentado avances inmensos, impulsados en gran medida por investigadores que superan continuamente los límites de rendimiento y eficiencia. Al analizar la evolución de los modelos de visión de última generación, YOLOv9 y YOLOv10 representan dos hitos críticos. Lanzados a principios de 2024, ambos modelos introdujeron diseños arquitectónicos que cambian el paradigma para abordar desafíos de larga data en redes neuronales profundas, desde cuellos de botella de información hasta la latencia en el procesamiento posterior.

Esta comparativa técnica exhaustiva explora sus arquitecturas, métricas de rendimiento y escenarios de despliegue ideales, ayudándote a navegar por las complejidades de los ecosistemas modernos de detección de objetos.

Link to this sectionOrígenes de los modelos y avances arquitectónicos#

Comprender el linaje y los fundamentos teóricos de estos modelos es crucial para seleccionar la arquitectura correcta para tu proyecto específico de visión artificial.

Link to this sectionYOLOv9: Dominando el flujo de información#

Presentado el 21 de febrero de 2024, YOLOv9 aborda el problema teórico de la pérdida de información a medida que los datos pasan a través de redes neuronales profundas.

YOLOv9 introduce la Generalized Efficient Layer Aggregation Network (GELAN), que maximiza la utilización de parámetros al combinar las fortalezas de CSPNet y ELAN. Además, emplea Programmable Gradient Information (PGI), un mecanismo de supervisión auxiliar que asegura que las capas profundas retengan información espacial crítica. Esto hace que YOLOv9 sea excepcionalmente sólido para tareas que requieren una alta fidelidad de características, como el análisis de imágenes médicas o la vigilancia a larga distancia.

Aprende más sobre YOLOv9

Link to this sectionYOLOv10: Eficiencia de extremo a extremo en tiempo real#

Lanzado poco después, el 23 de mayo de 2024, YOLOv10 reimagina la canalización de despliegue al eliminar uno de los cuellos de botella de latencia más notorios en la detección de objetos: la Non-Maximum Suppression (NMS).

YOLOv10 utiliza consistent dual assignments durante el entrenamiento, lo que permite un diseño nativo NMS-free. Esto elimina la sobrecarga de procesamiento posterior durante la inferencia, reduciendo drásticamente la latencia. Combinado con un diseño de modelo holístico impulsado por la eficiencia y la precisión, YOLOv10 logra un equilibrio sobresaliente, disminuyendo la carga computacional (FLOPs) mientras mantiene una precisión competitiva, lo que lo hace muy atractivo para aplicaciones de computación de borde.

Aprende más sobre YOLOv10

Link to this sectionComparación de rendimiento y métricas#

Al realizar pruebas comparativas de estas dos potencias en el conjunto de datos estándar MS COCO, surgen compensaciones claras entre la precisión pura y la latencia de inferencia.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this sectionAnalizando los datos#

  1. Latencia vs. precisión: Los modelos YOLOv10 generalmente ofrecen velocidades de inferencia superiores. Por ejemplo, YOLOv10s logra un 46.7% de mAP en solo 2.66ms en TensorRT, en comparación con YOLOv9s que requiere 3.54ms para un 46.8% de mAP casi idéntico.
  2. Precisión de primer nivel: Para escenarios de investigación que exigen la máxima precisión de detección, el YOLOv9e sigue siendo una opción formidable, alcanzando un impresionante 55.6% de mAP. Su arquitectura PGI asegura que las características sutiles se extraigan de manera fiable.
  3. Eficiencia: YOLOv10 destaca en eficiencia de FLOPs. Esto se traduce directamente en un menor consumo de energía, una métrica crucial para dispositivos que funcionan con batería y ejecutan modelos de IA de visión.
Consejo de despliegue

Si realizas el despliegue en CPUs o hardware de borde con recursos limitados como una Raspberry Pi, la arquitectura NMS-free de YOLOv10 proporcionará generalmente una canalización más fluida al eliminar los pasos de procesamiento posterior no deterministas.

Link to this sectionLa ventaja de Ultralytics: Entrenamiento y ecosistema#

Si bien las diferencias arquitectónicas son fundamentales, el ecosistema de software circundante dicta en gran medida el éxito de un proyecto. Tanto YOLOv9 como YOLOv10 están totalmente integrados en el ecosistema de Ultralytics, proporcionando una experiencia de desarrollador inigualable.

Link to this sectionFacilidad de uso y eficiencia de memoria#

A diferencia de las arquitecturas complejas basadas en Transformer que sufren una gran hinchazón de memoria, los modelos Ultralytics YOLO están diseñados para un uso óptimo de la memoria de GPU. Esto permite a los investigadores utilizar tamaños de lote más grandes en hardware de grado de consumo, haciendo que la IA de última generación sea accesible.

La API unificada de Python abstrae las complejidades de la aumentación de datos y el ajuste de hiperparámetros. Puedes cambiar de arquitectura sin problemas simplemente modificando la cadena del archivo de pesos.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Ya sea que necesites registrar métricas en MLflow o exportar a TensorRT para un despliegue de hardware de alta velocidad, la plataforma Ultralytics lo maneja de forma nativa.

Link to this sectionCasos de uso ideales#

Elegir entre estos modelos depende de tus restricciones de despliegue:

Link to this sectionPreparación para el futuro: El cambio a YOLO26#

Aunque YOLOv8, YOLOv9 y YOLOv10 son modelos excelentes, los desarrolladores que buscan crear soluciones de IA modernas deberían considerar Ultralytics YOLO26, lanzado en enero de 2026.

YOLO26 representa la síntesis definitiva de generaciones anteriores, combinando los mejores aspectos de la precisión de YOLOv9 y la eficiencia de YOLOv10.

Link to this sectionInnovaciones clave de YOLO26#

  • Diseño NMS-free de extremo a extremo: Basándose en los fundamentos establecidos por YOLOv10, YOLO26 elimina de forma nativa el procesamiento posterior NMS para un despliegue más sencillo.
  • Optimizador MuSGD: Un híbrido de SGD y Muon, que aporta innovaciones avanzadas de entrenamiento de LLM a la visión artificial para una convergencia increíblemente estable y rápida.
  • Hasta un 43% más rápido en inferencia de CPU: Optimizado específicamente para computación de borde y dispositivos sin GPUs dedicadas.
  • Eliminación de DFL: Distribution Focal Loss se eliminó para simplificar la exportación del modelo y aumentar la compatibilidad con dispositivos de bajo consumo.
  • ProgLoss + STAL: Estas funciones de pérdida mejoradas aportan mejoras notables en el reconocimiento de objetos pequeños, igualando o superando las capacidades de YOLOv9.

Para los investigadores que evalúan arquitecturas heredadas, RT-DETR y YOLO11 también son alternativas bien documentadas dentro del ecosistema de Ultralytics. Sin embargo, para una máxima versatilidad en todas las tareas de visión, la transición a YOLO26 en la Ultralytics Platform asegura que estás aprovechando el pináculo de la IA de visión de código abierto.

Colaboradores

Comentarios