Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 frente a YOLOv6-3.0#

La evolución de la detección de objetos en tiempo real ha estado impulsada por innovaciones continuas en arquitecturas de redes neuronales, optimizando el delicado equilibrio entre velocidad de inferencia, precisión y eficiencia computacional. A medida que los desarrolladores y los investigadores navegan por el complejo panorama de los marcos de trabajo de visión artificial, comparar las arquitecturas líderes resulta esencial para seleccionar la herramienta adecuada para cada trabajo.

Esta guía técnica ofrece una comparativa detallada entre dos modelos altamente capaces: YOLOv9, reconocido por su retención de información en aprendizaje profundo, y YOLOv6-3.0, un modelo diseñado específicamente para aplicaciones industriales.

Link to this sectionVisión general de YOLOv9: maximizando la retención de características#

Presentado a principios de 2024, YOLOv9 aborda uno de los desafíos más persistentes en las redes neuronales profundas: la pérdida de información durante el proceso de propagación hacia adelante. Al garantizar que los gradientes sean fiables y que los mapas de características conserven datos cruciales, supera los límites de la precisión teórica.

  • Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
  • Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
  • Fecha: 21 de febrero de 2024
  • Enlaces: Documento de Arxiv, Repositorio de GitHub

Link to this sectionArquitectura y metodologías#

YOLOv9 introduce el concepto de Información de Gradiente Programable (PGI, por sus siglas en inglés) junto con la Red de Agregación de Capas Eficiente Generalizada (GELAN). PGI aborda el cuello de botella de información proporcionando una supervisión auxiliar que garantiza que la red principal aprenda características robustas y fiables sin añadir sobrecarga de inferencia. Mientras tanto, GELAN optimiza la utilización de parámetros, permitiendo al modelo alcanzar un mean Average Precision (mAP) de vanguardia mientras mantiene el coste computacional bajo control. Esto lo convierte en una opción excepcional para el análisis de imágenes médicas o para detectar objetos extremadamente pequeños donde la fidelidad de las características es crítica.

Aprende más sobre YOLOv9

Link to this sectionVisión general de YOLOv6-3.0: diseñado para la escala industrial#

Desarrollado por Meituan, YOLOv6-3.0 (también conocido como v3.0) está diseñado desde cero para servir a aplicaciones industriales de alta exigencia. Lanzado a principios de 2023, se centra en gran medida en la eficiencia de la implementación, ofreciendo un conjunto de modelos compatibles con cuantización que destacan en hardware de borde (edge hardware).

  • Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
  • Organización: Meituan
  • Fecha: 13 de enero de 2023
  • Enlaces: Documento de Arxiv, Repositorio de GitHub

Link to this sectionArquitectura y metodologías#

YOLOv6-3.0 se distingue por sus estrategias de RepOptimizer y entrenamiento asistido por anclas (AAT). El modelo utiliza un diseño de red neuronal consciente del hardware inspirado en RepVGG, lo que le permite ejecutarse extremadamente rápido en GPUs durante la inferencia mediante la fusión de capas. La actualización 3.0 refinó aún más la arquitectura al introducir un módulo de concatenación bidireccional (BiC) para mejorar la precisión de la localización. Debido a que está altamente optimizado para formatos de implementación como TensorRT y OpenVINO, YOLOv6-3.0 se adopta con frecuencia en logística, automatización de fabricación y entornos de servidor de alto rendimiento.

Más información sobre YOLOv6-3.0

Link to this sectionComparación de rendimiento#

Al evaluar estos modelos en el COCO dataset estándar, podemos observar diferentes compromisos entre precisión y velocidad bruta de inferencia.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Link to this sectionAnálisis técnico#

Si bien YOLOv6-3.0n se lleva la palma en velocidad bruta en hardware T4 (1,17 ms), YOLOv9t logra extraer un mAP ligeramente superior (38,3 %) mientras utiliza menos de la mitad de parámetros (2,0 M frente a 4,7 M) y significativamente menos FLOPs. Para requisitos complejos de alta precisión, el masivo YOLOv9e lleva la precisión hasta un 55,6 % de mAP, ilustrando el poder de la arquitectura PGI en redes profundas.

Prepara tu proyecto para el futuro con YOLO26

Si estás iniciando un nuevo proyecto de visión artificial, recomendamos encarecidamente utilizar YOLO26. Lanzado en 2026, cuenta con un diseño nativo de extremo a extremo sin NMS que elimina por completo la latencia de posprocesamiento, desbloqueando una inferencia en CPU hasta un 43 % más rápida.

Link to this sectionLa ventaja del ecosistema Ultralytics#

Independientemente de la filosofía arquitectónica del modelo que más te atraiga, implementarlos de forma nativa a través de la API de Python de Ultralytics proporciona una experiencia de desarrollador superior.

Link to this sectionFacilidad de uso y eficiencia de entrenamiento#

El entrenamiento de modelos complejos de aprendizaje profundo requiere tradicionalmente una enorme cantidad de código repetitivo. La plataforma de Ultralytics abstrae estas complejidades. Ya sea que estés ajustando YOLOv9 para la detección de defectos o exportando YOLOv6 para aplicaciones móviles, el flujo de trabajo sigue siendo notablemente coherente.

Además, las arquitecturas de Ultralytics generalmente cuentan con menores requisitos de memoria CUDA durante el entrenamiento en comparación con modelos basados en Transformer más voluminosos. Esto permite a los desarrolladores utilizar tamaños de lote (batch sizes) mayores en GPUs de grado de consumo, mejorando enormemente la eficiencia del entrenamiento.

from ultralytics import YOLO

# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")

# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Export to ONNX or TensorRT seamlessly
model.export(format="engine", quantize=16)

Link to this sectionVersatilidad inigualable en tareas de visión#

Aunque YOLOv6-3.0 está altamente optimizado para la generación rápida de cuadros delimitadores, los proyectos modernos de visión artificial a menudo requieren un enfoque multitarea. Los modelos de Ultralytics son famosos por su extrema versatilidad. Con herramientas como Ultralytics YOLOv8 y el más reciente YOLO26, un único marco de trabajo maneja sin problemas la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de pose y las cuadros delimitadores orientados (OBB).

Link to this sectionPresentamos YOLO26: el nuevo estándar#

Para las organizaciones que buscan maximizar tanto el rendimiento como la facilidad de implementación, YOLO26 representa la convergencia definitiva de velocidad y precisión.

Basándose en los éxitos de YOLO11, YOLO26 introduce varias características que cambian el paradigma:

  • Optimizador MuSGD: Inspirado en las técnicas de entrenamiento de Grandes Modelos de Lenguaje (LLM) como Kimi K2 de Moonshot AI, este optimizador híbrido garantiza un entrenamiento increíblemente estable y una convergencia rápida.
  • Eliminación de DFL: Al eliminar la pérdida focal de distribución (Distribution Focal Loss), YOLO26 simplifica el gráfico de exportación, haciéndolo significativamente más compatible con chips de computación de borde de bajo consumo.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para operaciones con drones y aplicaciones de IoT.
  • Mejoras específicas de la tarea: YOLO26 incluye prototipado multiescala nativo para segmentación, Estimación de Log-Verosimilitud Residual (RLE) para seguimiento esquelético y algoritmos especializados de pérdida de ángulo para resolver casos límite en la detección OBB.

Link to this sectionEscenarios de despliegue ideales#

Elegir la arquitectura correcta depende, en última instancia, de tus limitaciones de producción.

Elige YOLOv6-3.0 si tienes una tubería establecida en la fabricación industrial, dependes en gran medida de la cuantización y utilizas aceleradores de inferencia especializados donde necesitas la latencia de hardware sub-milisegundo más baja posible.

Elige YOLOv9 si te enfrentas a diagnósticos de atención sanitaria complejos o vigilancia de largo alcance donde no es una opción pasar por alto características sutiles a nivel de píxel.

Sin embargo, para un enfoque perfectamente equilibrado que ofrezca una precisión de vanguardia junto con una implementación simplificada sin NMS, Ultralytics YOLO26 se erige como la recomendación definitiva para la ingeniería de visión artificial moderna. Su ciclo de desarrollo activo, su documentación integral y el soporte vibrante de la comunidad lo convierten en una herramienta indispensable para investigadores y desarrolladores por igual.

Colaboradores

Comentarios