Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 frente a EfficientDet#

El campo de la visión artificial ha experimentado una rápida evolución en la detección de objetos en tiempo real, con investigadores que continuamente superan los límites de precisión y eficiencia. Al construir sistemas de visión robustos, elegir la arquitectura óptima es una decisión crítica. Dos modelos muy debatidos en este espacio son YOLOv9, una iteración avanzada del linaje YOLO centrada en la información de gradiente, y EfficientDet, un framework escalable desarrollado por Google.

Esta guía proporciona un análisis técnico exhaustivo que compara estas dos arquitecturas, examinando sus mecanismos subyacentes, métricas de rendimiento y escenarios de despliegue ideales para ayudarte a tomar una decisión informada para tu próximo proyecto de IA.

Link to this sectionOrígenes y especificaciones técnicas de los modelos#

Comprender el linaje y la filosofía de diseño de un modelo proporciona un contexto valioso para sus decisiones estructurales y aplicaciones prácticas.

Link to this sectionYOLOv9: Maximizar el flujo de información#

Desarrollado para abordar el "cuello de botella de información" en el aprendizaje profundo, YOLOv9 introduce métodos novedosos para garantizar que los datos no se pierdan a medida que pasan a través de las redes neuronales profundas.

  • Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
  • Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
  • Fecha: 21 de febrero de 2024
  • Enlaces: Publicación en ArXiv, GitHub oficial

YOLOv9 introduce la Información de Gradiente Programable (PGI), un framework de supervisión auxiliar que garantiza que la información de gradiente se preserve de forma fiable a través de las capas profundas. Esto se combina con la Red de Agregación de Capas Eficiente Generalizada (GELAN), que optimiza la eficiencia de los parámetros combinando las fortalezas de CSPNet y ELAN. Esto permite a YOLOv9 alcanzar una alta precisión mientras mantiene una huella ligera adecuada para el procesamiento en el borde (edge) en tiempo real.

Aprende más sobre YOLOv9

Link to this sectionEfficientDet: Escalado compuesto y BiFPN#

Introducido por Google Brain, EfficientDet aborda la detección de objetos escalando sistemáticamente las dimensiones de la red para equilibrar la velocidad y la precisión.

EfficientDet depende de un backbone EfficientNet combinado con una Red de Pirámide de Características Bidireccional (BiFPN). BiFPN permite una fusión de características multiescala fácil y rápida. La arquitectura utiliza un método de escalado compuesto que escala uniformemente la resolución, la profundidad y el ancho para todas las redes de backbone, de características y de predicción de caja/clase simultáneamente.

Aprende más sobre EfficientDet

Elegir el marco de trabajo adecuado

Aunque las arquitecturas teóricas son importantes, el ecosistema de software a menudo dicta el éxito del proyecto. Ultralytics proporciona una experiencia de usuario optimizada y herramientas de despliegue robustas que reducen significativamente el tiempo de comercialización en comparación con bases de código complejas orientadas a la investigación.

Link to this sectionComparación de rendimiento y métricas#

Al analizar el rendimiento del modelo, es esencial equilibrar la precisión con la latencia de inferencia y el costo computacional. La siguiente tabla ilustra las compensaciones entre diferentes tamaños de YOLOv9 y EfficientDet.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Link to this sectionAnálisis crítico de métricas#

  1. Umbrales de precisión: YOLOv9e logra la mayor precisión general con un impresionante 55.6% de mAP (precisión media media), superando al modelo más pesado EfficientDet-d7 (53.7%) mientras mantiene velocidades TensorRT más rápidas.
  2. Velocidad en tiempo real: YOLOv9t requiere solo 2.3ms en una GPU T4 usando TensorRT, lo que destaca la eficiencia de la arquitectura GELAN para transmisiones de video de alta velocidad. EfficientDet-d0 funciona rápidamente, pero sacrifica un mAP significativo para alcanzar esas velocidades.
  3. Complejidad computacional: EfficientDet escala fuertemente en el recuento de parámetros y FLOPs a medida que aumenta el factor compuesto. La variante d7 alcanza una latencia de 128ms, lo que la hace más de 10 veces más lenta que los modelos YOLO modernos comparables, restringiendo fuertemente su uso en entornos de inferencia en tiempo real.

Link to this sectionEficiencia de entrenamiento y ecosistema#

Elegir un modelo implica evaluar el ecosistema de desarrolladores. El ecosistema de Ultralytics proporciona una ventaja inigualable en eficiencia de entrenamiento, flexibilidad de despliegue y versatilidad general.

Link to this sectionLa ventaja de Ultralytics#

Los modelos compatibles dentro del framework de Ultralytics, incluyendo YOLOv9 a través de integraciones de la comunidad y modelos oficiales de Ultralytics como YOLOv8 y YOLO11, se benefician de requisitos de memoria drásticamente menores durante el entrenamiento en comparación con arquitecturas basadas en Transformer o arquitecturas TensorFlow más antiguas como EfficientDet. El backend robusto de PyTorch garantiza una convergencia rápida y estabilidad.

Link to this sectionEjemplo de implementación#

Entrenar un modelo de visión artificial avanzado no debería requerir cientos de líneas de código repetitivo. Aquí tienes lo fácil que es iniciar el entrenamiento utilizando el paquete de Python de Ultralytics:

from ultralytics import YOLO

# Load an official Ultralytics model (e.g., YOLO11 or YOLO26)
model = YOLO("yolo11n.pt")

# Train the model natively on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Link to this sectionCasos de uso ideales y aplicaciones en el mundo real#

Diferentes paradigmas estructurales hacen que estos modelos sean adecuados para distintos escenarios.

When to use EfficientDet: EfficientDet remains a viable option in legacy systems heavily entrenched in the TensorFlow ecosystem where migration to PyTorch is unfeasible. It is also historically notable in medical image analysis research where slower offline processing of high-resolution scans is acceptable.

Cuándo usar YOLOv9: YOLOv9 destaca en entornos que requieren la máxima extracción de precisión de capas profundas sin que el recuento de parámetros explote. Aplicaciones como la compleja gestión de tráfico en ciudades inteligentes y la monitorización de multitudes de alta densidad se benefician enormemente de la capacidad de PGI para retener la integridad de las características.

Link to this sectionPreparación para el futuro: La próxima generación de IA de visión#

While YOLOv9 and EfficientDet are powerful, developers looking for the ultimate balance of edge computing speed, training stability, and deployment simplicity should look toward the latest innovations.

Lanzado en enero de 2026, Ultralytics YOLO26 representa el estado del arte actual. Mejora las generaciones anteriores (incluyendo YOLO11 y YOLOv8) con varios avances críticos:

  • Diseño de extremo a extremo sin NMS: YOLO26 elimina completamente la supresión no máxima (Non-Maximum Suppression), un concepto iniciado en YOLOv10, lo que resulta en un despliegue de modelos significativamente más rápido y sencillo.
  • Eliminación de DFL: Se ha eliminado la Pérdida Focal de Distribución (Distribution Focal Loss) para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia.
  • Hasta un 43% más rápido en inferencia de CPU: Perfectamente optimizado para dispositivos IoT y entornos que carecen de GPUs dedicadas.
  • Optimizador MuSGD: Un híbrido revolucionario de SGD y Muon (inspirado en innovaciones de entrenamiento de LLM), que garantiza una convergencia más rápida y ejecuciones de entrenamiento increíblemente estables.
  • ProgLoss + STAL: Funciones de pérdida avanzadas que mejoran drásticamente la detección de objetos pequeños, un factor crítico para imágenes de drones aéreos y robótica robusta.

Más información sobre YOLO26

Al aprovechar la Plataforma Ultralytics integral, los equipos pueden gestionar datasets, realizar un seguimiento de experimentos y desplegar modelos como YOLO26 en diversos ecosistemas de hardware sin esfuerzo, asegurando que sus pipelines de visión artificial permanezcan de vanguardia y listos para producción.

Colaboradores

Comentarios