Meet YOLO26: next-gen vision AI.

Link to this sectionEfficientDet frente a RTDETRv2: Una comparativa exhaustiva de arquitecturas de detección de objetos#

Elegir la arquitectura óptima para proyectos de visión artificial requiere navegar por un panorama diverso de redes neuronales. Esta guía explora una comparativa técnica detallada entre dos enfoques distintos: EfficientDet, una familia de redes neuronales convolucionales (CNN) altamente escalables, y RTDETRv2, un modelo transformer de última generación en tiempo real. Evaluamos sus diferencias estructurales, metodologías de entrenamiento y adecuación para el despliegue en diversos entornos de hardware.

Al comprender las ventajas y desventajas entre la eficiencia tradicional y las capacidades modernas de los transformers, puedes tomar decisiones fundamentadas. Además, exploraremos cómo las alternativas modernas como el nuevo Ultralytics YOLO26 cierran la brecha, ofreciendo una velocidad, precisión y facilidad de uso inigualables.

Link to this sectionComprendiendo EfficientDet#

EfficientDet revolucionó la detección de objetos al introducir un enfoque basado en principios para el escalado de modelos.

Link to this sectionArquitectura y conceptos fundamentales#

En su esencia, EfficientDet utiliza EfficientNet como base e introduce la Red de Pirámide de Características Bidireccional (BiFPN). BiFPN permite una fusión de características multiescala fácil y rápida al aplicar pesos aprendibles para determinar la importancia de las diferentes características de entrada. Esto se combina con un método de escalado compuesto que escala uniformemente la resolución, profundidad y anchura para todas las redes de base, de características y de predicción de cajas/clases simultáneamente.

Link to this sectionPuntos fuertes y limitaciones#

La principal fortaleza de EfficientDet reside en su eficiencia de parámetros. En el momento de su lanzamiento, modelos como EfficientDet-D0 lograban una mayor precisión con menos parámetros y FLOPs en comparación con versiones anteriores de YOLO. Esto lo hizo muy atractivo para entornos con límites de cómputo estrictos.

Sin embargo, EfficientDet depende de la supresión de no máximos (NMS) estándar durante el posprocesamiento para filtrar cajas delimitadoras superpuestas, lo que puede introducir cuellos de botella de latencia en los flujos de trabajo en tiempo real. Además, aunque el proceso de entrenamiento está bien documentado, ajustar EfficientDet puede ser tedioso en comparación con las experiencias de desarrollo altamente optimizadas que se encuentran en las herramientas modernas.

Más información sobre EfficientDet

Soporte heredado

Aunque EfficientDet abrió el camino para las redes escalables, desplegar estos modelos en NPUs modernas a menudo requiere una optimización manual exhaustiva. Para despliegues optimizados, los nuevos modelos de Ultralytics ofrecen funcionalidad de exportación con un solo clic.

Link to this sectionExplorando RTDETRv2#

RTDETRv2 representa la evolución de las arquitecturas basadas en transformers, desplazando el paradigma de las CNN tradicionales basadas en anclas.

Link to this sectionAvances en Transformers#

RTDETRv2 se basa en la línea de base del Real-Time Detection Transformer (RT-DETR). Aprovecha los mecanismos de atención global, permitiendo al modelo comprender contextos de escenas complejos sin las restricciones localizadas de las convoluciones estándar. La ventaja arquitectónica más significativa es su diseño nativo sin NMS. Al predecir objetos directamente desde la imagen de entrada, simplifica el flujo de trabajo de inferencia, evitando el ajuste heurístico requerido por el posprocesamiento NMS.

Link to this sectionPuntos fuertes y debilidades#

RTDETRv2 destaca en entornos de alta densidad donde los objetos superpuestos confunden a las CNN tradicionales. Es altamente preciso en conjuntos de datos de referencia complejos como COCO.

A pesar de su precisión, los modelos transformer demandan naturalmente una cantidad considerable de memoria. La eficiencia del entrenamiento es notablemente menor; requiere significativamente más épocas y una mayor huella de memoria CUDA para converger en comparación con las CNN. Esto hace que RTDETRv2 sea menos ideal para desarrolladores que operan con presupuestos de nube limitados o aquellos que necesitan realizar prototipos rápidos.

Aprende más sobre RTDETRv2

Restricciones de memoria de los Transformers

Entrenar modelos transformer como RTDETRv2 generalmente requiere GPUs de gama alta. Si encuentras errores de falta de memoria (OOM), considera usar modelos con menores requisitos de memoria durante el entrenamiento, tales como la serie Ultralytics YOLO.

Link to this sectionComparativa de rendimiento#

Comprender las métricas de rendimiento en bruto es vital para la selección del modelo. La siguiente tabla muestra la comparativa entre EfficientDet y RTDETRv2 en varios tamaños.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionCasos de uso y recomendaciones#

Elegir entre EfficientDet y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y tus preferencias de ecosistema.

Link to this sectionCuándo elegir EfficientDet#

EfficientDet es una gran opción para:

  • Google Cloud y pipelines de TPU: Sistemas profundamente integrados con las API de Google Cloud Vision o la infraestructura de TPU, donde EfficientDet cuenta con optimización nativa.
  • Investigación en escalado compuesto: Benchmarking académico centrado en el estudio de los efectos de un escalado equilibrado de profundidad, anchura y resolución de red.
  • Despliegue móvil mediante TFLite: Proyectos que requieren específicamente la exportación a TensorFlow Lite para dispositivos Android o Linux embebidos.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR se recomienda para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics: Presentamos YOLO26#

Aunque EfficientDet y RTDETRv2 han consolidado su lugar en la historia de la visión artificial, los entornos de producción modernos exigen un equilibrio perfecto entre velocidad, precisión y una experiencia de desarrollo excepcional. El recientemente lanzado Ultralytics YOLO26 sintetiza los mejores aspectos de estas arquitecturas dispares.

YOLO26 destaca al combinar el ecosistema optimizado por el que es conocido Ultralytics con mecánicas internas revolucionarias.

Link to this section¿Por qué elegir YOLO26 frente a la competencia?#

  • Diseño integral sin NMS: Inspirándose en transformers como RTDETRv2, YOLO26 es nativamente integral (end-to-end). Elimina el posprocesamiento NMS, garantizando flujos de trabajo de despliegue más rápidos y sencillos sin el enorme aumento de parámetros de los transformers puros.
  • Optimizador MuSGD: Inspirado en innovaciones en el entrenamiento de grandes modelos de lenguaje (como Kimi K2 de Moonshot AI), YOLO26 utiliza un híbrido de SGD y Muon. Esto aporta una estabilidad de entrenamiento sin precedentes y tasas de convergencia significativamente más rápidas en comparación con los largos cronogramas requeridos por RTDETRv2.
  • Optimizado para el Edge: Con una inferencia en CPU hasta un 43% más rápida, YOLO26 está diseñado para Edge AI. Supera fácilmente a los pesados modelos transformer en hardware restringido como teléfonos móviles y cámaras inteligentes.
  • Eliminación de DFL: La eliminación de Distribution Focal Loss simplifica el grafo del modelo, facilitando exportaciones fluidas a TensorRT y ONNX.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, resolviendo un cuello de botella común en la captura de imágenes aéreas y robótica.
  • Versatilidad: A diferencia de RTDETRv2, que se centra principalmente en la detección, YOLO26 admite de forma nativa segmentación de instancias, estimación de pose, clasificación de imágenes y cajas delimitadoras orientadas (OBB) con mejoras específicas de la tarea como RLE para pose y pérdida de ángulo especializada para OBB.
Ecosistema integrado

Aprovechando la Plataforma Ultralytics, puedes gestionar tus conjuntos de datos, entrenar modelos como YOLO26 o YOLO11 en la nube y desplegarlos sin problemas mediante APIs flexibles.

Link to this sectionSimplicidad de código con Ultralytics#

La API de Python de Ultralytics, bien mantenida, hace que el entrenamiento y la inferencia de modelos sean triviales. Los desarrolladores pueden comparar fácilmente modelos o lanzar scripts de entrenamiento con un mínimo de código repetitivo.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Para quienes gestionan infraestructura heredada, el aclamado Ultralytics YOLOv8 sigue siendo una opción estable y potente, lo que demuestra la fiabilidad a largo plazo del ecosistema de Ultralytics. Ya sea que estés ejecutando complejos algoritmos de seguimiento en tiempo real o una simple detección de defectos, actualizar a YOLO26 garantiza que tu sistema esté preparado para el futuro, sea altamente preciso y eficiente en cuanto a memoria.

Comentarios