Link to this sectionEfficientDet frente a YOLOv5#
Seleccionar la arquitectura de red neuronal óptima es un paso decisivo en cualquier iniciativa de visión artificial. El equilibrio entre la latencia de inferencia, la eficiencia de los parámetros y la precisión de la detección determina el rendimiento de un modelo en el mundo real. Esta completa guía técnica ofrece un análisis en profundidad de dos marcos de detección de objetos muy influyentes: EfficientDet de Google y Ultralytics YOLOv5.
Al comparar sus innovaciones arquitectónicas, metodologías de entrenamiento y capacidades de implementación, los desarrolladores pueden tomar decisiones fundamentadas para sus entornos de implementación específicos, ya sea escalando en servidores en la nube o ejecutándolos en dispositivos periféricos limitados.
Link to this sectionEfficientDet: Arquitectura escalable con BiFPN#
Presentado por Google Research, EfficientDet se diseñó para escalar sistemáticamente tanto la red troncal como la red de características para lograr una alta precisión con menos parámetros que los modelos anteriores de vanguardia.
Link to this sectionDetalles del modelo#
- Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
- Organización: Google Research
- Fecha: 20 de noviembre de 2019
- Arxiv: EfficientDet: Scalable and Efficient Object Detection
- GitHub: google/automl/efficientdet
Link to this sectionInnovaciones arquitectónicas#
EfficientDet aprovecha el modelo de clasificación EfficientNet como su red troncal, utilizando un método de escalado compuesto que escala uniformemente la anchura, la profundidad y la resolución de la red. Su contribución más notable a la detección de objetos es la introducción de la Red de Pirámide de Características Bidireccional (BiFPN). A diferencia de las redes de pirámide de características estándar que simplemente agregan características de arriba a abajo, BiFPN permite conexiones complejas bidireccionales entre escalas e introduce pesos aprendibles para determinar la importancia de las diferentes características de entrada.
Aunque es muy preciso, EfficientDet depende en gran medida del ecosistema TensorFlow y de bibliotecas específicas de AutoML. Esta dependencia puede hacer que a veces sea difícil integrarlo en tuberías de implementación ligeras y personalizadas o en entornos que prefieren grafos computacionales dinámicos.
Aprende más sobre EfficientDet
Link to this sectionUltralytics YOLOv5: Democratizando la IA en tiempo real#
Lanzado poco después de EfficientDet, Ultralytics YOLOv5 revolucionó el sector al ofrecer una implementación de la arquitectura YOLO en PyTorch nativa e increíblemente accesible. Estableció un nuevo estándar en experiencia del desarrollador, eficiencia de entrenamiento y flexibilidad de implementación en tiempo real.
Link to this sectionDetalles del modelo#
- Autores: Glenn Jocher
- Organización: Ultralytics
- Fecha: 26 de junio de 2020
- GitHub: ultralytics/yolov5
- Documentación: Documentación de YOLOv5
Link to this sectionInnovaciones arquitectónicas#
YOLOv5 introdujo mejoras significativas respecto a sus predecesores, utilizando una red troncal CSPDarknet (Cross-Stage Partial) que mejora notablemente el flujo de gradiente a la vez que reduce el número total de parámetros. Además, YOLOv5 incorpora cajas de anclaje de autoaprendizaje (Auto-Learning Anchor Boxes), que calculan automáticamente los priores de cajas delimitadoras óptimos en función de tus datos de entrenamiento personalizados, eliminando la necesidad de ajustar manualmente los hiperparámetros.
YOLOv5 también utiliza intensamente la Aumentación de Datos en Mosaico, mezclando cuatro imágenes dispares en un solo mosaico de entrenamiento. Esto mejora enormemente la capacidad del modelo para detectar objetos pequeños y generaliza la comprensión contextual, lo que lo hace muy robusto en entornos variados.
Link to this sectionRendimiento y benchmarks#
Evaluar modelos en puntos de referencia estándar como el conjunto de datos COCO es crucial para entender las compensaciones entre precisión y velocidad. La tabla siguiente ilustra cómo rinden los diferentes tamaños de EfficientDet y YOLOv5 en condiciones estandarizadas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Link to this sectionAnálisis de las compensaciones#
Aunque EfficientDet-d7 escala hasta un impresionante mAP máximo de 53,7, sufre una latencia de inferencia significativa en hardware GPU en comparación con las arquitecturas YOLO. Por el contrario, YOLOv5 destaca en la aceleración de hardware. La variante YOLOv5n consigue un tiempo de inferencia asombrosamente rápido de 1,12 ms en una GPU T4 utilizando NVIDIA TensorRT, lo que la hace muy superior para aplicaciones en tiempo real como la conducción autónoma o las líneas de fabricación de alta velocidad.
Además, los modelos YOLOv5 demuestran requisitos de memoria CUDA mucho menores durante el entrenamiento en comparación con las complejas redes de escala compuesta o los grandes modelos Transformer. Este perfil de memoria ajustado democratiza el acceso a la IA de vanguardia, permitiendo a los investigadores entrenar modelos robustos en hardware de consumo estándar.
Para extraer el máximo de fotogramas por segundo (FPS) de tu modelo YOLOv5 en dispositivos periféricos, exporta tus pesos de PyTorch a TensorRT para GPUs NVIDIA o OpenVINO para CPUs Intel. Este paso puede duplicar a menudo tu velocidad de inferencia.
Link to this sectionEcosistema de entrenamiento y experiencia del desarrollador#
La verdadera ventaja del ecosistema Ultralytics reside en su experiencia de usuario optimizada. Mientras que EfficientDet requiere un conocimiento profundo de la API de detección de objetos de TensorFlow, YOLOv5 proporciona una API de Python sencilla y coherente.
El ecosistema Ultralytics, bien mantenido, garantiza que los desarrolladores tengan acceso a actualizaciones frecuentes, soporte activo de la comunidad e integraciones perfectas con herramientas de seguimiento de experimentos como Weights & Biases y ClearML.
Link to this sectionEjemplo de código: Primeros pasos con YOLOv5#
Ejecutar la inferencia con un modelo YOLOv5 preentrenado requiere solo unas pocas líneas de código a través de PyTorch Hub:
from ultralytics import YOLO
# Load the highly efficient YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display the detected bounding boxes
results[0].show()Link to this sectionVersatilidad y aplicaciones en el mundo real#
EfficientDet es estrictamente un marco de detección de objetos, lo que limita su utilidad en tuberías de visión complejas. Por otro lado, YOLOv5 ha evolucionado para admitir múltiples tareas de visión artificial. Las versiones modernas del modelo admiten segmentación de instancias y clasificación de imágenes de gran precisión, lo que permite a los desarrolladores consolidar su pila de aprendizaje automático.
Link to this sectionCasos de uso ideales#
- EfficientDet: Más adecuado para procesamiento sin conexión, investigación académica y análisis basados en la nube donde se prioriza la máxima precisión sobre la latencia, y donde se dispone de TPU de grado servidor o GPU de alta memoria.
- YOLOv5: La elección definitiva para implementaciones de IA periférica. Su combinación de baja latencia, huella de parámetros diminuta y alta precisión lo hace ideal para análisis con drones, automatización minorista en tiempo real y aplicaciones móviles a través de CoreML o TFLite.
Link to this sectionLa próxima generación: Actualización a YOLO26#
Aunque YOLOv5 sigue siendo un modelo robusto y ampliamente implementado, el campo de la IA avanza rápidamente. Para los equipos que comienzan nuevos proyectos o buscan la cúspide absoluta del rendimiento moderno, Ultralytics ha introducido YOLO26, lanzado en enero de 2026.
YOLO26 redefine la frontera de Pareto de velocidad y precisión, introduciendo cambios arquitectónicos revolucionarios que facilitan la implementación y aceleran la inferencia.
Link to this sectionAvances clave de YOLO26#
- Diseño integral sin NMS: YOLO26 elimina de forma nativa el posprocesamiento de Supresión No Máxima (NMS). Esto simplifica enormemente la lógica de implementación y reduce la varianza de la latencia, un enfoque revolucionario perfeccionado a partir de los primeros experimentos en YOLOv10.
- Hasta un 43% más rápido en inferencia de CPU: Diseñado específicamente para la computación periférica y dispositivos IoT de bajo consumo que funcionan sin GPU dedicadas.
- Optimizador MuSGD: Inspirado en las técnicas de entrenamiento de grandes modelos lingüísticos (como Kimi K2 de Moonshot AI), este híbrido de SGD y Muon traslada las innovaciones de los LLM a la visión artificial, permitiendo una convergencia más rápida y unas dinámicas de entrenamiento muy estables.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es fundamental para las imágenes aéreas y la robótica.
- Eliminación de DFL: Al eliminar la Pérdida Focal de Distribución (Distribution Focal Loss), el cabezal del modelo se simplifica enormemente, lo que conduce a una mejor compatibilidad al exportar a hardware periférico antiguo o muy limitado.
Para los equipos que implementan tuberías multitarea, YOLO26 también introduce actualizaciones específicas para cada tarea, como proto multiescala para segmentación y pérdida angular especializada para cajas delimitadoras orientadas (OBB). Para explorar otras alternativas modernas dentro del ecosistema, también puedes revisar YOLO11 o la arquitectura YOLOv8.
Link to this sectionConclusión#
Elegir entre EfficientDet y YOLOv5 depende en gran medida de tu objetivo de implementación. EfficientDet ofrece un enfoque de escalado matemáticamente elegante adecuado para la inferencia intensiva en la nube. Sin embargo, la experiencia de desarrollador superior de YOLOv5, sus ciclos de entrenamiento en PyTorch extremadamente rápidos y sus capacidades de implementación periférica altamente optimizadas lo convierten en la opción preferida para la gran mayoría de las aplicaciones del mundo real en tiempo real. Aprovechando las herramientas integrales que proporciona Ultralytics, los equipos pueden acelerar su tiempo de comercialización y construir sistemas de IA de gran respuesta.