Link to this sectionYOLOv5 vs DAMO-YOLO#
El panorama de la visión por ordenador en tiempo real evoluciona continuamente, con investigadores e ingenieros esforzándose por lograr el equilibrio perfecto entre precisión, velocidad y facilidad de uso. Dos modelos destacados que han marcado este camino son Ultralytics YOLOv5 y DAMO-YOLO de Alibaba.
Esta guía ofrece un análisis técnico detallado de sus arquitecturas, métricas de rendimiento y metodologías de entrenamiento para ayudarte a elegir el modelo adecuado para tu próximo despliegue.
Link to this sectionAntecedentes de los modelos#
Antes de adentrarnos en los matices técnicos, es importante comprender los orígenes y las filosofías de diseño principales detrás de cada uno de estos influyentes modelos de visión.
Link to this sectionUltralytics YOLOv5#
Desarrollado por Glenn Jocher y el equipo de Ultralytics, YOLOv5 se ha convertido en un estándar de la industria desde su lanzamiento. Construido de forma nativa sobre el framework PyTorch, prioriza una experiencia de desarrollo simplificada y capacidades de despliegue robustas desde el primer momento.
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Docs: Documentación de Ultralytics YOLOv5
Link to this sectionDAMO-YOLO#
Creado por investigadores de Alibaba Group, DAMO-YOLO se centra intensamente en la búsqueda de arquitectura neuronal (NAS) y técnicas avanzadas de destilación. Empuja los límites teóricos del rendimiento específico del hardware, orientándose fuertemente a entornos de investigación y periféricos (edge) que requieren un ajuste extremo.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
- Organización: Alibaba Group
- Fecha: 23-11-2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Más información sobre DAMO-YOLO
Link to this sectionInnovaciones arquitectónicas#
Ambos modelos aprovechan conceptos estructurales únicos para lograr su rendimiento en tiempo real, aunque sus enfoques difieren significativamente.
Link to this sectionYOLOv5: Estabilidad y versatilidad#
YOLOv5 utiliza un backbone Modified CSP (Cross Stage Partial) junto con un cuello PANet (Path Aggregation Network). Esta estructura es altamente eficiente, minimizando el uso de memoria CUDA tanto durante el entrenamiento como en la inferencia.
Una de las mayores fortalezas de YOLOv5 es su versatilidad en diversas tareas. Más allá de las predicciones de BBox, ofrece arquitecturas dedicadas para segmentación de imágenes y clasificación de imágenes, lo que permite a los desarrolladores estandarizar sus pipelines de visión en torno a un único framework coherente.
Link to this sectionDAMO-YOLO: Búsqueda automatizada de arquitectura#
La innovación principal de DAMO-YOLO es su backbone MAE-NAS. Utilizando una búsqueda evolutiva multiobjetivo, el equipo de Alibaba descubrió backbones que equilibran dinámicamente la precisión de detección y la velocidad de inferencia.
Además, cuenta con el cuello Efficient RepGFPN para una mejor fusión de características, lo cual es altamente beneficioso para las variaciones de escala complejas que se observan a menudo en el análisis de imágenes por satélite. Su diseño ZeroHead simplifica las capas finales de predicción para reducir la latencia, aunque esta compleja generación estructural puede hacer que la arquitectura sea rígida y más difícil de modificar para aplicaciones personalizadas.
Las arquitecturas basadas en Transformer suelen tener dificultades con el alto consumo de VRAM. Tanto YOLOv5 como DAMO-YOLO utilizan diseños convolucionales eficientes para mantener baja la huella de memoria, pero los modelos de Ultralytics están notablemente optimizados para GPUs de consumo, haciéndolos mucho más accesibles para investigadores independientes y startups.
Link to this sectionRendimiento y métricas#
Evaluar detectores de objetos en tiempo real requiere analizar una matriz de mAP (mean Average Precision), velocidad de inferencia y parámetros de tamaño del modelo.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Aunque DAMO-YOLO logra puntuaciones de mAP altamente competitivas con ciertos conteos de parámetros, YOLOv5 demuestra constantemente velocidades de TensorRT excepcionales y conteos de parámetros increíblemente bajos para sus configuraciones nano y small. Este equilibrio de rendimiento garantiza que YOLOv5 opere de manera eficiente en diversos escenarios de despliegue en el edge.
Link to this sectionEficiencia de entrenamiento y ecosistema#
La precisión teórica de un modelo es tan buena como su capacidad de implementación práctica. Aquí es donde los modelos divergen considerablemente.
Link to this sectionLa complejidad de la destilación#
DAMO-YOLO depende en gran medida de una metodología de entrenamiento multietapa. Implementa una técnica de destilación de conocimiento profesor-alumno conocida como AlignedOTA. Aunque esto extrae el máximo rendimiento del modelo alumno, requiere entrenar inicialmente un modelo profesor masivo. Esto aumenta drásticamente el tiempo de computación, los costes energéticos y el hardware requerido, lo que supone un cuello de botella para los equipos de ML ágiles.
Link to this sectionLa ventaja de Ultralytics: facilidad de uso#
Por el contrario, el ecosistema Ultralytics es mundialmente reconocido por sus API intuitivas y su eficiencia en el entrenamiento. Con el apoyo de un desarrollo activo y una enorme comunidad de código abierto, los desarrolladores pueden entrenar, validar y desplegar modelos sin problemas.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")Ultralytics también proporciona soporte integrado para el seguimiento de experimentos mediante herramientas como Weights & Biases y Comet ML, creando un flujo de trabajo sin fricciones.
Link to this sectionCasos de uso en el mundo real#
- YOLOv5 destaca en entornos de producción de ritmo rápido. Su sencilla capacidad de exportación lo convierte en la opción principal para analítica minorista inteligente, detección de defectos de fabricación de alta velocidad e integración en aplicaciones móviles mediante CoreML.
- DAMO-YOLO es muy adecuado para la evaluación comparativa académica estricta y escenarios donde se dispone de vastos recursos computacionales para ejecutar largas ejecuciones de entrenamiento destilado, destinadas a exprimir mejoras fraccionarias de mAP para objetivos de hardware específicos y fijos.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOv5 y DAMO-YOLO depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.
Link to this sectionCuándo elegir YOLOv5#
YOLOv5 es una opción sólida para:
- Sistemas de producción probados: Despliegues existentes donde se valora la larga trayectoria de estabilidad, la extensa documentación y el enorme soporte de la comunidad de YOLOv5.
- Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde la eficiente canalización de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
- Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en muchos formatos, incluidos ONNX, TensorRT, CoreML y TFLite.
Link to this sectionCuándo elegir DAMO-YOLO#
DAMO-YOLO se recomienda para:
- Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
- Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
- Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionLa siguiente evolución: YOLO26#
Si estás iniciando un nuevo proyecto, te recomendamos encarecidamente que mires hacia el futuro. Ultralytics YOLO26 se basa en la increíble base de YOLOv5, incorporando avances revolucionarios que redefinen la IA de visión de última generación.
Lanzado con aclamación universal, YOLO26 es nativamente de extremo a extremo. Cuenta con un diseño sin NMS de extremo a extremo, eliminando por completo el post-procesamiento de Non-Maximum Suppression para un despliegue sustancialmente más rápido y sencillo.
Las innovaciones clave en YOLO26 incluyen:
- Optimizador MuSGD: Inspirado en innovaciones de entrenamiento de LLM, este híbrido de SGD y Muon garantiza un entrenamiento altamente estable y una convergencia rápida.
- Hasta un 43% más rápido en inferencia de CPU: Fuertemente optimizado para la computación en el edge, lo que lo hace perfecto para dispositivos IoT que operan sin GPUs dedicadas.
- ProgLoss + STAL: Funciones de pérdida avanzadas que mejoran drásticamente el reconocimiento de objetos pequeños, lo cual es crítico para imágenes de drones aéreos y robótica.
- Mejoras específicas por tarea: Desde pérdida de ángulo especializada para Oriented Bounding Boxes (OBB) hasta la estimación de log-verosimilitud residual (RLE) para una estimación de pose precisa, YOLO26 maneja dominios complejos con facilidad.
Link to this sectionConclusión#
Tanto YOLOv5 como DAMO-YOLO han consolidado su lugar en la historia de la detección de objetos. DAMO-YOLO sigue siendo un estudio fascinante en búsqueda de arquitectura neuronal y destilación. Sin embargo, para las organizaciones que priorizan un ecosistema bien mantenido, la facilidad de uso y un camino rápido a la producción, los modelos de Ultralytics siguen siendo inigualables.
Recomendamos encarecidamente utilizar la plataforma Ultralytics para anotar, entrenar y desplegar la próxima generación de modelos, como YOLO26, asegurando que tu pipeline de visión por ordenador esté preparado para el futuro, sea rápido y notablemente preciso.