YOLOv5 YOLO: un análisis técnico en profundidad sobre la evolución de la detección de objetos
En el mundo de la visión artificial, que avanza rápidamente, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta guía compara YOLOv5, el legendario repositorio que democratizó la IA accesible, y YOLO, una arquitectura centrada en la investigación del equipo TinyVision de Alibaba. Aunque ambos modelos buscan una alta eficiencia, abordan el problema con filosofías diferentes en cuanto a arquitectura, facilidad de uso y preparación para la implementación.
Visión General y Orígenes del Modelo
YOLOv5
Lanzado a mediados de 2020 por Ultralytics, YOLOv5 un estándar del sector no solo por su arquitectura, sino también por su ingeniería. Destacaba por su facilidad de uso, sus sólidas líneas de entrenamiento y su capacidad de exportación sin problemas. Sigue siendo uno de los modelos de IA visual más utilizados a nivel mundial.
- Autores: Glenn Jocher
- Organización:Ultralytics
- Fecha: 2020-06-26
- GitHub:ultralytics/yolov5
DAMO-YOLO
Propuesto a finales de 2022 por Alibaba Group,YOLO Distillation-Augmented MOdel) integra tecnologías de vanguardia como Neural Architecture Search (NAS), Reparameterized Generalized-FPN (RepGFPN) y una gran dependencia de la destilación para mejorar el rendimiento.
- Autores: Xianzhe Xu, Yiqi Jiang, et al.
- Organización: Alibaba Group
- Fecha: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Comparación de Arquitectura Técnica
Las diferencias arquitectónicas entre estos dos modelos ponen de relieve el cambio de los diseños heurísticos «bag-of-freebies» a arquitecturas automatizadas basadas en búsquedas.
YOLOv5: El estándar CSP-Darknet
YOLOv5 una estructura principal CSP-Darknet53 modificada conectada a un cuello de red de agregación de rutas (PANet). Su principal fortaleza radica en su diseño modular y en los «bag-of-freebies» aplicados durante el entrenamiento, como el aumento de mosaicos y la evolución de hiperparámetros del algoritmo genético.
- Backbone: CSP-Darknet
- Cuello: PANet con bloques CSP
- Cabezal: Cabezal acoplado basado en anclajes al estilo YOLOv3
YOLO: NAS y destilación
YOLO de los diseños manuales estándar al emplear la búsqueda de arquitectura neuronal (NAS) para encontrar la estructura troncal óptima (MAE-NAS).
- Backbone: MAE-NAS (basado en búsqueda)
- Cuello: RepGFPN (FPN generalizado reparametrizado) que permite una fusión eficiente de características.
- Cabezal: ZeroHead (capas de proyección de doble tarea) combinado con AlignedOTA para la asignación de etiquetas.
- Destilación: un componente fundamental en el que un modelo «maestro» más grande guía el entrenamiento del modelo «alumno» más pequeño, lo que añade complejidad al proceso de entrenamiento, pero mejora la precisión final.
Complejidad de la destilación
Si bien la destilación mejora la precisión deYOLO, complica significativamente el flujo de trabajo de entrenamiento en comparación con YOLOv5. Los usuarios a menudo deben entrenar o descargar primero un modelo maestro, lo que aumenta la barrera de entrada para los conjuntos de datos personalizados.
Métricas de rendimiento
La siguiente tabla compara el rendimiento de varias escalas de modelos en el conjunto de datos COCO . Mientras queYOLO buenos resultados en métricas académicas, YOLOv5 competitivo en rendimiento y versatilidad de implementación.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Análisis de resultados
- Eficiencia: YOLOv5n (Nano) sigue siendo el rey de la inferencia ligera, con un número de parámetros (2,6 millones frente a 8,5 millones) y FLOP significativamente inferiores en comparación conYOLO, lo que lo hace mucho más adecuado para casos extremos en CPU estándar.
- Precisión:YOLO su canal de destilación para obtener una mayor mAP a partir de recuentos de parámetros similares, especialmente en los rangos pequeño y mediano.
- Velocidad de inferencia: YOLOv5 ofrecer CPU más rápida a través de ONNX debido a bloques arquitectónicos más simples que están altamente optimizados en bibliotecas estándar.
Entrenamiento y usabilidad
Esta es la principal diferencia para los desarrolladores. El Ultralytics prioriza una experiencia «de cero a héroe», mientras que los repositorios de investigación suelen requerir una configuración exhaustiva.
YOLOv5: Experiencia optimizada
YOLOv5 una interfaz de línea de comandos fácil de usar y Python que se convirtió en el estándar del sector. El entrenamiento con un conjunto de datos personalizado requiere una configuración mínima.
import torch
# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt
YOLO: Complejidad de la investigación
El entrenamientoYOLO implicar un sistema de configuración más complejo. La dependencia de un programa de destilación significa que los usuarios a menudo necesitan gestionar dos modelos (profesor y alumno) durante la fase de entrenamiento, lo que aumentalos requisitos de memoria GPU y la sobrecarga de configuración.
Ultralytics de Ultralytics : ecosistema y versatilidad
Si bienYOLO un potente detector de objetos puro, el Ultralytics ofrece un conjunto más amplio de capacidades que requieren los proyectos modernos de IA.
- Versatilidad: más allá de los simples recuadros delimitadores, Ultralytics la segmentación de instancias, la estimación de poses, la clasificación y la detección de recuadros delimitadores orientados (OBB).YOLO centra principalmente en la detección estándar.
- Implementación: Ultralytics se exportan sin problemas a formatos como TensorRT, CoreML, TFLite y OpenVINO un único comando.
- Soporte comunitario: con millones de usuarios, la Ultralytics ofrece amplios recursos, tutoriales e integraciones de terceros que los repositorios de investigación no pueden igualar.
La Próxima Generación: YOLO26
Para los desarrolladores impresionados por la eficiencia de los modelos basados en NAS, pero que necesitan la facilidad de uso de YOLOv5, YOLO26 es el sucesor recomendado. Lanzado en 2026, incorpora lo mejor de ambos mundos.
- NMS de extremo a extremo: al igual que los últimos avances académicos, YOLO26 elimina la supresión no máxima (NMS), lo que simplifica los procesos de implementación.
- Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador híbrido garantiza una convergencia estable.
- Optimizado para el borde: YOLO26 es hasta un 43 % más rápido en CPU, lo que lo convierte en la mejor opción para la computación en el borde frente a YOLOv5 YOLO.
Conclusión
YOLO es una excelente contribución al campo de la investigación en visión artificial, que demuestra el poder de la búsqueda de arquitectura neuronal y la destilación. Es una sólida opción para los investigadores que desean estudiar métodos avanzados de búsqueda de arquitectura o sacar el máximo partido a la precisión en entornos con restricciones de hardware específicas, donde la complejidad del entrenamiento no supone un obstáculo.
YOLOv5y su moderno sucesor, YOLO26, siguen siendo la opción preferida para prácticamente todas las implementaciones de producción. La combinación de un bajo consumo de memoria, una amplia compatibilidad con tareas (segmentación, pose, OBB) y la robusta Ultralytics garantiza que los proyectos pasen del prototipo a la producción con una fricción mínima.
Para aquellos que buscan lo último en rendimiento y funciones, recomendamos encarecidamente explorar YOLO26, que ofrece la eficiencia integral que tanto gusta a los investigadores con la facilidad de uso por la que Ultralytics famosa.
Lecturas adicionales
- Explora la documentación más reciente de YOLO26.
- Echa un vistazo al repositorio YOLOv5 .
- Aprenda los fundamentos de la detección de objetos en tiempo real.
- Compare otros modelos como RT-DETR para soluciones basadas en transformadores.