Ir al contenido

YOLOv5 YOLO: un análisis técnico en profundidad sobre la evolución de la detección de objetos

En el mundo de la visión artificial, que avanza rápidamente, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta guía compara YOLOv5, el legendario repositorio que democratizó la IA accesible, y YOLO, una arquitectura centrada en la investigación del equipo TinyVision de Alibaba. Aunque ambos modelos buscan una alta eficiencia, abordan el problema con filosofías diferentes en cuanto a arquitectura, facilidad de uso y preparación para la implementación.

Visión General y Orígenes del Modelo

YOLOv5

Lanzado a mediados de 2020 por Ultralytics, YOLOv5 un estándar del sector no solo por su arquitectura, sino también por su ingeniería. Destacaba por su facilidad de uso, sus sólidas líneas de entrenamiento y su capacidad de exportación sin problemas. Sigue siendo uno de los modelos de IA visual más utilizados a nivel mundial.

Más información sobre YOLOv5

DAMO-YOLO

Propuesto a finales de 2022 por Alibaba Group,YOLO Distillation-Augmented MOdel) integra tecnologías de vanguardia como Neural Architecture Search (NAS), Reparameterized Generalized-FPN (RepGFPN) y una gran dependencia de la destilación para mejorar el rendimiento.

Comparación de Arquitectura Técnica

Las diferencias arquitectónicas entre estos dos modelos ponen de relieve el cambio de los diseños heurísticos «bag-of-freebies» a arquitecturas automatizadas basadas en búsquedas.

YOLOv5: El estándar CSP-Darknet

YOLOv5 una estructura principal CSP-Darknet53 modificada conectada a un cuello de red de agregación de rutas (PANet). Su principal fortaleza radica en su diseño modular y en los «bag-of-freebies» aplicados durante el entrenamiento, como el aumento de mosaicos y la evolución de hiperparámetros del algoritmo genético.

  • Backbone: CSP-Darknet
  • Cuello: PANet con bloques CSP
  • Cabezal: Cabezal acoplado basado en anclajes al estilo YOLOv3

YOLO: NAS y destilación

YOLO de los diseños manuales estándar al emplear la búsqueda de arquitectura neuronal (NAS) para encontrar la estructura troncal óptima (MAE-NAS).

  • Backbone: MAE-NAS (basado en búsqueda)
  • Cuello: RepGFPN (FPN generalizado reparametrizado) que permite una fusión eficiente de características.
  • Cabezal: ZeroHead (capas de proyección de doble tarea) combinado con AlignedOTA para la asignación de etiquetas.
  • Destilación: un componente fundamental en el que un modelo «maestro» más grande guía el entrenamiento del modelo «alumno» más pequeño, lo que añade complejidad al proceso de entrenamiento, pero mejora la precisión final.

Complejidad de la destilación

Si bien la destilación mejora la precisión deYOLO, complica significativamente el flujo de trabajo de entrenamiento en comparación con YOLOv5. Los usuarios a menudo deben entrenar o descargar primero un modelo maestro, lo que aumenta la barrera de entrada para los conjuntos de datos personalizados.

Métricas de rendimiento

La siguiente tabla compara el rendimiento de varias escalas de modelos en el conjunto de datos COCO . Mientras queYOLO buenos resultados en métricas académicas, YOLOv5 competitivo en rendimiento y versatilidad de implementación.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análisis de resultados

  • Eficiencia: YOLOv5n (Nano) sigue siendo el rey de la inferencia ligera, con un número de parámetros (2,6 millones frente a 8,5 millones) y FLOP significativamente inferiores en comparación conYOLO, lo que lo hace mucho más adecuado para casos extremos en CPU estándar.
  • Precisión:YOLO su canal de destilación para obtener una mayor mAP a partir de recuentos de parámetros similares, especialmente en los rangos pequeño y mediano.
  • Velocidad de inferencia: YOLOv5 ofrecer CPU más rápida a través de ONNX debido a bloques arquitectónicos más simples que están altamente optimizados en bibliotecas estándar.

Entrenamiento y usabilidad

Esta es la principal diferencia para los desarrolladores. El Ultralytics prioriza una experiencia «de cero a héroe», mientras que los repositorios de investigación suelen requerir una configuración exhaustiva.

YOLOv5: Experiencia optimizada

YOLOv5 una interfaz de línea de comandos fácil de usar y Python que se convirtió en el estándar del sector. El entrenamiento con un conjunto de datos personalizado requiere una configuración mínima.

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

YOLO: Complejidad de la investigación

El entrenamientoYOLO implicar un sistema de configuración más complejo. La dependencia de un programa de destilación significa que los usuarios a menudo necesitan gestionar dos modelos (profesor y alumno) durante la fase de entrenamiento, lo que aumentalos requisitos de memoria GPU y la sobrecarga de configuración.

Ultralytics de Ultralytics : ecosistema y versatilidad

Si bienYOLO un potente detector de objetos puro, el Ultralytics ofrece un conjunto más amplio de capacidades que requieren los proyectos modernos de IA.

  1. Versatilidad: más allá de los simples recuadros delimitadores, Ultralytics la segmentación de instancias, la estimación de poses, la clasificación y la detección de recuadros delimitadores orientados (OBB).YOLO centra principalmente en la detección estándar.
  2. Implementación: Ultralytics se exportan sin problemas a formatos como TensorRT, CoreML, TFLite y OpenVINO un único comando.
  3. Soporte comunitario: con millones de usuarios, la Ultralytics ofrece amplios recursos, tutoriales e integraciones de terceros que los repositorios de investigación no pueden igualar.

La Próxima Generación: YOLO26

Para los desarrolladores impresionados por la eficiencia de los modelos basados en NAS, pero que necesitan la facilidad de uso de YOLOv5, YOLO26 es el sucesor recomendado. Lanzado en 2026, incorpora lo mejor de ambos mundos.

  • NMS de extremo a extremo: al igual que los últimos avances académicos, YOLO26 elimina la supresión no máxima (NMS), lo que simplifica los procesos de implementación.
  • Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador híbrido garantiza una convergencia estable.
  • Optimizado para el borde: YOLO26 es hasta un 43 % más rápido en CPU, lo que lo convierte en la mejor opción para la computación en el borde frente a YOLOv5 YOLO.

Más información sobre YOLO26

Conclusión

YOLO es una excelente contribución al campo de la investigación en visión artificial, que demuestra el poder de la búsqueda de arquitectura neuronal y la destilación. Es una sólida opción para los investigadores que desean estudiar métodos avanzados de búsqueda de arquitectura o sacar el máximo partido a la precisión en entornos con restricciones de hardware específicas, donde la complejidad del entrenamiento no supone un obstáculo.

YOLOv5y su moderno sucesor, YOLO26, siguen siendo la opción preferida para prácticamente todas las implementaciones de producción. La combinación de un bajo consumo de memoria, una amplia compatibilidad con tareas (segmentación, pose, OBB) y la robusta Ultralytics garantiza que los proyectos pasen del prototipo a la producción con una fricción mínima.

Para aquellos que buscan lo último en rendimiento y funciones, recomendamos encarecidamente explorar YOLO26, que ofrece la eficiencia integral que tanto gusta a los investigadores con la facilidad de uso por la que Ultralytics famosa.

Lecturas adicionales


Comentarios