Ir al contenido

YOLOv10 vs. YOLOv5: Una comparación técnica detallada

Elegir el modelo de detección de objetos adecuado es crucial para cualquier proyecto de visión artificial, ya que el rendimiento impacta directamente en el éxito de la aplicación. La familia de modelos You Only Look Once (YOLO) es reconocida por su velocidad y precisión. Esta página ofrece una comparación técnica detallada entre YOLOv10, un modelo de vanguardia de la Universidad de Tsinghua, y Ultralytics YOLOv5, un estándar industrial versátil y ampliamente adoptado. Este análisis ayudará a los desarrolladores e investigadores a tomar una decisión informada en función de sus necesidades específicas.

YOLOv10: El Detector de Tiempo Real de Última Generación

YOLOv10 representa un avance significativo en la detección de objetos en tiempo real, centrándose en lograr una verdadera eficiencia de extremo a extremo al eliminar la necesidad del post-procesamiento de supresión no máxima (NMS).

Detalles técnicos:

Arquitectura y Características Clave

YOLOv10 introduce varias innovaciones arquitectónicas para superar los límites de la compensación entre velocidad y precisión. Como se detalla en su artículo de arXiv, sus características principales incluyen:

  • Entrenamiento sin NMS: Emplea asignaciones duales consistentes durante el entrenamiento, lo que permite que el modelo produzca predicciones limpias sin el paso de NMS. Esta innovación simplifica el proceso de implementación y reduce la latencia de inferencia, un cuello de botella crítico en muchos sistemas en tiempo real.
  • Diseño holístico de eficiencia y precisión: La arquitectura del modelo se optimizó de manera integral, desde el backbone hasta el cuello y la cabeza. Esto incluye un encabezado de clasificación ligero y un submuestreo desacoplado espacial-canal, que reducen la redundancia computacional y mejoran la capacidad del modelo.
  • Detección sin anclajes: Al igual que muchos detectores modernos, YOLOv10 utiliza un enfoque sin anclajes, lo que simplifica la arquitectura y mejora la generalización en diversos tamaños y relaciones de aspecto de los objetos.

Fortalezas y Debilidades

Ventajas:

  • Velocidad y eficiencia superiores: Optimizado para la inferencia en tiempo real, ofreciendo un procesamiento más rápido, crucial para los requisitos de baja latencia.
  • Arquitectura sin NMS: Elimina el post-procesamiento NMS, simplificando la implementación y reduciendo el tiempo total de inferencia.
  • Alta precisión con menos parámetros: Alcanza una precisión competitiva con tamaños de modelo más pequeños, lo que lo hace muy adecuado para entornos con recursos limitados.
  • Implementación End-to-End: Diseñado para una implementación end-to-end perfecta, lo cual es una ventaja significativa para los sistemas de producción.
  • Integración de Ultralytics: Aunque se desarrolló externamente, YOLOv10 está bien integrado en el ecosistema de Ultralytics, beneficiándose de las interfaces sencillas de Python y CLI para el entrenamiento, la validación y la inferencia.

Debilidades:

  • Modelo más reciente: Al ser un modelo lanzado recientemente, su soporte comunitario y el número de integraciones de terceros aún podrían estar desarrollándose en comparación con modelos establecidos como YOLOv5.
  • Complejidad de la optimización: Lograr el máximo rendimiento podría requerir un ajuste fino y una optimización específicos para hardware y conjuntos de datos particulares, lo que puede ser más complejo que con los modelos más maduros.

Casos de uso

YOLOv10 sobresale en aplicaciones que demandan una detección de objetos ultrarrápida y eficiente:

  • Robótica de alta velocidad: Permite el procesamiento visual en tiempo real para robots en entornos dinámicos, un componente clave en el futuro de la robótica.
  • Sistemas Avanzados de Asistencia al Conductor (ADAS): Proporciona una detección de objetos rápida para mejorar la seguridad vial, complementando soluciones como la IA en coches autónomos.
  • Análisis de video en tiempo real: Procesamiento de video de alta velocidad de fotogramas para obtener información inmediata, útil en aplicaciones como la gestión del tráfico.

Más información sobre YOLOv10

Ultralytics YOLOv5: El Modelo Versátil y Ampliamente Adoptado

Ultralytics YOLOv5 se ha convertido en un estándar de la industria, conocido por su excelente equilibrio entre velocidad, precisión y notable facilidad de uso. Ha sido un modelo de referencia para miles de desarrolladores e investigadores desde su lanzamiento.

Detalles técnicos:

Arquitectura y Características Clave

Construido en PyTorch, YOLOv5 utiliza una estructura vertebral CSPDarknet53 y un cuello PANet para la agregación de características. Su arquitectura es altamente escalable y se ofrece en varios tamaños (n, s, m, l, x) para adaptarse a diferentes presupuestos computacionales. Una razón clave de su popularidad es la experiencia de usuario optimizada proporcionada por Ultralytics, que incluye:

  • API Sencilla y Coherente: Una interfaz directa para el entrenamiento, la validación y la inferencia.
  • Documentación Extensa: Guías y tutoriales completos que cubren todo, desde el entrenamiento con datos personalizados hasta la implementación.
  • Ecosistema integrado: Soporte completo dentro del ecosistema de Ultralytics, incluyendo herramientas como Ultralytics HUB para entrenamiento sin código y gestión de MLOps.

Fortalezas y Debilidades

Ventajas:

  • Excepcional facilidad de uso: Reconocido por su API sencilla, documentación completa e integración perfecta, lo que lo hace muy accesible tanto para principiantes como para expertos.
  • Ecosistema Maduro y Robusto: Se beneficia de una comunidad grande y activa, actualizaciones frecuentes, pesos pre-entrenados disponibles y amplios recursos.
  • Equilibrio de rendimiento: Ofrece una excelente relación entre velocidad y precisión, lo que la convierte en una opción práctica para una amplia gama de aplicaciones en el mundo real.
  • Eficiencia en el entrenamiento: Conocido por su proceso de entrenamiento eficiente, menores requisitos de memoria en comparación con muchas arquitecturas complejas y una convergencia más rápida con pesos pre-entrenados.
  • Versatilidad: Admite múltiples tareas más allá de la detección de objetos, incluyendo segmentación de instancias y clasificación de imágenes.

Debilidades:

  • Detección Basada en Anclas: Se basa en cuadros de anclaje, lo que a veces puede requerir un ajuste para un rendimiento óptimo en conjuntos de datos con formas de objeto no convencionales.
  • Compromiso en la precisión: Si bien son de alto rendimiento, los modelos YOLOv5 más pequeños priorizan la velocidad, y las arquitecturas más nuevas como YOLOv10 pueden lograr puntuaciones mAP más altas en benchmarks estándar.

Casos de uso

La versatilidad y eficiencia de YOLOv5 lo hacen adecuado para una gran cantidad de dominios:

  • Edge Computing: Su velocidad y el menor tamaño de los modelos lo hacen perfecto para la implementación en dispositivos como Raspberry Pi y NVIDIA Jetson.
  • Automatización industrial: Ampliamente utilizado para el control de calidad y la automatización de procesos en la fabricación.
  • Seguridad y Vigilancia: Ideal para la monitorización en tiempo real en sistemas de seguridad y aplicaciones de seguridad pública.
  • Aplicaciones móviles: Adecuado para tareas de detección de objetos en el dispositivo donde el consumo de recursos es una preocupación clave.

Más información sobre YOLOv5

Cara a cara: Desglose del rendimiento

La siguiente tabla proporciona una comparación detallada de varias variantes de modelos YOLOv10 y YOLOv5, evaluadas en el conjunto de datos COCO. Las métricas destacan las ventajas y desventajas entre la precisión (mAP), la velocidad de inferencia y la complejidad del modelo (parámetros y FLOPs).

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.20 56.9 160.4
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

A partir de los datos, está claro que los modelos YOLOv10 alcanzan sistemáticamente puntuaciones mAP más altas con parámetros y FLOP significativamente menores en comparación con sus homólogos YOLOv5. Por ejemplo, YOLOv10-S supera a YOLOv5-m en precisión (46,7 frente a 45,4 mAP) con aproximadamente un tercio de los parámetros. Esto demuestra la eficiencia arquitectónica superior de YOLOv10.

Sin embargo, Ultralytics YOLOv5 mantiene una posición sólida, especialmente en lo que respecta a la velocidad de inferencia en hardware específico. El modelo YOLOv5n muestra una velocidad notable tanto en CPU como en GPU T4, lo que lo convierte en una excelente opción para aplicaciones donde cada milisegundo cuenta y los recursos son muy limitados.

Conclusión: ¿Qué modelo debería elegir?

Tanto YOLOv10 como Ultralytics YOLOv5 son modelos excepcionales, pero están diseñados para diferentes prioridades.

YOLOv10 es la opción ideal para desarrolladores e investigadores que necesitan superar los límites del rendimiento y la eficiencia. Su arquitectura sin NMS proporciona una ventaja tangible en aplicaciones de latencia crítica, y su capacidad para ofrecer una alta precisión con un modelo de menor tamaño cambia las reglas del juego para la implementación en dispositivos de borde. Si su proyecto requiere el mejor equilibrio absoluto entre velocidad y precisión y se siente cómodo con un modelo más nuevo y en evolución, YOLOv10 es una opción convincente.

Ultralytics YOLOv5 sigue siendo la opción recomendada para la mayoría de los usuarios, especialmente aquellos que priorizan la facilidad de uso, el desarrollo rápido y un ecosistema estable y bien soportado. Su historial probado, su amplia documentación y su perfecta integración con herramientas como Ultralytics HUB lo hacen increíblemente accesible. Para los proyectos que requieren un modelo fiable, versátil y fácil de desplegar con un fantástico equilibrio de rendimiento, YOLOv5 es una opción excepcional y fiable.

En última instancia, la decisión depende de las limitaciones y los objetivos específicos de su proyecto. Para una eficiencia de vanguardia, considere YOLOv10. Para una solución robusta, fácil de usar y versátil, Ultralytics YOLOv5 es difícil de superar.

Explore otros modelos YOLO

El panorama de YOLO está en constante evolución. Para aquellos interesados en explorar más allá de YOLOv10 e YOLOv5, Ultralytics ofrece una gama de modelos potentes. Considera la posibilidad de echar un vistazo a Ultralytics YOLOv8, que ofrece un gran equilibrio entre rendimiento y versatilidad con soporte para múltiples tareas de visión, o el último YOLO11 para obtener resultados de última generación.

Hay más comparaciones disponibles para ayudarle a seleccionar el mejor modelo para sus necesidades:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios