Ir al contenido

YOLOv10 vs. YOLO: comparación técnica

Seleccionar el modelo óptimo de detección de objetos es una decisión crítica que equilibra la precisión, la velocidad y el coste computacional. En esta página se ofrece una comparación técnica detallada entre YOLOv10el último modelo de alta eficacia integrado en el ecosistema Ultralytics , y YOLO, un potente detector del grupo Alibaba. Analizaremos sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a tomar una decisión informada para sus proyectos de visión por ordenador.

YOLOv10: detección de extremo a extremo en tiempo real

YOLOv10, presentado por investigadores de la Universidad de Tsinghua en mayo de 2024, supone un importante paso adelante en la detección de objetos en tiempo real. Su principal innovación consiste en lograr una detección de extremo a extremo eliminando la necesidad de supresión no máxima (NMS), lo que reduce la sobrecarga de posprocesamiento y disminuye la latencia de inferencia.

Detalles técnicos:
Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización:Universidad Tsinghua
Fecha: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Docsultralytics

Arquitectura y Características Clave

YOLOv10 se basa en el sólido marco Ultralytics , heredando su facilidad de uso y su potente ecosistema. Su arquitectura introduce varios avances clave para lograr una eficiencia y un rendimiento superiores:

  • FormaciónNMS: YOLOv10 emplea asignaciones duales coherentes para las etiquetas durante el entrenamiento. Esto permite que el modelo produzca predicciones limpias sin requerir el paso de postprocesamiento NMS , lo que simplifica el proceso de implementación y lo hace verdaderamente integral.
  • Diseño holístico de eficiencia y precisión: La arquitectura del modelo se optimizó de manera integral para reducir la redundancia computacional. Esto incluye un encabezado de clasificación ligero y un submuestreo desacoplado espacial-canal, que mejora tanto la velocidad como la capacidad.
  • Integración perfecta con Ultralytics : Como parte del ecosistema Ultralytics , YOLOv10 se beneficia de una experiencia de usuario optimizada. Esto incluye una APIPython sencilla, una amplia documentación, procesos de formación eficientes y pesos preformados fácilmente disponibles. Esta integración hace que sea excepcionalmente fácil para los desarrolladores empezar y desplegar modelos rápidamente.

Por qué es importante NMS

Los detectores de objetos tradicionales suelen predecir varios recuadros delimitadores para un mismo objeto. La supresión no máxima (NMS) es un paso de posprocesamiento utilizado para filtrar estos duplicados. Al eliminar NMS, YOLOv10 reduce significativamente la latencia y la complejidad de la inferencia, especialmente en escenarios de despliegue periférico en los que cada milisegundo cuenta.

Más información sobre YOLOv10

YOLO: eficiencia impulsada por el NAS

YOLO es un modelo de detección de objetos rápido y preciso desarrollado por Alibaba Group. Lanzado en noviembre de 2022, introdujo varias técnicas nuevas para superar los límites de rendimiento de los detectores de YOLO, centrándose en gran medida en la optimización arquitectónica mediante algoritmos de búsqueda.

Detalles técnicos:
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
DocsYOLO

Arquitectura y Características Clave

YOLO explora técnicas avanzadas para mejorar la relación entre velocidad y precisión. Su arquitectura se caracteriza por:

  • Búsqueda de arquitectura neuronal (NAS): La columna vertebral de YOLO se generó mediante NAS, lo que permitió crear una red de extracción de características altamente optimizada y adaptada específicamente a las tareas de detección.
  • Cuello RepGFPN eficiente: Incorpora un novedoso diseño de red piramidal de características (FPN ) denominado RepGFPN que fusiona eficientemente características de diferentes escalas.
  • ZeroHead y AlignedOTA: el modelo utiliza un cabezal simplificado de parámetro cero y una estrategia mejorada de asignación de etiquetas denominada AlignedOTA (asignación óptima de transporte alineado) para mejorar la precisión de la detección y la localización.
  • Destilación de conocimientos: YOLO aprovecha la destilación de conocimientos para mejorar aún más el rendimiento de sus modelos más pequeños aprendiendo de redes de profesores más grandes.

Más información sobre DAMO-YOLO

Cara a cara de rendimiento

La siguiente tabla compara el rendimiento de varios tamaños de modelos YOLOv10 y YOLO en el conjunto de datosCOCO . YOLOv10 demuestra sistemáticamente un rendimiento superior, ofreciendo mayor precisión con menor latencia y menos parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Como muestran los datos, los modelos YOLOv10 suelen superar en eficiencia a sus homólogos YOLO . Por ejemplo, YOLOv10 logra un mAP (46,7 frente a 46,0) que YOLO, siendo al mismo tiempo significativamente más rápido (2,66 ms frente a 3,45 ms) y teniendo menos de la mitad de parámetros (7,2M frente a 16,3M). Esta tendencia se mantiene en todos los tamaños de modelo, culminando con YOLOv10 alcanzando el mAP más alto de 54,4.

Análisis de puntos fuertes y débiles

YOLOv10 Puntos fuertes

  • Eficacia de vanguardia: YOLOv10 ofrece un equilibrio excepcional entre velocidad y precisión, superando a menudo a sus competidores con menos parámetros y menor latencia.
  • Facilidad de uso: El modelo es increíblemente fácil de usar gracias a su integración con el ecosistema Ultralytics .
  • Despliegue integral: El diseño NMS simplifica todo el flujo de trabajo, desde la formación hasta la inferencia, por lo que es ideal para aplicaciones reales en dispositivos periféricos.
  • Menor consumo de memoria: En comparación con arquitecturas más complejas, YOLOv10 es eficiente en su uso de memoria tanto durante el entrenamiento como durante la inferencia.

Puntos fuertes de YOLO

  • Alto rendimiento: DAMO-YOLO alcanza una precisión y velocidad competitivas, lo que lo convierte en un firme contendiente en el espacio de la detección de objetos.
  • Tecnologías innovadoras: Incorpora conceptos de investigación de vanguardia como NAS y estrategias avanzadas de asignación de etiquetas que son valiosas para la exploración académica.

Debilidades

  • YOLOv10 : Aunque excepcional para la detección de objetos, YOLOv10 se centra actualmente en esta única tarea, a diferencia del versátil Ultralytics YOLO11 que permite la segmentación, la clasificación y la estimación de la pose.
  • YOLO: La arquitectura del modelo y el proceso de formación son más complejos en comparación con YOLOv10. Está disponible principalmente en cajas de herramientas de investigación específicas, lo que puede suponer un obstáculo para los desarrolladores que prefieren una solución más integrada y fácil de usar como la que ofrece Ultralytics.

La ventaja Ultralytics

Aunque ambos modelos son impresionantes, los modelos Ultralytics como YOLOv10 y el buque insignia YOLO11 ofrecen una clara ventaja para desarrolladores e investigadores:

  1. Ecosistema unificado: Ultralytics ofrece una plataforma cohesionada en la que la anotación de datos, la formación y el despliegue se realizan a la perfección.
  2. Facilidad de uso: Con una sencilla API Python , puede cargar un modelo y ejecutar la inferencia en tan solo unas líneas de código.
  3. Versatilidad: Ultralytics admite un amplio abanico de tareas, como la segmentación de instancias, la clasificación de imágenes, la estimación de poses y las cajas delimitadoras orientadas (OBB).
  4. Apoyo de la comunidad: Una vibrante comunidad y una amplia documentación garantizan que nunca te quedes atascado en un problema durante mucho tiempo.

Ejemplo de uso: YOLOv10 con Ultralytics

Ejecutar YOLOv10 es sencillo utilizando el paquete Ultralytics Python . A continuación se explica cómo cargar un modelo preentrenado y ejecutar la predicción en una imagen:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Conclusión

Tanto YOLOv10 como YOLO son formidables modelos de detección de objetos. YOLO sirve de excelente referencia para la investigación de arquitecturas basadas en NAS y la fusión de características avanzadas. Sin embargo, para el despliegue práctico y la eficiencia de MLOps, YOLOv10 es la mejor opción. Su arquitectura NMS, combinada con el completo ecosistema Ultralytics , garantiza que pueda pasar del concepto a la producción más rápidamente y con mejor rendimiento.

Para los usuarios que necesiten una versatilidad aún mayor en múltiples tareas de visión, recomendamos encarecidamente explorar YOLO11que define el estado actual de la técnica de la familia YOLO .

Explore otras comparaciones de modelos

Para ver cómo se comparan estos modelos con otras arquitecturas líderes, echa un vistazo a estas comparaciones:


Comentarios