YOLOv10 frente a YOLOv10: comparación técnica para la detección de objetos
Seleccionar el modelo de detección de objetos adecuado es una decisión crítica para desarrolladores e investigadores, ya que equilibra la necesidad de alta precisión con las limitaciones de la inferencia en tiempo real y los recursos computacionales. Esta guía ofrece una comparación técnica en profundidad entre YOLOv9 y YOLOv10dos arquitecturas de última generación que han ampliado los límites del rendimiento de la visión por ordenador en 2024.
Mientras que YOLOv9 se centra en innovaciones arquitectónicas para resolver los cuellos de botella del aprendizaje profundo de la información, YOLOv10 introduce un cambio de paradigma con un diseño NMS para una latencia mínima. Ambos modelos están totalmente integrados en el paqueteUltralytics Python , lo que permite a los usuarios entrenarlos, validarlos y desplegarlos fácilmente dentro de un ecosistema unificado.
Métricas de rendimiento y puntos de referencia
Las compensaciones de rendimiento entre estos dos modelos son distintas. YOLOv9 suele ir al límite de la precisión media media (mAP), sobre todo en sus variantes de mayor tamaño, lo que lo hace adecuado para escenarios en los que la precisión es primordial. Por el contrario, YOLOv10 está diseñado para ser eficiente, reduciendo significativamente la latencia de la inferencia y el recuento de parámetros, lo que es ideal para el despliegue en los bordes.
La tabla siguiente ilustra estas diferencias utilizando el conjunto de datosCOCO . Cabe destacar que YOLOv10n alcanza velocidades increíbles en las GPU T4, mientras que YOLOv9e domina en precisión de detección.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv9: resolver el cuello de botella de la información
Lanzamiento en febrero de 2024, YOLOv9 aborda un reto teórico fundamental en las redes neuronales profundas: la pérdida de información a medida que los datos se propagan por las capas profundas. Este modelo está diseñado para garantizar que la red conserve las características esenciales necesarias para la detección precisa de objetos.
Detalles técnicos:
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización:Instituto de Ciencias de la Información, Academia Sinica
- Fecha: 2024-02-21
- Arxiv:arXiv:2402.13616
- GitHub:WongKinYiu/yolov9
Arquitectura: PGI y GELAN
YOLOv9 introduce dos conceptos innovadores:
- Información de gradiente programable (PGI): Un marco de supervisión auxiliar que evita la pérdida de información durante el entrenamiento. Garantiza la generación de gradientes fiables para actualizar los pesos de la red, lo que resuelve los problemas de supervisión en profundidad detectados en arquitecturas anteriores.
- Red de Agregación de Capas Generalizada Eficiente (GELAN): Una arquitectura novedosa que maximiza la eficiencia de los parámetros. GELAN permite que el modelo alcance una mayor precisión con menos parámetros en comparación con los diseños convencionales al optimizar cómo se agregan las características entre las capas.
Fortalezas y Debilidades
YOLOv9 destaca en aplicaciones en las que la precisión es fundamental. Su capacidad para conservar información detallada de las características lo hace superior para detectar objetos pequeños o navegar por escenas complejas. Sin embargo, esta sofisticación tiene su contrapartida en la complejidad. Las adiciones arquitectónicas como PGI son principalmente para el entrenamiento, lo que significa que pueden eliminarse durante la inferencia, pero los recursos de entrenamiento pueden ser mayores. Además, aunque eficiente, su latencia suele ser mayor que la de los diseños eficientes especializados de YOLOv10.
YOLOv10: La era de la detección NMS
YOLOv10desarrollado por investigadores de la Universidad de Tsinghua y publicado en mayo de 2024, da prioridad a la velocidad en tiempo real y a la capacidad de despliegue de extremo a extremo. Su característica definitoria es la eliminación de la supresión no máxima (NMS), un paso de posprocesamiento que tradicionalmente ha sido un cuello de botella para la latencia de la inferencia.
Detalles técnicos:
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización:Universidad de Tsinghua
- Fecha: 2024-05-23
- Arxiv:arXiv:2405.14458
- GitHub:THU-MIG/yolov10
Arquitectura: Doble asignación coherente
La principal innovación de YOLOv10 son las asignaciones duales coherentes durante el entrenamiento. El modelo emplea una estrategia de asignación de uno a muchos para la supervisión enriquecida durante el entrenamiento, pero cambia a una asignación de uno a uno para la inferencia. Esta arquitectura permite al modelo predecir directamente el cuadro delimitador óptimo para cada objeto, haciendo obsoleto el postprocesamiento NMS . Junto con un diseño de bloques guiado por rangos, YOLOv10 reduce la redundancia y la sobrecarga computacional (FLOPs).
Fortalezas y Debilidades
La principal ventaja de YOLOv10 es su baja latencia. Al eliminar NMS, la latencia de la inferencia se vuelve determinista y significativamente menor, lo que es fundamental para el procesamiento de vídeo en tiempo real. También presume de una excelente eficiencia de parámetros, como se observa en la tabla comparativa, donde los modelos YOLOv10 logran una precisión competitiva con menos FLOPs. Un punto débil potencial es su introducción relativamente reciente en comparación con los ecosistemas establecidos, aunque la integración en Ultralytics lo mitiga. También está muy especializado en la detección, mientras que otros modelos del ecosistema ofrecen un soporte multitarea más amplio.
Exportación de extremo a extremo
Dado que YOLOv10 está NMS por diseño, exportarlo a formatos como ONNX o TensorRT es a menudo más sencillo y produce modelos "puros" de extremo a extremo sin necesidad de complejos plugins de post-procesamiento.
Análisis comparativo para desarrolladores
A la hora de integrar estos modelos en la producción, entran en juego varios factores prácticos más allá de las métricas en bruto.
Facilidad de uso y ecosistema
Ambos modelos se benefician enormemente de formar parte del ecosistemaUltralytics . Esto significa que los desarrolladores pueden cambiar entre YOLOv9 y YOLOv10 simplemente cambiando una cadena del modelo, utilizando los mismos canales de formación, herramientas de validación y formatos de despliegue.
- Eficiencia del entrenamiento: Los modelos Ultralytics suelen requerir menos memoria que los detectores basados en transformadores, lo que permite el entrenamiento en GPU de consumo estándar.
- Versatilidad: Mientras que YOLOv9 y YOLOv10 se centran en la detección, la API de Ultralytics admite otras tareas como la segmentación de instancias y la estimación de poses a través de modelos como YOLO11 y YOLOv8, ofreciendo un completo conjunto de herramientas para diversos proyectos de IA de visión.
Casos de Uso Ideales
Elige YOLOv9 cuando:
- Su aplicación exige la máxima precisión posible (por ejemplo, imágenes médicas, detección de defectos en la fabricación).
- Trabaja con objetos detect de detectar en los que la retención de información es crucial.
- La latencia es una preocupación secundaria en comparación con la precisión.
Elige YOLOv10 cuando:
- La velocidad es fundamental. Aplicaciones como la conducción autónoma, la navegación robótica o el análisis de vídeo a alta velocidad se benefician del diseño NMS.
- Implementación en dispositivos periféricos (como NVIDIA Jetson o Raspberry Pi) donde los recursos de GPU son limitados.
- Necesita un tiempo de inferencia determinista sin la variabilidad introducida por el procesamiento NMS .
Ejemplo de código: Ejecución de ambos modelos
Gracias a la API unificada de Ultralytics , comparar estos modelos con sus propios datos es muy sencillo. El siguiente código Python muestra cómo cargar y ejecutar la inferencia con ambas arquitecturas.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model_v9 = YOLO("yolov9c.pt")
# Load a pre-trained YOLOv10 model
model_v10 = YOLO("yolov10n.pt")
# Run inference on an image
results_v9 = model_v9("path/to/image.jpg")
results_v10 = model_v10("path/to/image.jpg")
# Print results
print(f"YOLOv9 Detection: {len(results_v9[0].boxes)}")
print(f"YOLOv10 Detection: {len(results_v10[0].boxes)}")
Conclusión
Tanto YOLOv9 como YOLOv10 representan hitos significativos en la visión por ordenador. YOLOv9 supera los límites teóricos de la retención de rasgos y la precisión, lo que lo convierte en una potencia para la investigación y las tareas de gran precisión. YOLOv10 redefine la eficiencia al eliminar el cuello de botella NMS , ofreciendo una solución racionalizada para aplicaciones en tiempo real.
Para los usuarios que busquen el mejor equilibrio entre precisión, velocidad y riqueza de funciones en múltiples tareas (incluidas la segmentación y la clasificación), también recomendamos explorar YOLO11. Como última iteración de Ultralytics, YOLO11 refina los mejores atributos de sus predecesores en un paquete robusto, preparado para la empresa y adecuado para prácticamente cualquier aplicación de IA de visión.
Explorar Otros Modelos
El ecosistema Ultralytics es muy amplio. Si los requisitos de su proyecto son diferentes, considere estas alternativas:
- YOLO11: el último modelo de última generación que ofrece un rendimiento y una versatilidad superiores en detección, segmentación, pose, OBB y clasificación.
- YOLOv8: Un modelo muy popular y estable conocido por su amplia compatibilidad y soporte multitarea.
- RT-DETR: Detector basado en transformador que ofrece alta precisión sin necesidad de NMS, sirviendo como alternativa a las arquitecturas YOLO para casos de uso específicos.
Al aprovechar la plataforma Ultralytics , obtendrá acceso a todo este conjunto de modelos, lo que le garantiza que siempre dispondrá de la herramienta adecuada para el trabajo.