YOLOv10 frente a PP-YOLOE+: Una comparación técnica exhaustiva
Seleccionar el modelo de detección de objetos adecuado es un paso fundamental en el desarrollo de aplicaciones eficientes de visión por ordenador. A menudo hay que sopesar la velocidad de inferencia, la precisión de la detección y las limitaciones del hardware. Esta comparativa técnica analiza YOLOv10un detector integral en tiempo real de la Universidad de Tsinghua, y PP-YOLOE+, un modelo de alta precisión del ecosistema PaddlePaddle de Baidu. Ambos modelos introducen importantes innovaciones arquitectónicas, pero responden a necesidades de despliegue y entornos de desarrollo diferentes.
YOLOv10: el nuevo estándar para la detección en tiempo real de extremo a extremo
YOLOv10 representa un salto significativo en la serie YOLO (You Only Look Once), centrándose en la eliminación de los cuellos de botella de rendimiento asociados al postprocesado tradicional. Desarrollado por investigadores de la Universidad de Tsinghua, consigue una menor latencia y una mayor eficiencia al eliminar la necesidad de la Supresión No MáximaNMSNMS).
Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización:Universidad Tsinghua
Fecha: 2024-05-23
ArXiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Docsultralytics
Arquitectura y Características Clave
YOLOv10 introduce una estrategia de asignación dual consistente durante el entrenamiento. Este método permite al modelo predecir una única caja óptima para cada objeto durante la inferencia, lo que elimina la necesidad del postprocesamientoNMS . Este diseñoNMS" reduce significativamente la latencia de la inferencia, especialmente en escenas con agrupaciones densas de objetos.
Entre los principales avances arquitectónicos figuran:
- Diseño holístico de eficiencia y precisión: El modelo emplea cabezales de clasificación ligeros y downsampling desacoplado de canales espaciales para reducir el coste computacional(FLOPs) sin sacrificar la precisión.
- Diseño de bloques guiado por rangos: Para optimizar el equilibrio entre velocidad y precisión, las distintas etapas del modelo utilizan diseños de bloques variables, reduciendo la redundancia en las capas profundas.
- Convoluciones de núcleo grande: El uso estratégico de convoluciones de núcleo grande mejora el campo receptivo, lo que permite al modelo comprender mejor el contexto y detect objetos pequeños.
Fortalezas y Debilidades
YOLOv10 está diseñado para ofrecer la máxima eficiencia, lo que lo convierte en una opción formidable para aplicaciones en tiempo real.
- Puntos fuertes: La eliminación de NMS conduce a velocidades de inferencia más rápidas y deterministas. Ofrece una eficiencia de parámetros superior, logrando altas puntuacionesmAP con menos parámetros que sus predecesores. Su integración en el ecosistema Ultralytics garantiza que sea fácil de entrenar y desplegar mediante una sencilla APIPython .
- Puntos débiles: Como detector de objetos especializado, actualmente se centra principalmente en la detección de cajas delimitadoras, mientras que otros modelos de la suite Ultralytics admiten una gama más amplia de tareas como la segmentación y la estimación de la pose.
Casos de Uso Ideales
- Robótica autónoma: La baja latencia de YOLOv10 es fundamental para la robótica, que requiere tomar decisiones en fracciones de segundo para navegar y evitar obstáculos.
- Despliegue de IA en el borde: Con variantes tan pequeñas como YOLOv10, se adapta perfectamente a dispositivos periféricos como NVIDIA Jetson o Raspberry Pi.
- Supervisión del tráfico: La capacidad del modelo para manejar escenas densas sin sobrecarga NMS lo hace ideal para la gestión del tráfico en tiempo real.
PP-YOLOE+: Ingeniería de precisión en el ecosistema PaddlePaddle
PP-YOLOE+ es una evolución de la serie PP-YOLOE, desarrollada por Baidu. Está diseñado como un detector escalable y sin anclaje que prioriza la alta precisión. Es el modelo clave de la gama PaddlePaddle optimizado específicamente para ese entorno.
Autores: PaddlePaddle Autores
Organización:Baidu
Fecha: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
DocsPaddlePaddle
Arquitectura y Características Clave
PP-YOLOE+ adopta una arquitectura sin anclajes, lo que simplifica el espacio de búsqueda de hiperparámetros en comparación con sus predecesores basados en anclajes.
Las características clave incluyen:
- Red troncal CSPRepResNet: Esta columna vertebral combina las ventajas del flujo gradiente de CSPNet con la eficacia de inferencia de los bloques ResNet reparametrizados.
- Aprendizaje de alineación de tareas (TAL): estrategia especializada de asignación de etiquetas que alinea dinámicamente la calidad de la clasificación de anclajes con la precisión de la localización.
- Cabezal eficiente alineado con las tareas (ET-Head): Un cabezal de detección desacoplado que procesa las características de clasificación y localización de forma independiente para evitar conflictos.
Fortalezas y Debilidades
El PP-YOLOE+ es un modelo sólido pero conlleva dependencias que pueden afectar a su adopción.
- Puntos fuertes: Ofrece una precisión excelente en pruebas de referencia como COCOespecialmente en sus configuraciones más grandes (L y X). Está muy optimizado para el hardware compatible con el motor de inferencia PaddlePaddle .
- Debilidades: La principal limitación es su dependencia del ecosistema PaddlePaddle . Para los desarrolladores acostumbrados a PyTorchmigrar a PP-YOLOE+ implica una curva de aprendizaje más pronunciada y posibles fricciones en la integración de herramientas. Además, su número de parámetros es significativamente mayor que el de YOLOv10 para una precisión comparable, lo que conlleva un mayor uso de memoria.
Casos de Uso Ideales
- Inspección industrial: Su alta precisión lo hace adecuado para detectar defectos minúsculos en la fabricación.
- Análisis del comercio minorista: Eficaz para el recuento de inventario y el reconocimiento de productos en entornos minoristas inteligentes.
- Clasificación de materiales: Se utiliza en instalaciones de reciclaje para la clasificación automatizada de materiales diversos.
Más información sobre PP-YOLOE+
Análisis del rendimiento: Eficacia frente a precisión
Cuando se comparan las métricas técnicas, YOLOv10 demuestra una clara ventaja en eficiencia. Alcanza una precisión comparable o superiormAP) utilizando muchos menos parámetros y recursos computacionales (FLOPs).
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Puntos clave
- Eficacia: YOLOv10l alcanza un mAP más alto (53,3%) que PP-YOLOE+l (52,9%), a la vez que utiliza casi un 44% menos de parámetros. Esto hace que YOLOv10 sea mucho más ligero de almacenar y más rápido de cargar.
- Velocidad: el diseño NMS de YOLOv10 se traduce en una latencia más baja en todos los ámbitos. Por ejemplo, YOLOv10n es excepcionalmente rápida, con 1,56 ms, lo que la convierte en una solución superior para el análisis de vídeo de alta velocidad.
- Escalabilidad: Aunque PP-YOLOE+x tiene una ligera ventaja en mAP brutos (0,3% más), requiere casi el doble de parámetros (98,42M frente a 56,9M) y FLOPs en comparación con YOLOv10x.
Eficiencia de la memoria
Los modelos Ultralytics como YOLOv10 y YOLO11 suelen presentar menores requisitos de memoria durante el entrenamiento y la inferencia en comparación con arquitecturas más antiguas o modelos basados en transformadores pesados. Esta eficiencia permite aumentar el tamaño de los lotes y acelerar los ciclos de entrenamiento en hardware de GPU estándar.
La ventaja Ultralytics
Aunque ambos modelos son capaces, la elección de un modelo dentro del ecosistemaUltralytics -como YOLOv10 o el vanguardista YOLO11-ofrece distintas ventajas a los desarrolladores.
- Facilidad de uso: LaAPIPython Ultralytics elimina el complejo código estándar. Puede entrenar, validar y desplegar un modelo con unas pocas líneas de Python.
- Ecosistema bien mantenido: Los usuarios se benefician de actualizaciones frecuentes, una comunidad vibrante en GitHub e integraciones perfectas con herramientas MLOps como Ultralytics HUB y Weights & Biases.
- Versatilidad: Más allá de la detección de objetos estándar, los marcos de Ultralytics admiten la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de recuadros delimitadores orientados (OBB ), ofreciendo una solución unificada para diversas tareas de visión por ordenador.
Ejemplo de código: Ejecución de YOLOv10 con Ultralytics
Integrar YOLOv10 en su flujo de trabajo es sencillo con la biblioteca Ultralytics :
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display the results
results[0].show()
Conclusión
En la comparación entre YOLOv10 y PP-YOLOE+, YOLOv10 emerge como la opción superior para la mayoría de las aplicaciones de visión por ordenador de propósito general. Su arquitecturaNMS resuelve un antiguo cuello de botella en la latencia de la detección de objetos, y su uso altamente eficiente de los parámetros hace que sea accesible para su despliegue en una gama más amplia de hardware, desde dispositivos periféricos hasta servidores en la nube.
PP-YOLOE+ sigue siendo un fuerte competidor para los usuarios estrictamente vinculados al marco PaddlePaddle o para aquellos que priorizan las ganancias marginales en precisión sobre la eficiencia computacional. Sin embargo, para los desarrolladores que busquen un equilibrio entre velocidad, precisión y facilidad de uso, YOLOv10el ecosistema Ultralytics en general- ofrece un camino más preparado para el futuro y más fácil para los desarrolladores.
Explorar Otros Modelos
Si está interesado en explorar más opciones dentro del ecosistema Ultralytics , considere consultar estas comparaciones:
- YOLO11 vs. YOLOv10: Compara el último buque insignia con el YOLOv10, centrado en la eficiencia.
- YOLOv10 vs. RT-DETR: Compara transformadores en tiempo real con arquitecturas YOLO basadas en CNN.
- YOLOv8 vs. PP-YOLOE+: Analiza el rendimiento del ampliamente adoptado YOLOv8 frente al modelo de Baidu.