YOLO vs. YOLOv8: una inmersión técnica en profundidad
El panorama de la detección de objetos está en constante evolución, y los investigadores e ingenieros se esfuerzan por equilibrar las exigencias de velocidad, precisión y eficiencia computacional. Dos arquitecturas destacadas que han causado sensación en la comunidad de la visión por ordenador son YOLO, desarrollada por Alibaba Group, y YOLOv8creada por Ultralytics.
Esta comparación técnica explora las innovaciones arquitectónicas, las métricas de rendimiento y la usabilidad práctica de ambos modelos. Mientras que YOLO introduce conceptos de investigación novedosos como la búsqueda de arquitectura neuronal (NAS), Ultralytics YOLOv8 se centra en ofrecer un ecosistema sólido y fácil de usar que agiliza el flujo de trabajo desde la formación hasta la implantación.
Análisis de rendimiento: Velocidad y precisión
Para entender cómo se comparan estos modelos en situaciones reales, analizamos su rendimiento en el conjunto de datos estándar COCO . Las métricas que se muestran a continuación ponen de relieve las compensaciones entre la precisión media mediamAP), la velocidad de inferencia en distintos equipos y la complejidad del modelo.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Puntos clave
Los datos revelan distintas ventajas en función del objetivo de despliegue:
- Rendimiento Edge: El YOLOv8n (Nano) es el líder indiscutible en entornos con recursos limitados. Con solo 3,2 millones de parámetros y 8,7 mil millones de FLOPs, alcanza las velocidades de inferencia más rápidas tanto en CPU como en GPU. Esto lo hace ideal para aplicaciones móviles o dispositivos IoT en los que la memoria y la energía escasean.
- Precisión máxima: Para aplicaciones en las que la precisión es primordial, YOLOv8x alcanza el mayor mAP , un 53,9%. Aunque los modelos YOLO obtienen buenos resultados, la mayor variante YOLOv8 amplía aún más los límites de la precisión de detección.
- Compromisos de latencia: YOLO demuestra un rendimiento impresionante en GPU dedicadas (como la T4), impulsado por su columna vertebral optimizada para NAS. Sin embargo, Ultralytics YOLOv8 mantiene un equilibrio superior en una mayor variedad de hardware, incluidas las CPU, lo que garantiza una mayor flexibilidad de despliegue.
YOLO: Innovación impulsada por la investigación
YOLO es un producto de las iniciativas de investigación del Grupo Alibaba. El nombre significa "Discovery, Adventure, Momentum, and Outlook" (descubrimiento, aventura, impulso y perspectiva), lo que refleja el interés por explorar nuevas fronteras arquitectónicas.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO
Aspectos arquitectónicos destacados
YOLO integra varias tecnologías avanzadas para optimizar el equilibrio entre latencia y precisión:
- Red troncal MAE-NAS: Utiliza la Búsqueda de Arquitectura Neuronal (NAS) para descubrir automáticamente estructuras de red eficientes, concretamente utilizando un método denominado MAE-NAS.
- Cuello RepGFPN: Se utiliza una red piramidal de características generalizadas (GFPN) fuertemente parametrizada para maximizar el flujo de información entre los diferentes niveles de escala, mejorando la detección de objetos a distancias variables.
- ZeroHead: Para contrarrestar la pesadez del cuello, el modelo emplea un "ZeroHead" ligero, que reduce la carga computacional en la fase final de detección.
- AlignedOTA: estrategia dinámica de asignación de etiquetas que alinea las tareas de clasificación y regresión durante el entrenamiento, lo que ayuda a que el modelo converja con mayor eficacia.
Más información sobre DAMO-YOLO
Ultralytics YOLOv8: el estándar del ecosistema
YOLOv8 representa un perfeccionamiento de la arquitectura YOLO centrado en la facilidad de uso, la versatilidad y el rendimiento de vanguardia. A diferencia de los modelos puramente de investigación, YOLOv8 está diseñado como un producto para desarrolladores, haciendo hincapié en un ecosistema bien mantenido y en la facilidad de integración.
Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización:Ultralytics
Fecha: 2023-01-10
Docs:Ultralytics YOLOv8
Puntos fuertes de la arquitectura
- Detección sin anclajes: YOLOv8 elimina los cuadros de anclaje, lo que reduce el número de hiperparámetros que los desarrolladores deben ajustar y simplifica el proceso de formación.
- Módulo C2f: La arquitectura sustituye el módulo C3 por el C2f, que ofrece una información más rica sobre el flujo de gradiente, al tiempo que mantiene una huella ligera.
- Cabeza desacoplada: al separar las tareas de clasificación y regresión en la cabeza, el modelo consigue una mayor precisión de localización.
- Marco unificado: Tal vez su característica arquitectónica más destacada sea su compatibilidad nativa con múltiples tareas de visión-segmentación de instancias, estimación de poses, clasificación y detección de objetos orientada (OBB)-, todo ello dentro de una única base de código.
¿Lo sabías?
Ultralytics permite exportar modelos a formatos optimizados como ONNX, TensorRT, CoreMLy OpenVINO. Esta capacidad de exportación garantiza que sus modelos entrenados puedan ejecutarse eficazmente en casi cualquier plataforma de hardware.
Usabilidad y experiencia del desarrollador
La divergencia más significativa entre ambos modelos radica en su facilidad de uso y en el ecosistema que los rodea.
Ultralytics YOLO son famosos por su experiencia "de cero a héroe". Con una simple instalación de PIP, los desarrolladores obtienen acceso a una potente CLI y API Python . Esto reduce la barrera de entrada significativamente en comparación con los repositorios de investigación que a menudo requieren configuraciones de entorno complejas.
Eficacia de la formación
Los modelos Ultralytics están diseñados para entrenar con eficiencia. Utilizan eficientemente la memoria CUDA , lo que permite lotes de mayor tamaño o el entrenamiento en GPU de consumo. Además, la disponibilidad de pesos preentrenados de alta calidad acelera la convergencia, lo que ahorra un valioso tiempo de cálculo y energía.
He aquí un ejemplo completo y ejecutable de cómo cargar y predecir con un modelo YOLOv8 en sólo tres líneas de Python:
from ultralytics import YOLO
# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")
# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
for result in results:
result.show()
En cambio, aunque YOLO ofrece un gran rendimiento, suele requerir una configuración más manual y familiaridad con los marcos orientados a la investigación, lo que lo hace menos accesible para la creación rápida de prototipos o la integración comercial.
Conclusiones: Elegir la herramienta adecuada
Tanto YOLO como YOLOv8 son logros excepcionales en visión por ordenador.
YOLO es una opción excelente para los investigadores interesados en la búsqueda de arquitecturas neuronales y para aquellos que la desplieguen específicamente en hardware, donde su columna vertebral personalizada está totalmente optimizada.
Sin embargo, para la mayoría de los desarrolladores, investigadores y empresas, Ultralytics YOLOv8 (y el más reciente YOLO11) ofrece una propuesta de valor superior:
- Versatilidad: Capaz de manejar Detección, Segmentación, Pose y OBB en un solo marco.
- Facilidad de uso: Documentación inigualable, API sencilla y sólido apoyo de la comunidad.
- Despliegue: La amplia compatibilidad con los modos de exportación abarca desde teléfonos móviles hasta servidores en la nube.
- Equilibrio de rendimiento: Excelente relación precisión-velocidad, sobre todo en CPU y dispositivos Edge.
Para los que buscan estar a la última, también recomendamos consultar YOLO11que se basa en los puntos fuertes de YOLOv8 con una eficacia y precisión aún mayores.
Explore otras comparaciones de modelos
Para ayudarle a tomar la decisión más informada para sus proyectos de visión por ordenador, explore estas comparaciones detalladas adicionales: