YOLOv8 vs YOLO11: Una comparación técnica detallada
Al seleccionar un modelo de visión artificial, particularmente para la detección de objetos, es esencial comprender las fortalezas y debilidades de las diferentes arquitecturas. Esta página ofrece una comparación técnica detallada entre Ultralytics YOLOv8 y Ultralytics YOLO11, dos modelos de última generación de Ultralytics diseñados para la detección de objetos y otras tareas de visión. Analizaremos sus matices arquitectónicos, puntos de referencia de rendimiento y aplicaciones adecuadas para guiarle en la toma de una decisión informada para su proyecto.
Ultralytics YOLOv8
Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización: Ultralytics
Fecha: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolov8/
Lanzado a principios de 2023, YOLOv8 se convirtió rápidamente en un punto de referencia para la detección de objetos en tiempo real, ofreciendo un salto significativo en el rendimiento con respecto a las versiones anteriores. Introdujo un mecanismo de detección sin anclaje y un nuevo backbone basado en CSPDarknet53, lo que mejoró tanto la precisión como la velocidad. YOLOv8 es un modelo muy versátil que admite una gama completa de tareas de IA de visión, incluyendo la detección, la segmentación de instancias, la estimación de poses y la clasificación de imágenes.
Arquitectura y Características Clave
La arquitectura de YOLOv8 está diseñada para la eficiencia y la flexibilidad. Su head sin anclajes reduce el número de predicciones de cajas, simplificando el pipeline de post-procesamiento y acelerando la inferencia. El modelo fue diseñado como un framework integral, no solo como un modelo único, proporcionando una plataforma unificada para entrenar modelos para diversas tareas. Esta integración en el ecosistema de Ultralytics significa que los usuarios se benefician de un flujo de trabajo optimizado, desde el entrenamiento hasta el despliegue, respaldado por una extensa documentación y un sólido conjunto de herramientas.
Fortalezas
- Rendimiento Comprobado: Un modelo altamente confiable y ampliamente adoptado que ha establecido estándares de la industria en cuanto a rendimiento y velocidad.
- Versatilidad de tareas: Un único marco unificado capaz de gestionar la detección, la segmentación, la clasificación y la estimación de la pose.
- Ecosistema maduro: Se beneficia de una gran cantidad de tutoriales de la comunidad, integraciones de terceros y una amplia implementación en entornos de producción.
- Facilidad de uso: Cuenta con una API de Python y una CLI sencillas, lo que lo hace accesible tanto para principiantes como para expertos.
Debilidades
- Aunque sigue siendo uno de los mejores, su precisión y velocidad han sido superadas por su sucesor, YOLO11, especialmente en escenarios con limitaciones de CPU.
- Los modelos más grandes (YOLOv8l, YOLOv8x) pueden ser computacionalmente intensivos, requiriendo importantes recursos de GPU para un rendimiento en tiempo real.
Casos de uso
YOLOv8 sigue siendo una excelente opción para una amplia gama de aplicaciones, especialmente donde se valora la estabilidad y un ecosistema maduro. Destaca en:
- Automatización industrial: Para el control de calidad y la detección de defectos en la fabricación.
- Sistemas de Seguridad: Impulsa sistemas de seguridad avanzados para la monitorización en tiempo real y la detección de intrusiones.
- Análisis minorista: Mejora de la gestión de inventario y análisis del comportamiento del cliente.
Ultralytics YOLO11
Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/
YOLO11 es la última evolución de la serie YOLO de Ultralytics, diseñada para una precisión y eficiencia superiores. Basándose en la sólida base de YOLOv8, YOLO11 introduce refinamientos arquitectónicos que optimizan la extracción y el procesamiento de características. Esto se traduce en una mayor precisión de detección con menos parámetros y velocidades de inferencia más rápidas, especialmente en las CPU. Al igual que su predecesor, YOLO11 es un modelo multi-tarea que soporta detección, segmentación, clasificación, estimación de pose y cajas delimitadoras orientadas (OBB) dentro del mismo marco de trabajo optimizado.
Arquitectura y Características Clave
YOLO11 refina la estructura de la red para lograr un mejor equilibrio entre el coste computacional y el rendimiento. Alcanza una mayor precisión con un menor número de parámetros y menos FLOPs en comparación con YOLOv8, como se muestra en la tabla de rendimiento a continuación. Esta eficiencia la hace muy adecuada para su implementación en una amplia gama de hardware, desde dispositivos edge con recursos limitados hasta potentes servidores en la nube. Una ventaja clave de YOLO11 es su perfecta integración en el ecosistema de Ultralytics, que cuenta con un buen mantenimiento, lo que garantiza una excelente experiencia de usuario, procesos de entrenamiento eficientes con pesos pre-entrenados disponibles y menor uso de memoria durante el entrenamiento y la inferencia.
Fortalezas
- Precisión de última generación: Ofrece puntuaciones mAP más altas que YOLOv8 en todos los tamaños de modelo, estableciendo un nuevo estándar para la detección de objetos.
- Eficiencia mejorada: Ofrece velocidades de inferencia significativamente más rápidas, especialmente en la CPU, al tiempo que requiere menos parámetros y FLOP.
- Equilibrio de rendimiento: Proporciona una relación excepcional entre velocidad y precisión, lo que la hace ideal para diversas aplicaciones del mundo real.
- Escalabilidad y Versatilidad: Funciona bien en varios hardware y admite múltiples tareas de visión artificial dentro de un único framework fácil de usar.
- Ecosistema bien mantenido: Se beneficia del desarrollo activo, un sólido apoyo de la comunidad a través de GitHub y Discord, y actualizaciones frecuentes.
Debilidades
- Al ser un modelo más nuevo, inicialmente puede tener menos integraciones de terceros en comparación con el YOLOv8 más establecido.
- Los modelos más grandes (por ejemplo, YOLO11x) aún requieren una potencia computacional considerable para el entrenamiento y la implementación, un rasgo común de los detectores de alta precisión.
Casos de uso
YOLO11 es la opción recomendada para proyectos nuevos que exigen los más altos niveles de precisión y rendimiento en tiempo real. Su eficiencia la hace ideal para:
- Robótica: Permite una navegación precisa y la interacción con objetos en sistemas autónomos.
- Atención Sanitaria: Asistencia en el análisis de imágenes médicas para aplicaciones como la detección de tumores.
- Ciudades inteligentes: Impulsa la gestión inteligente del tráfico y los sistemas de seguridad pública.
Comparación directa de rendimiento: YOLOv8 vs. YOLO11
La principal diferencia entre YOLOv8 y YOLO11 radica en el rendimiento. YOLO11 supera consistentemente a YOLOv8 al ofrecer una mayor precisión (mAP) con mayor eficiencia (menos parámetros y velocidades más rápidas). Por ejemplo, YOLO11l alcanza un mAP más alto (53.4) que YOLOv8l (52.9) con casi un 42% menos de parámetros y es significativamente más rápido en CPU. Esta tendencia se mantiene en todas las variantes del modelo, lo que convierte a YOLO11 en un sucesor más potente y eficiente.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Conclusión y recomendación
Tanto YOLOv8 como YOLO11 son modelos excepcionales, pero satisfacen necesidades ligeramente diferentes.
-
YOLOv8 es un modelo robusto y maduro, lo que lo convierte en una apuesta segura para proyectos que ya están construidos sobre él o que dependen en gran medida de su extenso ecosistema de herramientas y tutoriales de terceros existentes. Sigue siendo una opción formidable para una amplia gama de tareas de visión artificial.
-
YOLO11 es el claro ganador en términos de rendimiento y eficiencia. Representa la vanguardia de la detección de objetos en tiempo real. Para cualquier proyecto nuevo, YOLO11 es el punto de partida recomendado. Su precisión superior, velocidades de inferencia más rápidas (especialmente en la CPU) y una arquitectura más eficiente proporcionan una ventaja significativa y preparan su aplicación para el futuro. El soporte y el desarrollo continuos dentro del ecosistema de Ultralytics consolidan aún más su posición como la principal opción para desarrolladores e investigadores.
Para aquellos interesados en explorar otros modelos, Ultralytics también soporta una gama de arquitecturas, incluyendo el YOLOv5 fundacional, el reciente YOLOv9 y modelos basados en transformadores como RT-DETR. Puede encontrar más comparaciones en nuestra página de comparación de modelos.