YOLO11 YOLOv5: evolución de la detección de objetos en tiempo real
La evolución de la familia YOLO You Only Look Once) representa una cronología de la rápida innovación en el campo de la visión artificial. YOLOv5, lanzado en 2020 por Ultralytics, revolucionó el campo al hacer accesible la detección de objetos de alto rendimiento a través de una API increíblemente fácil de usar y PyTorch sólida PyTorch . Avanzando rápidamente hasta finales de 2024, YOLO11 surgió como una potencia refinada, basada en años de comentarios y avances arquitectónicos para ofrecer una eficiencia y precisión superiores.
Esta comparación analiza los avances técnicos logrados entre estos dos modelos emblemáticos, lo que ayuda a los desarrolladores a comprender cuándo deben mantener los sistemas heredados y cuándo deben actualizarse a la arquitectura más reciente.
Análisis de las métricas de rendimiento
El salto de YOLOv5 YOLO11 visualiza mejor a través de su rendimiento en pruebas de referencia estándar. YOLO11 optimizaciones significativas que le permiten alcanzar una precisión media más alta (mAP) mientras mantiene o reduce la carga computacional.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Puntos clave
- Mejoras en la precisión: YOLO11n alcanza un notable 39,5 % mAP, superando ampliamente al YOLOv5n (28,0 % mAP). Esto hace que el YOLO11 más pequeño sea viable para tareas complejas que antes requerían modelos más grandes y lentos.
- Eficiencia computacional: a pesar de su mayor precisión, YOLO11 suelen requerir menos FLOP. Por ejemplo, YOLO11x utiliza aproximadamente un 20 % menos de FLOP que YOLOv5x, al tiempo que ofrece resultados de detección superiores.
- CPU :ONNX CPU ONNX para YOLO11 significativamente más rápidas, un factor crítico para implementaciones en dispositivos periféricos como la Raspberry Pi.
YOLO11: Eficiencia y Versatilidad Refinadas
Lanzado en septiembre de 2024, YOLO11 la culminación de las mejoras iterativas en laYOLO Ultralytics YOLO . No solo se diseñó para la detección bruta, sino también para admitir un canal de visión unificado que incluye segmentación, estimación de pose y cuadros delimitadores orientados (OBB).
Especificaciones técnicas:
- Autores: Glenn Jocher y Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- Enlaces:GitHub, Docs
Puntos destacados de la arquitectura
YOLO11 el bloque C3k2, una versión perfeccionada del cuello de botella Cross Stage Partial (CSP) que optimiza el flujo de gradiente. Además, emplea C2PSA (Cross-Stage Partial with Spatial Attention) en su cabezal de detección, lo que mejora la capacidad del modelo para centrarse en características críticas en escenas desordenadas. A diferencia de YOLOv5, YOLO11 una arquitectura sin anclajes, lo que simplifica el proceso de entrenamiento al eliminar la necesidad de calcular cuadros de anclaje para conjuntos de datos específicos, lo que da como resultado una mejor generalización.
¿Por qué elegir YOLO11?
YOLO11 la opción recomendada para la mayoría de las nuevas aplicaciones comerciales. Su equilibrio entre alta precisión (mAP) y bajo consumo de recursos lo hace ideal para el análisis en tiempo real en el comercio minorista, las ciudades inteligentes y la atención sanitaria.
YOLOv5: el estándar del sector
YOLOv5, lanzado a mediados de 2020, estableció el estándar de facilidad de uso en la industria de la IA. Fue el primer modelo en convertir «train, val, deploy» (entrenar, validar, implementar) en una experiencia fluida dentro de un único repositorio, estableciendo la filosofía centrada en el usuario por la que Ultralytics conocida hoy en día.
Especificaciones técnicas:
- Autores: Glenn Jocher
- Organización:Ultralytics
- Fecha: 2020-06-26
- Enlaces:GitHub, Docs
Puntos destacados de la arquitectura
YOLOv5 una estructura CSPDarknet y es un detector basado en anclajes. Aunque son muy eficaces, los enfoques basados en anclajes pueden ser sensibles al ajuste de hiperparámetros en lo que respecta a las dimensiones de los recuadros. A pesar de su antigüedad, YOLOv5 una herramienta fiable, especialmente en situaciones en las que el hardware heredado o las certificaciones de software específicas limitan los proyectos a versiones antiguas del marco.
Diferencias arquitectónicas y formación
Ecosistema y facilidad de uso
Una de las mayores ventajas de ambos modelos es su integración en el Ultralytics . Tanto si utiliza YOLOv5 YOLO11, se beneficiará de una API unificada, una amplia documentación y compatibilidad para la exportación fluida de modelos a formatos como TensorRT, CoreML y OpenVINO.
Sin embargo, YOLO11 de las últimas actualizaciones en el ultralytics Python , que ofrece una integración más estrecha con herramientas como el Ultralytics Platform para formación en la nube y gestión de conjuntos de datos.
Eficiencia del entrenamiento
YOLO11 converger más rápidamente durante el entrenamiento gracias a su arquitectura mejorada y sus funciones de pérdida. Sus requisitos de memoria también están muy optimizados. A diferencia de los modelos de transformadores masivos, que requieren una gran cantidad de VRAM, YOLO11 y YOLOv5) se pueden entrenar de manera eficiente en GPU de consumo.
A continuación se explica cómo se puede entrenar un YOLO11 utilizando elPython Ultralytics Python :
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 example dataset
# fast, efficient, and low-memory usage
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Versatilidad
Aunque YOLOv5 actualizó más adelante en su ciclo de vida para admitir la segmentación y la clasificación, YOLO11 se diseñó desde cero teniendo en cuenta estas tareas. Si su proyecto requiere cambiar entre detección de objetos, segmentación de instancias, estimación de poses o cuadros delimitadores orientados (OBB), YOLO11 una experiencia más cohesionada y de mayor rendimiento en todas estas modalidades.
Conclusión: ¿Qué modelo utilizar?
Para la gran mayoría de los usuarios que inician un proyecto hoy en día, YOLO11 es el claro ganador. Ofrece una mejora «gratuita»: mayor precisión y velocidad similar o superior sin aumentar la complejidad. YOLOv5 un excelente punto de referencia para la investigación y el mantenimiento de sistemas heredados, pero se queda atrás en las comparaciones métricas con las arquitecturas modernas.
La vanguardia: YOLO26
Si está buscando lo último en tecnología de visión artificial (a fecha de enero de 2026), le recomendamos que explore YOLO26.
YOLO26 se basa en los fundamentos de YOLO11 introduce un diseño integral NMS, lo que elimina la necesidad del posprocesamiento de supresión no máxima. Esto da como resultado una implementación más sencilla y velocidades de inferencia más rápidas, especialmente en dispositivos periféricos CPU. Con innovaciones como el optimizador MuSGD y ProgLoss, YOLO26 ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores.
Otros Modelos para Explorar
- RT-DETR: Detector basado en transformador que destaca por su precisión cuando la velocidad en tiempo real no es tan importante.
- YOLO: Ideal para la detección de vocabulario abierto, donde es necesario detect que no están presentes en el conjunto de datos de entrenamiento.