YOLO11 vs YOLOv5: Una Comparación Técnica Exhaustiva de Arquitecturas de Ultralytics
Seleccionar la arquitectura de red neuronal adecuada es una decisión fundamental para cualquier iniciativa de visión artificial. A medida que el panorama de la inteligencia artificial evoluciona, también lo hacen las herramientas disponibles para desarrolladores e investigadores. Esta guía exhaustiva proporciona una comparación técnica en profundidad entre dos modelos emblemáticos del ecosistema de Ultralytics: el aclamado YOLOv5 y el avanzado YOLO11.
Ya sea que esté desplegando modelos ligeros para aplicaciones de IA en el borde o procesando flujos de video de alta resolución en GPU en la nube, comprender los matices arquitectónicos, las métricas de rendimiento y los casos de uso ideales para estos modelos le asegurará tomar una decisión basada en datos para sus restricciones de despliegue específicas.
Linaje y detalles técnicos del modelo
Ambos modelos reflejan el compromiso de Ultralytics con la colaboración de código abierto, el rendimiento robusto y una facilidad de uso inigualable, lo que los convierte en opciones muy favorecidas por la comunidad global de aprendizaje automático.
Detalles de YOLO11
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: ultralytics/ultralytics
- Documentación: Documentación de YOLO11
YOLOv5 Detalles
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: ultralytics/yolov5
- Documentación: Documentación de YOLOv5
Diferencias Arquitectónicas
La evolución de YOLOv5 a YOLO11 introduce varios cambios arquitectónicos profundos diseñados para optimizar la precisión y la eficiencia de los parámetros.
YOLOv5 fue un pionero en el ecosistema de PyTorch, introduciendo un backbone CSPNet (Cross Stage Partial Network) altamente optimizado y un cuello PANet (Path Aggregation Network). Se basó en la detección basada en anclajes, que requería cajas de anclaje predefinidas para predecir los límites de los objetos. Aunque altamente efectivo, ajustar estos anclajes para conjuntos de datos de visión por computadora personalizados podía ser engorroso.
En contraste, YOLO11 transita hacia un paradigma de detección más moderno y sin anclajes. Esto elimina la necesidad de ajustar manualmente las cajas de anclaje, agilizando el proceso de entrenamiento y mejorando la generalización en diversos conjuntos de datos como el conjunto de datos COCO. Además, YOLO11 presenta una cabeza desacoplada, lo que significa que las tareas de clasificación y regresión de cajas delimitadoras se procesan en ramas separadas. Esta separación mejora significativamente la velocidad de convergencia y la precisión media promedio (mAP), particularmente para escenarios complejos de detección de objetos.
Métricas de rendimiento y puntos de referencia
La tabla a continuación contrasta métricas clave en diferentes tamaños de modelo. Los modelos Ultralytics son reconocidos por sus requisitos de memoria, consumiendo típicamente menos memoria CUDA durante el entrenamiento en comparación con alternativas pesadas basadas en transformadores, lo que reduce drásticamente la barrera de hardware para la entrada.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Como se observa, YOLO11 logra un equilibrio de rendimiento muy favorable, ofreciendo consistentemente puntuaciones mAP más altas con recuentos de parámetros comparables a sus contrapartes YOLOv5.
Metodologías de entrenamiento y usabilidad
Un principio fundamental de la filosofía de Ultralytics es una facilidad de uso excepcional, respaldada por un ecosistema bien mantenido y un amplio soporte comunitario.
Históricamente, YOLOv5 se basó en robustos scripts de interfaz de línea de comandos (CLI) (train.py, detect.py) para su ejecución. Aunque potentes, la integración de estos scripts directamente en aplicaciones Python personalizadas a menudo requería soluciones alternativas.
YOLO11 revolucionó esto al introducir el optimizado ultralytics Paquete python. Esta API unificada gestiona todo, desde el entrenamiento hasta exportación de modelos formatos como ONNX, OpenVINO, y TensorRT nativamente.
Despliegue Optimizado con la Plataforma Ultralytics
Para una experiencia completamente sin código, los desarrolladores pueden utilizar la Plataforma Ultralytics para anotar datos, entrenar modelos en la nube y desplegarlos en dispositivos de borde de forma fluida.
Comparación de código
Entrenar un modelo Ultralytics hoy es increíblemente eficiente. Así es como puede entrenar YOLO11 utilizando su API nativa de Python:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model on custom data
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Export the model to ONNX for deployment
model.export(format="onnx")
Para sistemas heredados que utilizan YOLOv5, el entrenamiento a través de CLI se ve así:
# Clone the repository and run the training script
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt
python train.py --img 640 --batch 16 --epochs 50 --data coco128.yaml --weights yolov5s.pt
Casos de Uso y Aplicaciones en el Mundo Real Ideales
Ambos modelos poseen fortalezas distintas adaptadas a diferentes entornos operativos.
¿Cuándo utilizar YOLOv5?
A pesar de la nueva generación, YOLOv5 sigue siendo una potencia. Es altamente recomendado para:
- Integración de Sistemas Heredados: Entornos profundamente integrados con las estructuras de tensor específicas de YOLOv5 o pipelines de despliegue que no pueden ser refactorizados fácilmente.
- Bases Académicas: Investigadores que necesitan bases establecidas y de larga trayectoria para estudios académicos reproducibles en análisis de imágenes médicas.
¿Cuándo utilizar YOLO11?
YOLO11 representa la elección ideal para las pipelines de producción modernas debido a su increíble versatilidad:
- Entornos Multitarea: A diferencia de YOLOv5, que es principalmente un detector (con adiciones posteriores de segmentación), YOLO11 soporta nativamente segmentación de instancias, clasificación de imágenes, estimación de pose y detect de Cajas Delimitadoras Orientadas (OBB) de forma predeterminada.
- Análisis de vídeo de alta densidad: Ideal para sistemas de tráfico inteligentes o gestión de inventario minorista donde extraer la máxima precisión de escenas complejas es crítico.
De Cara al Futuro: La Arquitectura de YOLO26
Aunque YOLO11 se mantiene como un estándar excepcional, la frontera de la visión por computadora sigue avanzando rápidamente. Los desarrolladores que buscan la cúspide absoluta de eficiencia también deberían considerar el último Ultralytics YOLO26 (lanzado en enero de 2026).
YOLO26 representa un avance masivo, diseñado explícitamente tanto para la optimización en el borde como para la escala empresarial. Las innovaciones clave incluyen:
- Diseño de extremo a extremo sin NMS: YOLO26 es nativamente de extremo a extremo, eliminando el postprocesamiento de Supresión No Máxima (NMS) para una implementación más rápida y sencilla.
- Eliminación de DFL: Se ha eliminado la Pérdida Focal de Distribución para una exportación de modelo simplificada y una compatibilidad mejorada con dispositivos de baja potencia.
- Optimizador MuSGD: Un híbrido innovador de SGD y Muon, que aporta la estabilidad de entrenamiento de LLM a la visión por computadora para una convergencia más rápida.
- Hasta un 43% más rápido en inferencia de CPU: Altamente optimizado para implementaciones IoT y dispositivos sin GPU dedicadas.
- ProgLoss + STAL: Funciones de pérdida drásticamente mejoradas que producen mejoras notables en el reconocimiento de objetos pequeños, vital para la imaginería de drones aéreos.
Resumen
La elección entre YOLO11 y YOLOv5 depende en última instancia de la etapa del ciclo de vida de su proyecto. El legado de YOLOv5 es innegable, ofreciendo una estabilidad extrema y un respaldo masivo de la comunidad. Sin embargo, para cualquier proyecto nuevo, YOLO11 es altamente recomendado por encima de las generaciones anteriores. Combina una precisión de vanguardia, una API Python excepcionalmente elegante y un menor consumo de memoria de entrenamiento, consolidando la posición de Ultralytics a la vanguardia de la innovación en IA. Para aquellos que buscan ir aún más allá, explorar el vanguardista YOLO26 en la Plataforma Ultralytics producirá resultados inigualables.