YOLO11 frente a YOLOv5: Una comparativa técnica exhaustiva de las arquitecturas de Ultralytics
Seleccionar la arquitectura de red neuronal adecuada es una decisión fundamental para cualquier iniciativa de visión artificial. A medida que evoluciona el panorama de la inteligencia artificial, también lo hacen las herramientas disponibles para desarrolladores e investigadores. Esta guía completa ofrece una comparativa técnica detallada entre dos modelos emblemáticos del ecosistema de Ultralytics: el célebre YOLOv5 y el avanzado YOLO11.
Tanto si despliegas modelos ligeros para aplicaciones de IA en el borde como si procesas transmisiones de vídeo de alta resolución en GPUs en la nube, entender los matices arquitectónicos, las métricas de rendimiento y los casos de uso ideales de estos modelos te asegurará tomar una decisión basada en datos para tus limitaciones de despliegue específicas.
Linaje del modelo y detalles técnicos
Ambos modelos reflejan el compromiso de Ultralytics con la colaboración de código abierto, un rendimiento robusto y una facilidad de uso inigualable, lo que los convierte en los favoritos de la comunidad global de aprendizaje automático.
Detalles de YOLO11
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: ultralytics/ultralytics
- Docs: Documentación de YOLO11
Detalles de YOLOv5
- Autores: Glenn Jocher
- Organización: Ultralytics
- Fecha: 26-06-2020
- GitHub: ultralytics/yolov5
- Docs: Documentación de YOLOv5
Diferencias arquitectónicas
La evolución de YOLOv5 a YOLO11 introduce varios cambios arquitectónicos profundos diseñados para optimizar la precisión y la eficiencia de los parámetros.
YOLOv5 fue pionero en el ecosistema PyTorch, al introducir una arquitectura backbone CSPNet (Cross Stage Partial Network) altamente optimizada y un neck PANet (Path Aggregation Network). Se basaba en la detección mediante anclas, que requería cajas de anclaje predefinidas para predecir los límites de los objetos. Aunque era muy eficaz, ajustar estas anclas para datasets de visión artificial personalizados podía resultar complicado.
Por el contrario, YOLO11 transiciona hacia un paradigma de detección más moderno, sin anclas. Esto elimina la necesidad de ajustar manualmente las cajas de anclaje, simplificando el proceso de entrenamiento y mejorando la generalización en diversos datasets como el dataset COCO. Además, YOLO11 cuenta con una head desacoplada, lo que significa que las tareas de clasificación y regresión de cajas delimitadoras se procesan en ramas separadas. Esta separación mejora significativamente la velocidad de convergencia y la precisión media media (mAP), especialmente en escenarios complejos de detección de objetos.
Métricas de rendimiento y benchmarks
La siguiente tabla contrasta las métricas clave entre los diferentes tamaños de modelo. Los modelos de Ultralytics son famosos por sus requisitos de memoria, ya que suelen consumir menos memoria CUDA durante el entrenamiento en comparación con las alternativas pesadas basadas en Transformer, lo que reduce drásticamente la barrera de entrada para el hardware.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Como se observa, YOLO11 logra un equilibrio de rendimiento muy favorable, ofreciendo consistentemente puntuaciones de mAP más altas con un número de parámetros comparable al de sus homólogos de YOLOv5.
Metodologías de entrenamiento y usabilidad
Un principio fundamental de la filosofía de Ultralytics es la facilidad de uso excepcional, respaldada por un ecosistema bien mantenido y un amplio apoyo de la comunidad.
YOLOv5 dependía históricamente de scripts robustos de interfaz de línea de comandos (CLI) (train.py, detect.py) para su ejecución. Aunque eran potentes, la integración de estos scripts directamente en aplicaciones de Python personalizadas a menudo requería soluciones alternativas.
YOLO11 revolucionó esto introduciendo el paquete de Python ultralytics optimizado. Esta API unificada maneja todo, desde el entrenamiento hasta la exportación de modelos a formatos como ONNX, OpenVINO y TensorRT de forma nativa.
Para una experiencia sin código, los desarrolladores pueden utilizar la Plataforma Ultralytics para anotar datos, entrenar modelos en la nube y desplegarlos en dispositivos en el borde sin problemas.
Comparativa de código
Entrenar un modelo de Ultralytics hoy en día es increíblemente eficiente. Así es como puedes entrenar YOLO11 utilizando su API nativa de Python:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model on custom data
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Export the model to ONNX for deployment
model.export(format="onnx")Para sistemas heredados que utilizan YOLOv5, el entrenamiento vía CLI se ve así:
# Clone the repository and run the training script
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt
python train.py --img 640 --batch 16 --epochs 50 --data coco128.yaml --weights yolov5s.ptCasos de uso ideales y aplicaciones en el mundo real
Ambos modelos poseen puntos fuertes distintos adaptados a diferentes entornos operativos.
Cuándo utilizar YOLOv5
A pesar de ser una generación anterior, YOLOv5 sigue siendo una potencia. Se recomienda encarecidamente para:
- Integración de sistemas heredados: Entornos profundamente integrados con las estructuras de tensores específicas de YOLOv5 o tuberías de despliegue que no pueden ser refactorizadas fácilmente.
- Bases académicas: Investigadores que necesiten bases establecidas y duraderas para estudios académicos reproducibles en análisis de imágenes médicas.
Cuándo utilizar YOLO11
YOLO11 representa la opción ideal para tuberías de producción modernas debido a su increíble versatilidad:
- Entornos multitarea: A diferencia de YOLOv5, que es principalmente un detector (con adiciones posteriores de segmentación), YOLO11 admite de forma nativa segmentación de instancias, clasificación de imágenes, estimación de pose y detección de cajas delimitadoras orientadas (OBB) desde el primer momento.
- Analítica de vídeo de alta densidad: Ideal para sistemas de tráfico inteligentes o gestión de inventario minorista, donde extraer la máxima precisión de escenas complejas es fundamental.
Mirando hacia el futuro: La arquitectura YOLO26
Aunque YOLO11 se mantiene como un estándar excepcional, la frontera de la visión artificial continúa avanzando rápidamente. Los desarrolladores que buscan la cúspide absoluta de la eficiencia también deberían considerar el último Ultralytics YOLO26 (lanzado en enero de 2026).
YOLO26 representa un gran salto adelante, diseñado explícitamente tanto para la optimización en el borde como para la escala empresarial. Las innovaciones clave incluyen:
- End-to-End NMS-Free Design: YOLO26 is natively end-to-end, eliminating Non-Maximum Suppression (NMS) post-processing for faster, simpler deployment.
- Eliminación de DFL: Se ha eliminado la Distribution Focal Loss para simplificar la exportación de modelos y mejorar la compatibilidad con dispositivos de bajo consumo.
- Optimizador MuSGD: Un híbrido innovador de SGD y Muon, que aporta la estabilidad de entrenamiento de LLM a la visión artificial para una convergencia más rápida.
- Hasta un 43% más rápido en inferencia de CPU: Altamente optimizado para despliegues de IoT y dispositivos sin GPUs dedicadas.
- ProgLoss + STAL: Funciones de pérdida drásticamente mejoradas que producen mejoras notables en el reconocimiento de objetos pequeños, vitales para imágenes de drones aéreos.
Resumen
La elección entre YOLO11 y YOLOv5 depende en última instancia de la etapa del ciclo de vida de tu proyecto. El legado de YOLOv5 es innegable, ofreciendo una estabilidad extrema y un respaldo masivo de la comunidad. Sin embargo, para cualquier proyecto nuevo, se recomienda encarecidamente YOLO11 por encima de las generaciones anteriores. Combina una precisión de vanguardia, una API de Python excepcionalmente elegante y una menor sobrecarga de memoria de entrenamiento, consolidando la posición de Ultralytics a la vanguardia de la innovación en IA. Para aquellos que superan aún más los límites, explorar el estado del arte YOLO26 en la Plataforma Ultralytics producirá resultados inigualables.