YOLOv7 YOLO11: comparación técnica de detectores en tiempo real
La evolución de las arquitecturas de detección de objetos se ha caracterizado por rápidos avances en velocidad, precisión y facilidad de implementación. Esta guía ofrece una comparación técnica detallada entre YOLOv7, un modelo de última generación de 2022, y YOLO11, una versión de vanguardia de Ultralytics 2024. Analizamos sus diferencias arquitectónicas, métricas de rendimiento e idoneidad para las aplicaciones modernas de visión artificial.
Resumen Ejecutivo
Mientras que YOLOv7 mejoras arquitectónicas significativas como E-ELAN, YOLO11 representa un salto generacional en cuanto a usabilidad, compatibilidad con el ecosistema y eficiencia. YOLO11 un rendimiento superior en hardware moderno, flujos de trabajo de entrenamiento significativamente más sencillos y compatibilidad nativa con una gama más amplia de tareas que van más allá de la simple detección.
| Característica | YOLOv7 | YOLO11 |
|---|---|---|
| Arquitectura | E-ELAN, basado en concatenación | C3k2, SPPF, optimizado para GPU |
| Tareas | Detección, pose, segmentación (limitada) | Detectar, Segmentar, Classify, Pose, OBB, Track |
| Facilidad de uso | Alta complejidad (múltiples scripts) | Optimizado ( Python unificada) |
| Ecosistema | Disperso (Enfoque de investigación) | Integrado (Ultralytics ) |
| Despliegue | Requiere scripts de exportación manuales. | Exportación en una sola línea a más de 10 formatos |
Análisis detallado
YOLOv7: La arquitectura «Bag-of-Freebies»
Lanzado en julio de 2022, YOLOv7 diseñado para superar los límites de la detección de objetos en tiempo real mediante la optimización del proceso de entrenamiento sin aumentar el coste de inferencia, un concepto conocido como «bag-of-freebies».
Características Técnicas Clave:
- E-ELAN (Extended Efficient Layer Aggregation Network): esta arquitectura permite que la red aprenda características más diversas mediante el control de las rutas de gradiente más cortas y más largas, lo que mejora la convergencia.
- Escalado de modelos: YOLOv7 métodos de escalado compuestos que modifican la profundidad y la anchura simultáneamente para diferentes restricciones de recursos.
- Cabezal auxiliar: Utiliza un asignador de etiquetas guiado por plomo «de grueso a fino», en el que un cabezal auxiliar ayuda a supervisar el proceso de aprendizaje en capas más profundas.
Detalles de YOLOv7:
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica
- Fecha: 06-07-2022
- Arxiv: 2207.02696
- GitHub: WongKinYiu/yolov7
YOLO11: Eficiencia y Versatilidad Refinadas
YOLO11 en el Ultralytics de priorizar la experiencia del desarrollador junto con el rendimiento bruto. Introduce mejoras arquitectónicas que reducen la sobrecarga computacional al tiempo que mantienen una alta precisión, lo que lo hace excepcionalmente rápido tanto en dispositivos periféricos como en GPU en la nube.
Características Técnicas Clave:
- Bloque C3k2: Una evolución del cuello de botella CSP (Cross Stage Partial) utilizado en versiones anteriores, que ofrece una mejor extracción de características con menos parámetros.
- SPPF mejorado: la capa Spatial Pyramid Pooling - Fast está optimizada para capturar el contexto multiescala de forma más eficiente.
- Versatilidad de tareas: a diferencia de YOLOv7, que es principalmente un modelo de detección con algunas capacidades de pose, YOLO11 diseñado desde cero para manejar de forma nativa la segmentación de instancias, la estimación de poses, los cuadros delimitadores orientados (OBB) y la clasificación.
- Entrenamiento optimizado: YOLO11 estrategias avanzadas de aumento de datos y funciones de pérdida mejoradas que estabilizan el entrenamiento, lo que requiere menos ajuste de hiperparámetros por parte del usuario.
YOLO11 :
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 27 de septiembre de 2024
- Documentación: Documentación oficial
Comparación de rendimiento
Al comparar estos modelos, es fundamental tener en cuenta la relación entre velocidad (latencia) y precisión (mAP). YOLO11 ofrecer un mejor equilibrio, ya que proporciona una alta precisión con unos requisitos computacionales (FLOP) significativamente menores y velocidades de inferencia más rápidas en GPU modernas como la NVIDIA .
La eficiencia importa
YOLO11 una precisión comparable o superior a la de los modelos anteriores con menos parámetros. Esta «eficiencia de parámetros» se traduce directamente en un menor uso de memoria durante el entrenamiento y una ejecución más rápida en dispositivos periféricos como NVIDIA Orin Nano.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Como se muestra en la tabla, YOLO11x supera a YOLOv7 en precisión (54,7 % frente a 53,1 %) y mantiene velocidades GPU comparables. Y lo que es más importante, las variantes más pequeñas de YOLO11 n/s/m) ofrecen increíbles ventajas de velocidad para aplicaciones en las que el procesamiento en tiempo real es fundamental, como el análisis de vídeo.
Ecosistema y facilidad de uso
El factor diferenciador más significativo para los desarrolladores es el ecosistema que rodea al modelo. Aquí es donde destacan Ultralytics .
La ventaja de Ultralytics
YOLO11 está integrado en el ultralytics Python que proporciona una interfaz unificada para todo el ciclo de vida del aprendizaje automático.
- API sencilla: puedes cargar, entrenar y validar un modelo con solo unas pocas líneas de Python .
- Ecosistema bien mantenido: la Ultralytics ofrece asistencia activa, actualizaciones frecuentes y una integración perfecta con herramientas como Ultralytics para la gestión de datos.
- Flexibilidad de implementación: exportar YOLO11 ONNX, TensorRT, CoreML o TFLite un solo comando. Por el contrario, YOLOv7 requerir repositorios complejos de terceros o ajustes manuales de scripts para diferentes formatos de exportación.
Comparación de códigos:
Entrenamiento YOLO11:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Entrenamiento YOLOv7: Normalmente requiere clonar el repositorio, instalar dependencias específicas y ejecutar largos argumentos de línea de comandos:
python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'
Casos de uso en el mundo real
Cuándo elegir YOLOv7
- Benchmarking heredado: si está realizando una investigación académica y necesita comparar nuevas arquitecturas con los estándares de vanguardia de 2022.
- Implementaciones personalizadas específicas: si tienes un canal existente muy personalizado en torno a tensor YOLOv7 específicas YOLOv7 y no puedes permitirte refactorizarlo.
Cuándo elegir YOLO11
- Implementación de producción: Para aplicaciones comerciales en el sector minorista, de seguridad o de fabricación, donde la fiabilidad y la facilidad de mantenimiento son fundamentales.
- Computación periférica: La eficiencia de YOLO11n y YOLO11s los hace ideales para ejecutarse en Raspberry Pi o dispositivos móviles con potencia limitada.
- Aplicaciones multitarea: si su proyecto requiere detectar objetos, segmentarlos y estimar su posición simultáneamente, YOLO11 lo YOLO11 de forma nativa.
La vanguardia: YOLO26
Aunque YOLO11 una excelente opción para la mayoría de las aplicaciones, Ultralytics innovando. El recientemente lanzado YOLO26 (enero de 2026) amplía aún más los límites.
- NMS de extremo a extremo: YOLO26 elimina la supresión no máxima (NMS), lo que se traduce en procesos de implementación más sencillos y una menor latencia.
- Optimización de borde: al eliminar la pérdida focal de distribución (DFL), YOLO26 logra CPU hasta un 43 % más rápida, lo que lo convierte en la opción superior para la IA de borde.
- Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador híbrido garantiza una convergencia estable.
Para los desarrolladores que estén iniciando hoy un nuevo proyecto de alto rendimiento, es muy recomendable explorar YOLO26.
Conclusión
Tanto YOLOv7 YOLO11 hitos en la historia de la visión artificial. YOLOv7 potentes conceptos arquitectónicos que supusieron un avance en este campo. Sin embargo, YOLO11 refina estas ideas en un paquete más práctico, rápido y fácil de usar.
Para la gran mayoría de los usuarios, desde investigadores hasta ingenieros empresariales,YOLO11 o la más reciente YOLO26) ofrece la mejor combinación de precisión, velocidad y experiencia para desarrolladores, respaldada por la sólida Ultralytics .
Otros Modelos para Explorar
- YOLO26: El último modelo NMS para una velocidad y precisión máximas.
- YOLOv10: El pionero del entrenamiento NMS para la detección en tiempo real.
- RT-DETR: un detector basado en transformadores para escenarios de alta precisión.
- SAM : Modelo Segment Anything de Meta para la segmentación sin entrenamiento previo.