YOLO11 YOLO26: la evolución de la detección de objetos en tiempo real
El panorama de la visión artificial está en constante cambio, y cada nueva iteración de modelo amplía los límites de velocidad, precisión y usabilidad. Dos hitos importantes en este viaje son YOLO11 y el innovador YOLO26. Mientras que YOLO11 un estándar sólido para la implementación empresarial a finales de 2024, YOLO26 representa un cambio de paradigma con su arquitectura nativa de extremo a extremo y su diseño CPU.
Esta guía ofrece una comparación técnica exhaustiva para ayudar a los desarrolladores, investigadores e ingenieros a elegir la herramienta adecuada para sus aplicaciones específicas de visión artificial.
Resumen ejecutivo: diferencias clave
Aunque ambos modelos se basan en los principios fundamentales de la familia YOLO You Only Look Once), difieren significativamente en su filosofía arquitectónica.
- YOLO11: Diseñado para ofrecer versatilidad e integración en el ecosistema. Se basa en métodos tradicionales de posprocesamiento, como la supresión no máxima (NMS), pero ofrece un marco muy estable y bien compatible para una amplia variedad de tareas.
- YOLO26: Diseñado para el borde y preparado para el futuro. Introduce un diseño nativo de extremo a extremo NMS, lo que elimina los complejos pasos de posprocesamiento. También cuenta con el innovador optimizador MuSGD y está diseñado específicamente para CPU , lo que lo hace hasta un 43 % más rápido en dispositivos como Raspberry Pi.
Análisis detallado del rendimiento
La diferencia de rendimiento entre generaciones se mide a menudo en milisegundos y puntos porcentuales de precisión media (mAP). La tabla siguiente destaca las mejoras en velocidad y precisión. Obsérvese la importante reducción del tiempo CPU para YOLO26, una métrica fundamental para las implementaciones de IA en el borde.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
YOLO11: El estándar versátil
YOLO11
Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 27/09/2024
GitHub: Ultralytics
YOLO11 una importante mejora en la YOLO , centrándose en la eficiencia de la extracción de características. Supuso una mejora con respecto a YOLOv8 al optimizar el bloque C3k2 e introducir mejoras SPPF.
Ventajas:
- Robustez probada: ampliamente adoptado en la industria, con una extensa comunidad de complementos y soporte técnico.
- GPU : Altamente eficiente en NVIDIA (T4, A100) utilizando TensorRT, lo que la hace excelente para la inferencia basada en la nube.
- Versatilidad de tareas: Gran rendimiento en detección, segmentación y estimación de posturas.
Debilidades:
- NMS : Requiere un posprocesamiento de supresión no máxima, lo que puede introducir variabilidad en la latencia y complicar los procesos de implementación.
- FLOP más altos: ligeramente más costosos desde el punto de vista computacional que las arquitecturas más recientes.
YOLO26: El innovador que antepone el borde
YOLO26
Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 14/01/2026
GitHub: Ultralytics
YOLO26 es una arquitectura con visión de futuro que prioriza la eficiencia en hardware básico. Al eliminar la necesidad de NMS optimizar los conjuntos CPU , libera el rendimiento en tiempo real en dispositivos que antes se consideraban demasiado lentos para la IA moderna.
Innovaciones clave:
- NMS de extremo a extremo: al predecir coincidencias uno a uno directamente, YOLO26 elimina el NMS . Esto simplifica CoreML la exportación a ONNX o CoreML .
- Eliminación de DFL: La eliminación de la pérdida focal de distribución optimiza el cabezal de salida, lo que mejora la compatibilidad con dispositivos periféricos de baja potencia.
- Optimizador MuSGD: Inspirado en las técnicas de entrenamiento de modelos de lenguaje grandes (LLM) (concretamente, Kimi K2 de Moonshot AI), este optimizador híbrido combina SGD con Muon para una convergencia y estabilidad más rápidas.
- ProgLoss + STAL: Las nuevas funciones de pérdida mejoran la detección de objetos pequeños, un requisito fundamental para las imágenes aéreas y la robótica.
Análisis Arquitectónico en Profundidad
El cambio de YOLO11 YOLO26 no se limita al número de parámetros, sino que supone un cambio fundamental en la forma en que el modelo aprende y realiza predicciones.
Metodologías de formación y eficiencia
Una de las características más destacadas de Ultralytics es la eficiencia del entrenamiento. Ambos modelos se benefician de la Ultralytics integrada Ultralytics , que permite una gestión fluida de los conjuntos de datos y el entrenamiento en la nube.
Sin embargo, YOLO26 introduce el optimizador MuSGD, que adapta las actualizaciones de impulso para manejar los complejos paisajes de pérdida de los modelos de visión de manera más eficaz que los estándares AdamW SGD. Esto da como resultado modelos que convergen más rápidamente, lo que ahorra valiosas horas GPU y reduce la huella de carbono del entrenamiento.
Además, YOLO26 utiliza pérdidas específicas para cada tarea mejoradas:
- Segmentación: Pérdida de segmentación semántica mejorada y módulos proto multiescala.
- Pose: Estimación de la verosimilitud logarítmica residual (RLE) para una localización más precisa de los puntos clave.
- OBB: Pérdida de ángulo especializada para resolver discontinuidades de límites en tareas de caja delimitadora orientada.
Requisitos de Memoria
YOLO Ultralytics son conocidos por su bajo consumo de memoria en comparación con arquitecturas basadas en transformadores como RT-DETR o SAM .
Optimización de Memoria
Tanto YOLO11 YOLO26 están diseñados para entrenarse en GPU de consumo (por ejemplo, NVIDIA 3060 o 4070). A diferencia de los modelos de transformadores masivos que requieren más de 24 GB de VRAM, YOLO eficientes YOLO a menudo se pueden ajustar en dispositivos con tan solo 8 GB de VRAM utilizando tamaños de lote adecuados.
Casos de uso en el mundo real
La elección entre YOLO11 YOLO26 suele depender del hardware de implementación y las necesidades específicas de la aplicación.
Escenarios ideales para YOLO11
- Servicios API en la nube: donde hay disponibles potentes GPU y el alto rendimiento (procesamiento por lotes) es más importante que la latencia de una sola imagen.
- Integraciones heredadas: sistemas ya construidos en torno a canalizaciones NMS en los que no es posible cambiar la lógica de posprocesamiento.
- Análisis de propósito general: mapas de calor minoristas o recuento de clientes en los que se utilizan GPU estándar.
Escenarios Ideales para YOLO26
- IoT y dispositivos periféricos: ejecución de la detección de objetos en Raspberry Pi, NVIDIA Nano o teléfonos móviles. CPU del 43 % CPU supone un gran cambio en este ámbito.
- Robótica: La variación de la latencia es fatal para los bucles de control. El diseño NMS garantiza tiempos de inferencia deterministas, cruciales para la navegación autónoma.
- Topografía aérea: La función ProgLoss mejora significativamente el reconocimiento de objetos pequeños, lo que hace que YOLO26 sea superior para el análisis de imágenes tomadas con drones.
- Sistemas integrados: dispositivos con capacidad de cálculo limitada que no pueden permitirse la sobrecarga que supone clasificar miles de cajas candidatas durante NMS.
Implementación de código
Ambos modelos comparten la misma facilidad de uso que define el Ultralytics . Para cambiar de YOLO11 YOLO26 solo hay que cambiar la cadena del modelo.
from ultralytics import YOLO
# Load the latest YOLO26 model (NMS-free, CPU optimized)
model = YOLO("yolo26n.pt")
# Run inference on a local image
results = model("path/to/image.jpg")
# Process results
for result in results:
result.show() # Display to screen
result.save(filename="result.jpg") # Save to disk
Esta API unificada garantiza que los desarrolladores puedan experimentar con diferentes arquitecturas sin tener que reescribir todo su código base.
Conclusión
Ambas arquitecturas demuestran por qué Ultralytics líder en visión artificial de código abierto. YOLO11 ofrece una solución madura, versátil y GPU, perfecta para los centros de datos empresariales. YOLO26, sin embargo, representa el futuro de la IA de vanguardia, ya que ofrece CPU increíblemente rápido y un proceso simplificado de principio a fin que elimina los cuellos de botella tradicionales.
Para la mayoría de los nuevos proyectos, especialmente aquellos relacionados con la implementación periférica, las aplicaciones móviles o la robótica,YOLO26 es la opción recomendada debido a su excelente relación velocidad-precisión y su moderno diseño arquitectónico.
Otros Modelos para Explorar
- YOLOv10: El pionero del enfoque NMS en la YOLO .
- RT-DETR: Detector basado en transformador que ofrece una alta precisión para situaciones en las que la velocidad es secundaria.
- YOLOv8: Un clásico muy fiable, que sigue siendo muy utilizado por su amplia biblioteca de recursos.