YOLOv10 YOLO11: tendiendo un puente entre la innovación académica y la escala del mundo real
La evolución de la detección de objetos en tiempo real se ha caracterizado por rápidos avances en velocidad, precisión y eficiencia arquitectónica. Dos actores clave en esta historia reciente son YOLOv10 y YOLO11. Aunque ambos modelos amplían los límites de lo que es posible con la visión artificial, se basan en filosofías de diseño diferentes y responden a necesidades distintas dentro de la comunidad de la IA. Esta comparación analiza las especificaciones técnicas, las diferencias arquitectónicas y las aplicaciones prácticas de ambos modelos para ayudar a los desarrolladores a elegir la herramienta adecuada para sus necesidades específicas.
YOLOv10: el pionero académico de la detección integral
Publicado en mayo de 2024 por investigadores de la Universidad de Tsinghua, YOLOv10 introdujo un cambio de paradigma en la YOLO al centrarse en una estrategia de entrenamientoNMS. Históricamente, YOLO se basaban en la supresión no máxima (NMS) para filtrar los cuadros delimitadores superpuestos durante la inferencia. Aunque eficaz, NMS un cuello de botella en la latencia de implementación y complica el proceso de exportación a formatos como TensorRT u ONNX.
Innovaciones arquitectónicas clave
YOLOv10 estos retos mediante una estrategia de doble asignación durante el entrenamiento. Emplea un cabezal uno a muchos para una supervisión rica durante el aprendizaje y un cabezal uno a uno para la inferencia, lo que permite al modelo predecir directamente un único cuadro óptimo por objeto. Esto elimina la necesidad del NMS , lo que reduce significativamente la latencia en los dispositivos periféricos.
Además, YOLOv10 un diseño de modelo holístico basado en la eficiencia y la precisión. Esto incluye cabezales de clasificación ligeros, submuestreo desacoplado de canales espaciales y diseño de bloques guiado por rango, que en conjunto reducen la redundancia computacional.
Metadatos técnicos:
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización:Universidad de Tsinghua
- Fecha: 2024-05-23
- Arxiv:YOLOv10: Detección de objetos de extremo a extremo en tiempo real
- GitHub:THU-MIG/yolov10
Ultralytics YOLO11: perfeccionado para la escala empresarial
Lanzado en septiembre de 2024, Ultralytics YOLO11 se basa en el sólido marco de YOLOv8 y YOLOv9. Aunque conserva un enfoque tradicional NMS(a diferencia del YOLOv10, que es nativamente de extremo a extremo), YOLO11 en gran medida en la eficiencia de la extracción de características y la optimización de parámetros. Está diseñado para ser la «navaja suiza» de la visión por ordenador, destacando no solo en la detección, sino también en una amplia gama de tareas, como la segmentación de instancias, la estimación de poses, la clasificación y la detección de cuadros delimitadores orientados (OBB).
Avances en YOLO11
YOLO11 una arquitectura central refinada (C3k2) que mejora la integración de características en todas las escalas. Esto permite al modelo capturar detalles intrincados en escenas complejas, como pequeños objetos en imágenes aéreas, de forma más eficaz que sus predecesores. Además, su integración en el Ultralytics garantiza una compatibilidad perfecta para el entrenamiento, la validación y la implementación en diversas plataformas de hardware, desde NVIDIA hasta CPU básicas.
Metadatos técnicos:
- Autores: Glenn Jocher y Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- Documentación:Documentación de YOLO11
- GitHub:ultralytics/ultralytics
Comparación de rendimiento
Al comparar el rendimiento, es fundamental ir más allá de mAP brutas mAP y tener en cuenta las compensaciones entre velocidad, tamaño del modelo (parámetros) y coste computacional (FLOP).
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análisis de los datos
Mientras YOLOv10 cuenta con un menor número de parámetros en algunas configuraciones (como el modelo «M»), YOLO11 frecuentemente alcanza un mayor mAP y velocidades de inferencia competitivas o superiores en GPU T4, lo que demuestra la eficacia de su arquitectura optimizada.
Casos de Uso Ideales
Cuándo elegir YOLOv10
YOLOv10 una excelente opción para proyectos orientados a la investigación o escenarios específicos de implementación periférica en los que eliminar el NMS es fundamental para reducir la latencia. Su arquitectura integral simplifica el proceso de exportación para determinados sistemas integrados en los que resulta difícil implementar de forma eficiente la lógica de posprocesamiento.
- Sistemas integrados: dispositivos con CPU limitados para el posprocesamiento.
- Investigación académica: Estudio de arquitecturas NMS y estrategias de entrenamiento de doble asignación.
- Aplicaciones críticas en cuanto a latencia: robótica de alta velocidad en la que cada milisegundo de latencia de inferencia cuenta.
¿Cuándo elegir Ultralytics YOLO11?
YOLO11 la solución preferida para aplicaciones de nivel de producción que requieren un equilibrio entre alta precisión, versatilidad y facilidad de uso. Respaldado por la Ultralytics , ofrece un flujo de trabajo optimizado desde la anotación de datos hasta la supervisión de modelos.
- Soluciones empresariales: implementaciones a gran escala que requieren bases de código fiables y mantenidas, así como licencias comerciales.
- Tareas de visión complejas: proyectos que requieren estimación de la pose o segmentación junto con la detección.
- Formación en la nube: integración perfecta con la Ultralytics para gestionar conjuntos de datos y ejecuciones de formación.
- Versatilidad: desarrolladores que necesitan un único marco para gestionar la clasificación, la detección y la segmentación con una API unificada.
La ventaja del ecosistema de Ultralytics
Uno de los diferenciadores más significativos para YOLO11 es el ecosistema que lo rodea. Si bien YOLOv10 una impresionante contribución académica, YOLO11 de actualizaciones continuas, una amplia documentación y una estrecha integración con herramientas como Ultralytics .
- Facilidad de uso: una sencilla Python permite entrenar un modelo con solo unas pocas líneas de código.
- Eficiencia de memoria: Ultralytics están optimizados para un menor uso de memoria durante el entrenamiento en comparación con muchas alternativas basadas en Transformer, lo que los hace accesibles en GPU de consumo.
- Amplia compatibilidad: exporta tu YOLO11 a CoreML, OpenVINO, TensorRTy mucho más con un solo comando.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Mirando hacia el futuro: El futuro con YOLO26
Aunque YOLOv10 YOLO11 hitos importantes, el campo avanza rápidamente. Para los desarrolladores que buscan lo último en tecnología, YOLO26 (lanzado en enero de 2026) combina lo mejor de ambos mundos.
YOLO26 adopta el diseño integralNMS (Método de Mínima Pérdida) introducido por YOLOv10 lo perfecciona con la optimización característica Ultralytics para la escala empresarial. Cuenta con la eliminación de DFL (pérdida focal de distribución) para exportaciones más sencillas y el innovador optimizador MuSGD para una convergencia de entrenamiento estable e inspirada en LLM. Con CPU hasta un 43 % más rápida que las generaciones anteriores y funciones de pérdida mejoradas como ProgLoss + STAL, YOLO26 es la recomendación definitiva para los proyectos modernos de visión por ordenador.
Para los usuarios interesados en otras arquitecturas especializadas, la documentación también cubre RT-DETR para la detección basada en transformadores y YOLO para tareas de vocabulario abierto.