Link to this sectionYOLO11 frente a YOLOv10#
El panorama de la visión artificial en tiempo real evoluciona constantemente, y las nuevas arquitecturas superan los límites de lo posible tanto en dispositivos edge como en infraestructuras en la nube. En este análisis técnico detallado, exploramos los matices entre dos modelos fundamentales en el sector: Ultralytics YOLO11 y YOLOv10. Ambos representan saltos significativos en las capacidades de detección de objetos, aunque adoptan filosofías arquitectónicas fundamentalmente distintas para lograr su rendimiento.
Link to this sectionAnalizando la arquitectura de YOLO11#
Detalles de YOLO11:
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Documentación: https://docs.ultralytics.com/models/yolo11/
Presentado como una potente herramienta versátil, YOLO11 parte de años de investigación fundamental en visión artificial e IA. La filosofía de diseño central de YOLO11 gira en torno a la riqueza de características y a una versatilidad extrema en múltiples tareas de visión artificial.
Una de las mejoras más destacadas en YOLO11 es la implementación del Bloque C3k2. Este módulo de cuello de botella refinado optimiza el flujo de gradiente por toda la red, mejorando drásticamente la eficiencia de los parámetros mientras mantiene una alta precisión. Además, YOLO11 emplea un mecanismo de atención espacial mejorado, que es fundamental para identificar elementos pequeños o parcialmente ocluidos. Esto lo convierte en una opción excepcional para casos de uso de imágenes aéreas y análisis detallado de imágenes médicas.
YOLO11 utiliza un diseño sin anclas (anchor-free) que minimiza la complejidad del ajuste de hiperparámetros, lo que permite una generalización robusta en una amplia gama de conjuntos de datos personalizados. Además, los requisitos de memoria durante el entrenamiento son significativamente menores en comparación con las arquitecturas basadas en Transformer, lo que permite a los investigadores entrenar modelos grandes de manera eficiente en hardware de consumo estándar.
Link to this sectionExplorando la arquitectura de YOLOv10#
Detalles de YOLOv10:
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 23-05-2024
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Documentación: https://docs.ultralytics.com/models/yolov10/
Desarrollado por investigadores de la Universidad de Tsinghua, YOLOv10 causó sensación como pionero de extremo a extremo en la familia YOLO. El sello distintivo de YOLOv10 es su metodología de Entrenamiento sin NMS. Al emplear asignaciones duales consistentes durante la fase de entrenamiento, el modelo predice naturalmente exactamente una caja delimitadora por objeto. Este avance elimina por completo la necesidad de Supresión de no máximos (NMS) durante la inferencia, un paso de postprocesamiento que históricamente introducía cuellos de botella de latencia en las canalizaciones de implementación.
La arquitectura también introduce una estrategia de diseño holística de eficiencia-precisión. Incorpora un muestreo descendente desacoplado espacial-canal y diseños de bloques guiados por rango que reducen selectivamente la redundancia en las etapas de la red. Esto resulta en menos FLOPs y una reducción de la carga computacional sin sacrificar significativamente la precisión media media (mAP). Para aplicaciones en tiempo real donde cada milisegundo cuenta, la eliminación de NMS proporciona un grafo de inferencia determinista muy adecuado para dispositivos de IA edge.
Link to this sectionMétricas de rendimiento y benchmarks#
Al evaluar estos dos modelos, buscamos un equilibrio entre precisión, número de parámetros y velocidad. La siguiente tabla muestra cómo se comparan en varias escalas en el conjunto de datos COCO.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Como se observa en las métricas de rendimiento de YOLO, YOLO11 generalmente logra puntuaciones de mAP ligeramente superiores en sus variantes, particularmente en los modelos más grandes. El diseño sin NMS de YOLOv10 garantiza tiempos de inferencia de extremo a extremo altamente estables, pero YOLO11 sigue logrando un rendimiento excepcional cuando se optimiza con TensorRT en hardware de NVIDIA.
Al preparar tus modelos para la implementación, es crucial exportarlos a formatos optimizados. Tanto YOLO11 como YOLOv10 se pueden exportar sin problemas a formatos como ONNX y TensorRT utilizando el framework de Ultralytics. Consulta nuestra guía sobre opciones de implementación de modelos para obtener instrucciones paso a paso.
Link to this sectionLa ventaja del ecosistema Ultralytics#
Aunque las métricas de rendimiento independientes son importantes, el ecosistema que las rodea dicta el éxito práctico de un proyecto de aprendizaje automático. Aquí es donde YOLO11, como ciudadano nativo del ecosistema de Ultralytics, realmente brilla.
La Plataforma de Ultralytics ofrece una experiencia de usuario increíblemente optimizada. Con una API de Python sencilla y unificada, los desarrolladores pueden gestionar tareas más allá de las simples cajas delimitadoras. YOLO11 admite de forma nativa segmentación de instancias, estimación de poses, clasificación de imágenes y detección de cajas delimitadoras orientadas (OBB). Esta inmensa versatilidad suele faltar en los repositorios de investigación especializados.
Además, el ecosistema cuenta con una extensa documentación y el apoyo activo de la comunidad. Las integraciones con herramientas como Weights & Biases para el seguimiento de experimentos, y OpenVINO para la optimización de hardware de Intel, están integradas directamente en la biblioteca. Entrenar un modelo requiere un código repetitivo mínimo y se beneficia de procesos de entrenamiento altamente eficientes que requieren menos memoria CUDA que los modelos Transformer pesados como RT-DETR.
Link to this sectionEjemplo de código práctico#
El entrenamiento y la ejecución de la inferencia con Ultralytics están diseñados para ser lo más intuitivos posible. La misma API gestiona tanto YOLO11 como YOLOv10 sin esfuerzo.
from ultralytics import YOLO
# Initialize the model (YOLO11n or YOLOv10n)
model = YOLO("yolo11n.pt")
# Train the model efficiently on a custom dataset
# Ultralytics automatically handles hyperparameters and memory optimization
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Run inference on an image
inference_results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
inference_results[0].show()Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLO11 y YOLOv10 depende de los requisitos específicos de tu proyecto, las restricciones de implementación y las preferencias del ecosistema.
Link to this sectionCuándo elegir YOLO11#
YOLO11 es una gran opción para:
- Implementación en producción en el borde: Aplicaciones comerciales en dispositivos como Raspberry Pi o NVIDIA Jetson donde la fiabilidad y el mantenimiento activo son primordiales.
- Aplicaciones de visión multitarea: Proyectos que requieren detección, segmentación, estimación de pose y OBB dentro de un único marco unificado.
- Creación rápida de prototipos e implementación: Equipos que necesitan pasar rápidamente de la recopilación de datos a la producción utilizando la API de Python de Ultralytics optimizada.
Link to this sectionCuándo elegir YOLOv10#
YOLOv10 está recomendado para:
- Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
- Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
- Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionLa próxima generación: YOLO26#
Aunque YOLOv10 introdujo el revolucionario paradigma sin NMS y YOLO11 perfeccionó la versatilidad multitarea, el campo de la IA avanza rápidamente. Para los desarrolladores que comienzan hoy nuevas implementaciones en producción, recomendamos encarecidamente explorar Ultralytics YOLO26.
Lanzado en enero de 2026, YOLO26 combina lo mejor de ambos mundos. Adopta de forma nativa el Diseño de Extremo a Extremo sin NMS iniciado por YOLOv10, simplificando drásticamente la canalización de implementación y garantizando una latencia constante. Además, YOLO26 incorpora optimizaciones especializadas para la computación edge. Al ejecutar la Eliminación de DFL (eliminando la Distribution Focal Loss), la arquitectura garantiza una mayor facilidad de exportación y logra una inferencia en CPU hasta un 43% más rápida en comparación con los modelos heredados, lo que lo convierte en la opción principal para dispositivos IoT de bajo consumo y aplicaciones móviles.
YOLO26 también aporta estabilidad al entrenamiento de modelos de lenguaje grandes (LLM) a la visión artificial a través del innovador Optimizador MuSGD, un híbrido inspirado en la investigación de IA de vanguardia. Junto con las funciones de pérdida ProgLoss + STAL, YOLO26 ofrece una precisión inigualable en objetos pequeños, lo cual es esencial para la detección detallada en vídeo de tráfico y la automatización robótica compleja.
Link to this sectionConclusión#
Elegir el modelo de visión adecuado depende de tus restricciones operativas específicas. YOLOv10 se erige como un hito importante en el ámbito académico, demostrando que NMS puede eliminarse eficazmente de la canalización de detección. Sin embargo, para obtener un equilibrio superior de rendimiento, una versatilidad integral de tareas y herramientas de implementación fluidas, YOLO11 ofrece una solución robusta y lista para la empresa.
Para los ingenieros que desean lo último en tecnología, combinando la simplicidad de extremo a extremo con un rendimiento increíblemente rápido en el edge, migrar al último YOLO26 es la recomendación definitiva. Al aprovechar la Plataforma de Ultralytics integral, te aseguras de que tus proyectos se construyan sobre una base bien mantenida, altamente eficiente y preparada para el futuro.