YOLOv10 YOLOX: un análisis en profundidad de las arquitecturas de detección de objetos en tiempo real
En el panorama en rápida evolución de la visión artificial, el cambio hacia arquitecturas sin anclajes marcó un punto de inflexión significativo. YOLOv10 y YOLOX representan dos momentos cruciales en esta evolución. YOLOX, lanzado en 2021, popularizó el paradigma sin anclajes al desacoplar los cabezales de detección e introducir estrategias avanzadas de asignación de etiquetas. Tres años más tarde, YOLOv10 aún más lejos al introducir un diseño nativo NMS, eliminando por completo la necesidad del posprocesamiento de supresión no máxima.
Esta comparación explora las diferencias arquitectónicas, las métricas de rendimiento y los escenarios de implementación ideales para ambos modelos, al tiempo que destaca cómo soluciones modernas como YOLO26 integran estos avances en un ecosistema de IA integral.
Comparación de métricas de rendimiento
A la hora de seleccionar un modelo para la producción, es fundamental comprender la relación entre la velocidad de inferencia y la precisión de la detección. La tabla siguiente ofrece una visión detallada de cómo se comparan estas dos familias en diferentes escalas de modelos.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Como se muestra, YOLOv10 generalmente alcanza una precisión media (mAP) más alta para latencias de inferencia similares en GPU . Por ejemplo, el modelo YOLOv10m alcanza un 51,3 % mAP en comparación con el 46,9 % de YOLOX-m, mientras que mantiene un perfil de latencia similar. Esta ganancia de eficiencia se atribuye en gran medida a la eliminación de NMS, lo que reduce la sobrecarga computacional durante la etapa de posprocesamiento.
YOLOv10: El Innovador de Extremo a Extremo
YOLOv10 un cambio arquitectónico importante al abordar uno de los cuellos de botella más antiguos en la detección en tiempo real: la supresión no máxima (NMS). Los detectores tradicionales predicen múltiples cuadros delimitadores para el mismo objeto y se basan en NMS filtrar los duplicados. YOLOv10 este paso mediante una estrategia de asignación dual coherente durante el entrenamiento.
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización:Universidad de Tsinghua
- Fecha: 23 de mayo de 2024
- Artículo:arXiv:2405.14458
- Fuente:Repositorio de GitHub
Características arquitectónicas clave
YOLOv10 el «diseño de modelos holístico basado en la eficiencia y la precisión». Esto implica optimizar componentes individuales, como las capas de submuestreo y el cabezal de predicción, para minimizar la redundancia computacional. El modelo emplea asignaciones de etiquetas duales: una asignación de uno a muchos para una supervisión rica durante el entrenamiento y una asignación de uno a uno para la inferencia, lo que permite al modelo predecir un único cuadro óptimo por objeto, lo que hace que NMS .
Esta arquitectura resulta especialmente beneficiosa para la implementación periférica, donde la variabilidad de la latencia causada por NMS que depende del número de objetos detectados) puede ser problemática.
YOLOX: El pionero sin anclajes
YOLOX fue uno de los primeros modelos de alto rendimiento en incorporar con éxito la detección sin anclajes a la YOLO , alejándose del enfoque basado en anclajes de YOLOv3 y YOLOv4. Al eliminar los cuadros de anclaje predefinidos, YOLOX simplificó el proceso de entrenamiento y mejoró la generalización en objetos de formas variadas.
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
- Organización:Megvii
- Fecha: 18 de julio de 2021
- Artículo:arXiv:2107.08430
- Fuente:Repositorio de GitHub
Características arquitectónicas clave
YOLOX cuenta con un cabezal desacoplado, que separa las tareas de clasificación y regresión en diferentes ramas. Se ha demostrado que este diseño converge más rápidamente y alcanza una mayor precisión. También ha introducido SimOTA, una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas basándose en una función de coste, lo que garantiza un equilibrio entre la calidad de la clasificación y la regresión.
Aunque es muy eficaz, YOLOX sigue dependiendo del NMS , lo que significa que su tiempo de inferencia puede fluctuar en escenas con alta densidad de objetos, a diferencia de la latencia constante de YOLOv10.
La ventaja de Ultralytics
Aunque ambos modelos tienen sus ventajas, el Ultralytics ofrece una interfaz unificada que simplifica significativamente el ciclo de vida del desarrollo en comparación con los repositorios independientes. Tanto si utiliza YOLOv10 la última versión YOLO26, la experiencia es optimizada.
Facilidad de uso y versatilidad
Los desarrolladores pueden cambiar entre modelos con una sola línea de código. A diferencia del código base de YOLOX, que requiere archivos de configuración específicos y pasos de configuración, Ultralytics son «plug-and-play». Además, Ultralytics una gama más amplia de tareas de visión artificial, incluyendo segmentación de instancias, estimación de poses y detección de objetos orientados (OBB), lo que ofrece una versatilidad de la que carece YOLOX.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Eficiencia del entrenamiento y memoria
Ultralytics están diseñados para un uso óptimo de los recursos. Por lo general, requieren menos CUDA durante el entrenamiento en comparación con arquitecturas que hacen un uso intensivo de transformadores, como RT-DETR o bases de código más antiguas. Esto permite a los investigadores entrenar en GPU de consumo, democratizando el acceso al desarrollo de IA de alta gama. La Ultralytics mejora aún más esto al proporcionar entrenamiento basado en la nube, gestión de conjuntos de datos y exportación de modelos con un solo clic.
Actualizaciones sin interrupciones
El cambio de una arquitectura antigua a una moderna como YOLO26 suele producir mejoras inmediatas en el rendimiento sin necesidad de refactorizar el código. Ultralytics una API coherente entre generaciones, lo que garantiza que se preserve su inversión en la integración del código.
¿Por qué elegir YOLO26?
Para los desarrolladores que buscan el mejor equilibrio posible entre velocidad, precisión y funciones modernas, YOLO26 es la opción recomendada. Lanzado a principios de 2026, se basa en las innovaciones NMS de YOLOv10 las perfecciona para ofrecer una estabilidad y velocidad superiores.
- Nativamente de extremo a extremo: al igual que YOLOv10, YOLO26 NMS utiliza NMS, lo que garantiza una latencia determinista.
- Optimizador MuSGD: inspirado en el entrenamiento LLM (concretamente en Kimi K2 de Moonshot AI), este optimizador híbrido garantiza una convergencia más rápida y una mayor estabilidad en el entrenamiento.
- Optimización de bordes: con la eliminación de la pérdida focal de distribución (DFL) y las funciones de pérdida optimizadas (ProgLoss + STAL), YOLO26 ofrece CPU hasta un 43 % más rápida, lo que lo hace ideal para dispositivos sin GPU dedicadas.
Aplicaciones en el mundo real
La elección entre estos modelos a menudo depende de las limitaciones específicas de su proyecto.
Recuento de multitudes de alta densidad
En escenarios como la vigilancia de ciudades inteligentes, es habitual detectar a cientos de personas en un fotograma.
- YOLOX: Puede sufrir picos de latencia porque el tiempo NMS aumenta linealmente con el número de cajas detectadas.
- YOLOv10 YOLO26: Su diseño NMS garantiza que el tiempo de inferencia se mantenga estable independientemente de la densidad de la multitud, lo cual es fundamental para las transmisiones de vídeo en tiempo real.
Robótica móvil e integrada
Para los robots que se desplazan por entornos dinámicos, cada milisegundo cuenta.
- YOLOX-Nano: un competidor potente y ligero, pero con una arquitectura que se está quedando obsoleta.
- YOLO26n: Ofrece una precisión superior con un número de parámetros similar o inferior y se beneficia de la eliminación de DFL, lo que lo hace significativamente más rápido en CPU que se encuentran en dispositivos como Raspberry Pi o Jetson Nano.
Inspección industrial
La detección de defectos en las líneas de montaje requiere una alta precisión.
- YOLOX: Su cabezal desacoplado proporciona una excelente precisión de localización, lo que lo convierte en una base de referencia fiable para la investigación.
- Ultralytics : La capacidad de cambiar fácilmente a tareas de segmentación permite que el mismo sistema no solo detect defecto, sino que mida su área exacta, proporcionando datos más completos para el control de calidad.
Conclusión
YOLOX sigue siendo una referencia respetable en la comunidad académica, reconocida por popularizar la detección sin anclajes. YOLOv10 ha logrado mejorar este legado al eliminar NMS, ofreciendo una visión del futuro de los sistemas en tiempo real de extremo a extremo.
Sin embargo, para las implementaciones de producción actuales, el Ultralytics ofrece una ventaja inigualable. Al estandarizar los flujos de trabajo de formación, validación e implementación, permite a los desarrolladores aprovechar el rendimiento de vanguardia de YOLO26, que combina las ventajas NMS de YOLOv10 CPU y una estabilidad de entrenamiento superiores, sin la complejidad de gestionar bases de código dispares.
Para obtener más información, consulte la documentación de YOLO11 o profundizar en las métricas de rendimiento para comprender mejor cómo evaluar estos modelos en su propio hardware.