YOLO YOLOv10: navegando por la evolución de la detección de objetos en tiempo real
El panorama de la detección de objetos en tiempo real ha evolucionado rápidamente, impulsado por la búsqueda incesante de una menor latencia y una mayor precisión. Dos hitos importantes en este viaje son YOLO, desarrollado por Alibaba Group, y YOLOv10, creado por investigadores de la Universidad de Tsinghua. Mientras queYOLO técnicas avanzadas de búsqueda de arquitectura neuronal (NAS) en este campo, YOLOv10 el proceso de implementación al eliminar la supresión no máxima (NMS). Esta comparación exhaustiva analiza sus arquitecturas técnicas, métricas de rendimiento y por qué los últimos Ultralytics , como YOLO26, representan la cúspide de estos avances para entornos de producción.
Comparación de métricas de rendimiento
La siguiente tabla ofrece una comparación directa de los indicadores clave de rendimiento. Obsérvese la diferencia en las velocidades de inferencia, especialmente cuando los diseños NMS contribuyen a reducir la latencia.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLO: Arquitectura y metodología
YOLO fue propuesto en noviembre de 2022 por investigadores del Grupo Alibaba. Su objetivo era ampliar los límites del rendimiento mediante la integración de tecnologías de vanguardia en un marco detector cohesionado.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
- Organización: Alibaba Group
- Fecha: 2022-11-23
- Artículo:arXiv:2211.15444
- GitHub:tinyvision/DAMO-YOLO
Características arquitectónicas clave
YOLO distingue por su uso de la búsqueda de arquitectura neuronal (NAS). A diferencia de los modelos con estructuras base diseñadas manualmente,YOLO la búsqueda NAS eficiente y consciente del método (MAE-NAS) para descubrir estructuras de red óptimas bajo restricciones específicas. Esto da como resultado una estructura base altamente eficiente para el hardware específico al que estaba destinada.
Además, incorpora una eficiente RepGFPN (Red Piramidal de Características Generalizadas Reparametrizadas) para la fusión de características y un cabezal ligero conocido como «ZeroHead». Un componente fundamental de su estrategia de entrenamiento es AlignedOTA, un mecanismo dinámico de asignación de etiquetas que resuelve la mejora de la alineación entre las tareas de clasificación y regresión. Sin embargo, para alcanzar el máximo rendimiento conYOLO se requiere un complejo proceso de destilación, lo que exige un modelo maestro pesado durante el entrenamiento, lo que puede aumentar significativamente la carga computacional en comparación con los enfoques «bag-of-freebies» utilizados en YOLOv8.
Complejidad del Entrenamiento
Aunque potente, el proceso de entrenamiento deYOLO requerir muchos recursos. La fase de destilación a menudo requiere entrenar primero un modelo maestro más grande, lo que complica el flujo de trabajo para los desarrolladores que necesitan iteraciones rápidas en conjuntos de datos personalizados.
YOLOv10: el avance revolucionario de extremo a extremo
Publicado en mayo de 2024 por la Universidad de Tsinghua, YOLOv10 supuso un cambio de paradigma al abordar uno de los cuellos de botella más antiguos en la detección de objetos: la supresión no máxima (NMS).
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 2024-05-23
- Artículo:arXiv:2405.14458
- GitHub:THU-MIG/yolov10
Innovaciones Arquitectónicas
La característica definitoria de YOLOv10 su diseño integral NMS. Los detectores tradicionales generan cuadros delimitadores redundantes que deben filtrarse mediante NMS, un paso de posprocesamiento que introduce latencia y complica la implementación. YOLOv10 asignaciones duales consistentes durante el entrenamiento, utilizando tanto la correspondencia uno a muchos (para una supervisión rica) como la correspondencia uno a uno (para la inferencia de extremo a extremo). Esto permite al modelo predecir directamente un único cuadro óptimo por objeto, eliminando la necesidad de NMS .
Además, YOLOv10 un diseño de modelo holístico basado en la eficiencia y la precisión. Esto incluye cabezales de clasificación ligeros, submuestreo desacoplado de canales espaciales y diseño de bloques guiado por rango, lo que da como resultado un modelo más pequeño y rápido que sus predecesores, como YOLOv9 , pero que mantiene una precisión competitiva.
La Ventaja Ultralytics: ¿Por qué elegir YOLO26?
Si bienYOLO YOLOv10 importantes contribuciones académicas, el Ultralytics tiende un puente entre la investigación de vanguardia y el software de producción práctico y fiable. El recién lanzado YOLO26 se basa en el avance NMS de YOLOv10 lo integra en un marco robusto y de nivel empresarial.
Rendimiento y eficiencia superiores
YOLO26 es la opción recomendada para nuevos proyectos, ya que ofrece ventajas claras sobre YOLOv10 YOLO YOLOv10 pura:
- NMS de extremo a extremo: al igual que YOLOv10, YOLO26 es nativamente de extremo a extremo. Elimina NMS , lo que simplifica los procesos de implementación y reduce significativamente la variabilidad de la latencia.
- Mayor estabilidad en el entrenamiento: YOLO26 utiliza el optimizador MuSGD, un híbrido de SGD Muon inspirado en el entrenamiento de modelos de lenguaje grandes (LLM). Esta innovación garantiza una convergencia más rápida y una mayor estabilidad durante el entrenamiento, lo que reduce la GPU necesaria en comparación con las arquitecturas que utilizan transformadores pesados.
- Optimización de borde: al eliminar la pérdida focal de distribución (DFL), YOLO26 optimiza la capa de salida, lo que la hace hasta un 43 % más rápida en CPU . Esto es fundamental para los dispositivos de borde en los que no se dispone de GPU .
YOLO26 Avances tecnológicos
YOLO26 no es solo una versión mejorada, sino una actualización integral.
- ProgLoss + STAL: Funciones de pérdida mejoradas que aumentan drásticamente el reconocimiento de objetos pequeños, crucial para las imágenes de drones y la robótica.
- Versatilidad: a diferencia deYOLO, que es principalmente un detector, YOLO26 admite la estimación de poses, la segmentación, la clasificación y OBB.
Facilidad de uso y ecosistema
Uno de los principales retos de los repositorios de investigación comoYOLO la complejidad de su configuración y mantenimiento. Ultralytics este problema con una Python unificada. Tanto si utiliza YOLO11, YOLOv10 o YOLO26, el flujo de trabajo sigue siendo coherente y sencillo.
La Ultralytics (antes HUB) acelera aún más el desarrollo al proporcionar herramientas para la gestión de conjuntos de datos, la anotación automatizada y la exportación con un solo clic a formatos como TensorRT, ONNX y CoreML.
Casos de Uso Ideales
La selección del modelo adecuado depende de sus limitaciones específicas:
- ElijaYOLO : está realizando investigaciones sobre la búsqueda de arquitectura neuronal (NAS) o necesita una estructura troncal especializada para restricciones de hardware únicas en las que las estructuras troncales CSP/ELAN estándar son insuficientes.
- Elija YOLOv10 : necesita un detector específico NMS para realizar comparativas académicas o tiene un requisito heredado para la arquitectura específica propuesta en el artículo original de Tsinghua.
- Elija Ultralytics si: Necesita una solución de vanguardia lista para la producción. Su diseñoNMS, combinado con la estabilidad de entrenamiento MuSGD y CPU optimizadas, lo convierten en el mejor todoterreno. Es especialmente superior para aplicaciones en tiempo real en fabricación, análisis minorista y sistemas autónomos, donde la facilidad de implementación y el soporte a largo plazo son fundamentales.
Ejemplo de código: Ejecución de YOLOv10 YOLO26
Ultralytics que sea increíblemente fácil cambiar entre estas arquitecturas. Dado que YOLOv10 compatible con el Ultralytics , puede probar ambos modelos con cambios mínimos en el código.
Ejecutando YOLOv10
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Formación YOLO26
Para aprovechar los últimos avances en YOLO26, como el optimizador MuSGD y ProgLoss, el entrenamiento con un conjunto de datos personalizado es muy sencillo:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset using the new optimizer settings (auto-configured)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for simplified edge deployment
model.export(format="onnx")
Conclusión
TantoYOLO YOLOv10 impulsado el avance en este campo:YOLO un NAS eficiente y YOLOv10 la eliminación visionaria de NMS. Sin embargo, para los desarrolladores que buscan crear aplicaciones robustas y preparadas para el futuro en 2026, Ultralytics ofrece una ventaja definitiva. Al combinar la arquitectura NMS de YOLOv10 una dinámica de entrenamiento superior, CPU más rápida y el incomparable soporte del Ultralytics , YOLO26 se erige como la mejor opción para los profesionales de la visión artificial.
Para aquellos interesados en explorar generaciones estables anteriores, YOLO11 sigue siendo una alternativa totalmente compatible y muy capaz.