YOLOv7 vs. YOLO: comparación técnica detallada
La selección de la arquitectura de detección de objetos óptima es una decisión fundamental en el desarrollo de la visión por ordenador, ya que equilibra las demandas contrapuestas de latencia de inferencia, precisión y asignación de recursos informáticos. Este análisis técnico contrasta YOLOv7 y YOLO, dos influyentes modelos lanzados a finales de 2022 que ampliaron los límites de la detección en tiempo real. Examinamos sus innovaciones arquitectónicas únicas, su rendimiento de referencia y su idoneidad para diversos escenarios de despliegue para ayudarle a navegar por su proceso de selección.
YOLOv7: optimizar el entrenamiento para una precisión en tiempo real
YOLOv7 marcó una evolución significativa en la familia YOLO , priorizando la eficiencia arquitectónica y las estrategias de entrenamiento avanzadas para mejorar el rendimiento sin inflar los costes de inferencia. Desarrollado por los autores originales de Scaled-YOLOv4, introdujo métodos que permiten a la red aprender de forma más eficaz durante la fase de entrenamiento.
Autores: Chien-Yao Wang, Alexey Bochkovskiy, y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Innovaciones arquitectónicas
El núcleo de YOLOv7 cuenta con la Red de Agregación de Capas Eficiente Ampliada (E-ELAN). Esta arquitectura permite al modelo aprender diversas características controlando las trayectorias de gradiente más cortas y más largas, lo que mejora la convergencia sin interrumpir el flujo de gradiente existente. Además, YOLOv7 emplea "bag-of-freebies entrenables", un conjunto de técnicas de optimización aplicadas durante el procesamiento de los datos de entrenamiento que no afectan a la estructura del modelo durante su despliegue. Estas técnicas incluyen la re-parametrización del modelo y cabezas auxiliares para la supervisión profunda, asegurando que la columna vertebral captura características robustas.
Bolsa de regalos
El término "bag-of-freebies" se refiere a los métodos que aumentan la complejidad del entrenamiento para aumentar la precisión, pero que no suponen ningún coste durante la inferencia en tiempo real. Esta filosofía garantiza que el modelo final exportado siga siendo ligero.
Fortalezas y Debilidades
YOLOv7 es célebre por su excelente equilibrio en la prueba de referencia MS COCO, ya que ofrece una elevada precisión media (mAP ) para su tamaño. Su principal ventaja reside en las tareas de alta resolución, en las que la precisión es primordial. Sin embargo, la complejidad de la arquitectura puede dificultar su modificación para investigaciones personalizadas. Además, aunque la inferencia es eficiente, el proceso de entrenamiento consume muchos recursos y requiere una cantidad considerable de memoria de GPU en comparación con otras arquitecturas más modernas.
YOLO: arquitectura neuronal en busca del límite
YOLO, surgido del equipo de investigación de Alibaba, adopta un enfoque diferente al aprovechar la Búsqueda de Arquitectura Neuronal (NAS) para descubrir automáticamente estructuras de red eficientes adaptadas a entornos de baja latencia.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
Innovaciones arquitectónicas
YOLO presenta MAE-NAS, un método para generar una red troncal denominada GiraffeNet, que maximiza el rendimiento con limitaciones específicas de latencia. Como complemento está el ZeroHead, un cabezal de detección ligero que desacopla las tareas de clasificación y regresión al tiempo que elimina los parámetros pesados, lo que reduce significativamente el tamaño del modelo. La arquitectura también utiliza un cuello eficiente conocido como RepGFPN (Generalized Feature Pyramid Network) para la fusión de características multiescala y alinea las puntuaciones de clasificación con la precisión de localización utilizando AlignedOTA para la asignación de etiquetas.
Fortalezas y Debilidades
YOLO destaca en escenarios de inteligencia artificial periférica. Sus variantes más pequeñas (Tiny/Small) ofrecen velocidades impresionantes, lo que las hace adecuadas para dispositivos móviles y aplicaciones IoT. El uso de NAS garantiza que la arquitectura esté optimizada matemáticamente para la eficiencia. Por el contrario, los modelos YOLO de mayor tamaño a veces quedan por detrás de los modelos YOLOv7 de mayor nivel en cuanto a precisión pura. Además, al tratarse de un proyecto centrado en la investigación, carece del amplio ecosistema y el soporte de herramientas que se encuentran en marcos más amplios.
Más información sobre DAMO-YOLO
Comparación de métricas de rendimiento
En la tabla siguiente se destacan las compensaciones de rendimiento. YOLOv7 suele lograr una mayor precisiónmAP) a costa de una mayor complejidad computacional (FLOPs), mientras que YOLO prioriza la velocidad y la eficiencia de los parámetros, sobre todo en sus configuraciones más pequeñas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Aplicaciones en el mundo real
La elección entre estos modelos depende a menudo del hardware de despliegue y de las tareas específicas de visión por ordenador requeridas.
- Seguridad y análisis de alto nivel (YOLOv7): Para las aplicaciones que se ejecutan en servidores potentes donde cada punto porcentual de precisión importa, como los sistemas de alarma de seguridad o la gestión detallada del tráfico, YOLOv7 es un firme candidato. Su capacidad para resolver detalles finos lo hace adecuado para detectar objetos pequeños en secuencias de vídeo de alta resolución.
- Dispositivos periféricos y robótica (YOLO): La arquitectura ligera de YOLO brilla con luz propia en escenarios con presupuestos de latencia estrictos, como la robótica autónoma o las aplicaciones móviles. El bajo número de parámetros reduce la presión sobre el ancho de banda de la memoria, algo fundamental para los dispositivos alimentados por batería que detectan objetos.
La ventaja Ultralytics : ¿Por qué modernizar?
Aunque YOLOv7 y YOLO son modelos capaces, el panorama de la IA avanza rápidamente. Los desarrolladores e investigadores que busquen una solución eficiente, fácil de usar y preparada para el futuro deberían considerar el ecosistemaUltralytics , en concreto YOLO11. La actualización a los modelos modernos de Ultralytics ofrece varias ventajas claras:
1. Facilidad de uso
Los modelos de Ultralytics dan prioridad a la experiencia del desarrollador. A diferencia de los repositorios de investigación que a menudo requieren complejas configuraciones de entorno y la ejecución manual de secuencias de comandos, Ultralytics proporciona una APIPython unificada y CLI. Puede entrenar, validar y desplegar modelos con sólo unas pocas líneas de código.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. Versatilidad total
YOLOv7 y YOLO están diseñados principalmente para la detección de cajas delimitadoras. En cambio, YOLO11 admite una amplia gama de tareas de forma nativa dentro del mismo marco, como la segmentación de instancias, la estimación de poses, la detección de objetos orientados (OBB) y la clasificación de imágenes. Esto le permite abordar problemas complejos -como el análisis de la postura humana en el deporte- sincambiar de biblioteca.
3. Rendimiento y eficacia superiores
YOLO11 se basa en años de I+D para ofrecer una precisión de vanguardia con una sobrecarga computacional significativamente reducida. Emplea un cabezal de detección sin anclajes y operaciones de backend optimizadas, lo que se traduce en un menor uso de memoria durante el entrenamiento y la inferencia en comparación con versiones anteriores de YOLO o modelos basados en transformadores como RT-DETR. Esta eficiencia se traduce en menores costes de computación en la nube y un procesamiento más rápido en el hardware periférico.
4. Ecosistema y apoyo sólidos
La adopción de un modelo Ultralytics le conecta a un ecosistema próspero y bien mantenido. Con actualizaciones frecuentes, amplia documentación y canales activos de la comunidad, nunca tendrá que depurar código sin soporte. Además, la perfecta integración con herramientas como Ultralytics HUB facilita el despliegue del modelo y la gestión del conjunto de datos.
Conclusión
Tanto YOLOv7 como YOLO contribuyeron significativamente al campo de la detección de objetos en 2022. YOLOv7 demostró cómo las técnicas de optimización entrenables podían aumentar la precisión, mientras que YOLO exhibió el poder de la búsqueda de arquitecturas neuronales para crear modelos eficientes y preparados para los bordes.
Sin embargo, para los entornos de producción actuales, YOLO11 representa la cúspide de la tecnología de IA de visión. Al combinar la velocidad de YOLO, la precisión de YOLOv7 y la inigualable facilidad de uso del marco Ultralytics , YOLO11 ofrece una solución versátil que acelera los ciclos de desarrollo y mejora el rendimiento de las aplicaciones. Tanto si se trata de construir infraestructuras para ciudades inteligentes como de optimizar el control de calidad de la fabricación, los modelos de Ultralytics proporcionan la fiabilidad y eficiencia necesarias para el éxito.
Explorar Otros Modelos
Si le interesa explorar otras opciones en el panorama de la visión por ordenador, considere estos modelos:
- Ultralytics YOLOv8: El predecesor de YOLO11, conocido por su solidez y su amplia adopción en el sector.
- YOLOv10: Un detector en tiempo real centrado en la formación NMS para reducir la latencia.
- YOLOv9: Introduce información de gradiente programable (PGI) para reducir la pérdida de información en redes profundas.
- RT-DETR: Detector basado en transformadores que ofrece una gran precisión pero suele requerir más memoria GPU .
- YOLOv6: Otro modelo centrado en la eficiencia y optimizado para aplicaciones industriales.