Ir al contenido

Comparaciones de modelos: elija el mejor modelo de detección de objetos para su proyecto

Elegir el modelo de detección de objetos adecuado es crucial para el éxito de su proyecto de visión artificial. ¡Bienvenido al centro de comparación de modelos de Ultralytics! Esta página centraliza comparaciones técnicas detalladas entre modelos de detección de objetos de última generación, centrándose en las últimas versiones de Ultralytics YOLO junto con otras arquitecturas líderes como RTDETR, EfficientDet y más.

Nuestro objetivo es proporcionarle la información necesaria para seleccionar el modelo óptimo según sus requisitos específicos, ya sea que priorice la máxima precisión, la velocidad de inferencia en tiempo real, la eficiencia computacional o un equilibrio entre ellas. Buscamos ofrecer claridad sobre el rendimiento de cada modelo y dónde residen sus puntos fuertes, ayudándole a navegar por el complejo panorama de la detección de objetos.

Obtén una visión general rápida del rendimiento del modelo con nuestro gráfico de referencia interactivo:

Este gráfico visualiza las principales métricas de rendimiento como mAP (precisión media promedio) frente a la latencia de inferencia, lo que le ayuda a evaluar rápidamente las ventajas y desventajas entre diferentes modelos que a menudo se comparan en conjuntos de datos estándar como COCO. Comprender estas ventajas y desventajas es fundamental para seleccionar un modelo que no solo cumpla con los criterios de rendimiento, sino que también se ajuste a las limitaciones de implementación.

Profundice con nuestras páginas de comparación específicas. Cada análisis cubre:

  • Diferencias arquitectónicas: Comprenda los principios de diseño centrales, como el backbone y los heads de detección, y las innovaciones. Esto incluye examinar cómo los diferentes modelos abordan la extracción y predicción de características.
  • Benchmarks de rendimiento: Compare métricas como la precisión (mAP), la velocidad (FPS, latencia) y el recuento de parámetros utilizando herramientas como el modo Benchmark de Ultralytics. Estos benchmarks proporcionan datos cuantitativos para respaldar su proceso de toma de decisiones.
  • Fortalezas y debilidades: Identifique dónde destaca cada modelo y cuáles son sus limitaciones basándose en información de evaluación. Esta evaluación cualitativa ayuda a comprender las implicaciones prácticas de elegir un modelo en lugar de otro.
  • Casos de uso ideales: Determine para qué escenarios es más adecuado cada modelo, desde dispositivos edge AI hasta plataformas en la nube. Explore varias Soluciones Ultralytics para inspirarse. Alinear las capacidades del modelo con las demandas específicas de su proyecto garantiza resultados óptimos.

Este desglose detallado le ayuda a sopesar los pros y los contras para encontrar el modelo que se adapte perfectamente a las necesidades de su proyecto, ya sea para la implementación en dispositivos edge, la implementación en la nube o la investigación utilizando frameworks como PyTorch. La elección del modelo puede afectar significativamente la eficiencia y la eficacia de su aplicación de visión artificial.



Ver: Comparación de modelos YOLO: Ultralytics YOLO11 vs. YOLOv10 vs. YOLOv9 vs. Ultralytics YOLOv8 🎉

Navegue directamente a la comparación que necesita utilizando las listas a continuación. Las hemos organizado por modelo para facilitar el acceso:

YOLO11 vs

YOLO11, la última iteración de Ultralytics, se basa en el éxito de sus predecesores al incorporar investigaciones de vanguardia y comentarios de la comunidad. Presenta mejoras como una arquitectura de backbone y cuello de botella mejorada para una mejor extracción de características, eficiencia optimizada para un procesamiento más rápido y mayor precisión con menos parámetros. YOLO11 admite una amplia gama de tareas de visión artificial, incluyendo la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de objetos orientados, lo que lo hace altamente adaptable en diversos entornos.

YOLOv10 vs

YOLOv10, desarrollada por investigadores de la Universidad de Tsinghua utilizando el paquete de python Ultralytics, introduce un enfoque innovador para la detección de objetos en tiempo real al eliminar la supresión no máxima (NMS) y optimizar la arquitectura del modelo. Esto da como resultado un rendimiento de última generación con una sobrecarga computacional reducida y mejores compensaciones entre precisión y latencia. Las características clave incluyen el entrenamiento sin NMS para reducir la latencia, la extracción de características mejorada con convoluciones de kernel grande y variantes de modelo versátiles para diferentes necesidades de aplicación.

YOLOv9 vs

YOLOv9 introduce la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN) para abordar la pérdida de información en las redes neuronales profundas. Desarrollado por un equipo de código abierto independiente que aprovecha la base de código YOLOv5 de Ultralytics, YOLOv9 muestra mejoras significativas en eficiencia, precisión y adaptabilidad, especialmente para modelos ligeros. PGI ayuda a mantener los datos esenciales a través de las capas, mientras que GELAN optimiza el uso de parámetros y la eficiencia computacional.

YOLOv8 vs

Ultralytics YOLOv8 se basa en los éxitos de las versiones anteriores de YOLO, ofreciendo un rendimiento, flexibilidad y eficiencia mejorados. Cuenta con arquitecturas avanzadas de backbone y cuello, un encabezado Ultralytics dividido sin anclaje para una mejor precisión y una compensación optimizada entre precisión y velocidad, adecuada para diversas tareas de detección de objetos en tiempo real. YOLOv8 admite una variedad de tareas de visión artificial, incluyendo la detección de objetos, la segmentación de instancias, la detección de pose/puntos clave, la detección de objetos orientados y la clasificación.

YOLOv7 vs

YOLOv7 es reconocido por su alta velocidad y precisión, superando a muchos detectores de objetos en el momento de su lanzamiento. Introdujo características como la re-parametrización del modelo, la asignación dinámica de etiquetas y métodos de escalado extendidos y compuestos para utilizar eficazmente los parámetros y la computación. YOLOv7 se centra en la optimización del proceso de entrenamiento, incorporando "trainable bag-of-freebies" para mejorar la precisión sin aumentar los costes de inferencia.

YOLOv6 vs

YOLOv6 de Meituan es un detector de objetos diseñado para aplicaciones industriales, que ofrece un equilibrio entre velocidad y precisión. Presenta mejoras como un módulo de concatenación bidireccional (BiC), una estrategia de entrenamiento asistido por anclaje (AAT) y un diseño mejorado de backbone y cuello de botella. YOLOv6-3.0 refina aún más esto con un backbone de reparametrización eficiente y bloques híbridos para una representación robusta de las características.

YOLOv5 vs

Ultralytics YOLOv5 es conocido por su facilidad de uso, velocidad y precisión, construido sobre el framework de PyTorch. La variante YOLOv5u integra un encabezado dividido sin anclaje y sin objetividad (de YOLOv8) para una mejor compensación entre precisión y velocidad. YOLOv5 admite varios trucos de entrenamiento, múltiples formatos de exportación y es adecuado para una amplia gama de tareas de detección de objetos, segmentación de instancias y clasificación de imágenes.

PP-YOLOE+ vs

PP-YOLOE+, desarrollado por Baidu, es un detector de objetos anchor-free mejorado que se centra en la eficiencia y la facilidad de uso. Cuenta con un backbone basado en ResNet, un cuello de red de agregación de rutas (PAN) y un head desacoplado. PP-YOLOE+ incorpora la pérdida de Task Alignment Learning (TAL) para mejorar la alineación entre las puntuaciones de clasificación y la precisión de la localización, con el objetivo de lograr un fuerte equilibrio entre mAP y la velocidad de inferencia.

DAMO-YOLO vs

DAMO-YOLO, de Alibaba Group, es un modelo de detección de objetos de alto rendimiento que se centra en la precisión y la eficiencia. Utiliza una arquitectura sin anclajes, backbones de Búsqueda de Arquitectura Neuronal (NAS) (MAE-NAS), una Red de Pirámide de Características de Gradiente Reparametrizada (RepGFPN) eficiente, un ZeroHead ligero y una Asignación de Transporte Óptimo Alineado (AlignedOTA) para la asignación de etiquetas. DAMO-YOLO tiene como objetivo proporcionar un equilibrio sólido entre mAP y la velocidad de inferencia, especialmente con la aceleración de TensorRT.

YOLOX vs

YOLOX, desarrollado por Megvii, es una evolución sin anclajes de la serie YOLO que busca un diseño simplificado y un rendimiento mejorado. Las características clave incluyen un enfoque sin anclajes, un encabezado desacoplado para tareas separadas de clasificación y regresión, y la asignación de etiquetas SimOTA. YOLOX también incorpora estrategias sólidas de aumento de datos como Mosaic y MixUp. Ofrece un buen equilibrio entre precisión y velocidad con varios tamaños de modelo disponibles.

RT-DETR vs

RT-DETR (Real-Time Detection Transformer), de Baidu, es un detector de objetos de extremo a extremo que utiliza una arquitectura basada en Transformer para lograr una alta precisión con un rendimiento en tiempo real. Presenta un codificador híbrido eficiente que desacopla la interacción intraescala y la fusión inter escala de características multiescala, y la selección de consultas basada en IoU para mejorar la inicialización de consultas de objetos. RT-DETR ofrece un ajuste flexible de la velocidad de inferencia utilizando diferentes capas de decodificador sin necesidad de volver a entrenar.

EfficientDet vs

EfficientDet, de Google Brain, es una familia de modelos de detección de objetos diseñados para una eficiencia óptima, logrando una alta precisión con menos parámetros y un menor costo computacional. Sus innovaciones principales incluyen el uso de la red troncal EfficientNet, una red de pirámide de características bidireccional ponderada (BiFPN) para una fusión rápida de características multi-escala, y un método de escalamiento compuesto que escala uniformemente la resolución, la profundidad y el ancho. Los modelos EfficientDet (D0-D7) ofrecen un espectro de equilibrios entre precisión y eficiencia.

Este índice se actualiza continuamente a medida que se lanzan nuevos modelos y se hacen comparaciones disponibles. Te animamos a explorar estos recursos para obtener una comprensión más profunda de las capacidades de cada modelo y encontrar el ajuste perfecto para tu próximo proyecto de visión artificial. Seleccionar el modelo apropiado es un paso crítico para construir soluciones de IA robustas y eficientes. También te invitamos a participar con la comunidad de Ultralytics para obtener más debates, soporte e información sobre el mundo en evolución de la detección de objetos. ¡Felices comparaciones!



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios