YOLOv10 против RT-DETRv2: техническое сравнение для обнаружения объектов
Выбор подходящей модели обнаружения объектов — это критически важное решение, которое уравновешивает точность, скорость и вычислительные затраты. На этой странице представлено подробное техническое сравнение двух современных моделей: YOLOv10, последней эволюции в высокоэффективном семействе YOLO, и RT-DETRv2, модели на основе трансформеров, ориентированной на высокую точность. Мы проанализируем их архитектуры, показатели производительности и идеальные варианты использования, чтобы помочь вам выбрать лучшую модель для вашего проекта, подчеркнув, почему YOLOv10 является превосходным выбором для большинства реальных приложений.
YOLOv10: Высокоэффективный детектор реального времени
YOLOv10 (You Only Look Once v10) — это последняя эволюция в семействе YOLO, разработанная исследователями из Университета Цинхуа. Она известна своей исключительной скоростью и эффективностью в обнаружении объектов, что делает ее лучшим выбором для приложений реального времени.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация: Университет Цинхуа
- Дата: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Документация: https://docs.ultralytics.com/models/yolov10/
Архитектура и ключевые особенности
YOLOv10 опирается на наследие предыдущих моделей Ultralytics YOLO, таких как YOLOv8, внедряя значительные архитектурные инновации для сквозной эффективности. Отличительной особенностью является обучение без NMS, в котором используются согласованные двойные назначения для устранения необходимости в постобработке Non-Maximum Suppression (NMS). Эта инновация снижает задержку при выводе и упрощает конвейер развертывания.
Модель также отличается целостным подходом к проектированию, ориентированным на эффективность и точность, оптимизируя такие компоненты, как облегченная классификационная головка и пространственно-канальное раздельное понижение дискретизации. Это снижает вычислительную избыточность и повышает возможности модели, сохраняя при этом anchor-free дизайн для улучшения обобщения.
Ключевым моментом является то, что YOLOv10 легко интегрируется в экосистему Ultralytics. Это предоставляет разработчикам оптимизированный пользовательский опыт, простой Python API, обширную документацию и надежное сообщество. Эта экосистема упрощает все, от обучения до развертывания.
Анализ производительности
YOLOv10 устанавливает новый эталон компромисса между скоростью и точностью. Как показано в таблице производительности, модели YOLOv10 стабильно превосходят RT-DETRv2 по скорости, предлагая сопоставимую или превосходящую точность со значительно меньшим количеством параметров и FLOPs. Например, YOLOv10-S достигает 46,7% mAP, имея всего 7,2 млн параметров и молниеносную задержку в 2,66 мс, что делает его гораздо более эффективным, чем более крупный RT-DETRv2-S. Даже самая большая модель, YOLOv10-X, достигает наивысшего mAP в 54,4%, будучи при этом быстрее и легче, чем RT-DETRv2-X.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Сильные и слабые стороны
Преимущества:
- Исключительная скорость и эффективность: Оптимизирована для быстрого вывода и низких вычислительных затрат, что крайне важно для систем реального времени и периферийного искусственного интеллекта (edge AI).
- Превосходный баланс производительности: Достигает отличного компромисса между скоростью и точностью во всех масштабируемых размерах моделей (n, s, m, b, l, x).
- Меньшие требования к памяти: Требует значительно меньше памяти CUDA во время обучения и инференса по сравнению с моделями на основе трансформеров, такими как RT-DETRv2, что делает его более доступным.
- Простота использования: Преимущества хорошо поддерживаемой экосистемы Ultralytics, включая простой API, обширную документацию, легкодоступные предварительно обученные веса и эффективные процессы обучения.
- Дизайн без NMS: Обеспечивает сквозное развертывание и снижает задержку при выводе.
Слабые стороны:
- Компромисс в точности (для небольших моделей): Самые маленькие варианты YOLOv10 приоритезируют скорость и могут иметь более низкую точность, чем самые большие модели RT-DETRv2, хотя они остаются весьма конкурентоспособными для своего размера.
Идеальные варианты использования
Благодаря своей скорости и эффективности, YOLOv10 является отличным выбором для широкого спектра приложений:
- Наблюдение в реальном времени: Для быстрой детекции объектов в системах безопасности, например, в предотвращении краж.
- Edge AI: Идеально подходит для развертывания на мобильных, встроенных и IoT устройствах, таких как NVIDIA Jetson.
- Аналитика розничной торговли: Для анализа клиентов и запасов в реальном времени в розничной торговле.
- Управление трафиком: Для эффективного обнаружения транспортных средств и анализа трафика.
RT-DETRv2: высокоточная детекция на основе трансформеров
RT-DETRv2 (Real-Time Detection Transformer v2) — это продвинутая модель обнаружения объектов от Baidu, которая уделяет приоритетное внимание высокой точности, используя архитектуру transformer.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
- Организация: Baidu
- Дата: 24.07.2024 (статья v2)
- Arxiv: https://arxiv.org/abs/2407.17140
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Документация: https://docs.ultralytics.com/models/rtdetr/
Архитектура и ключевые особенности
RT-DETRv2 основан на фреймворке DETR (DEtection TRansformer), который использует механизмы само-внимания для захвата глобального контекста внутри изображения. Это позволяет модели превосходно понимать сложные сцены со множеством перекрывающихся объектов, что способствует ее высокой точности. Ядром его архитектуры является Vision Transformer (ViT), который обрабатывает изображения как последовательность патчей, что позволяет эффективно моделировать зависимости на больших расстояниях.
Анализ производительности
Хотя RT-DETRv2 достигает впечатляющих пиковых показателей mAP, это достигается за счет значительных затрат. Таблица производительности показывает, что для всех сопоставимых размеров модели RT-DETRv2 работают медленнее и требуют больше вычислительных ресурсов, чем их аналоги YOLOv10. Например, RT-DETRv2-x имеет задержку 15,03 мс, что медленнее, чем 12,2 мс у YOLOv10-x, несмотря на немного более низкий показатель mAP. Кроме того, известно, что модели на основе трансформеров требуют значительно больше памяти CUDA для обучения, что делает их менее доступными для пользователей с ограниченными аппаратными ресурсами.
Сильные и слабые стороны
Преимущества:
- Высокая пиковая точность: Архитектура трансформера позволяет достигать очень высоких показателей mAP, что делает ее подходящей для задач, где точность является абсолютным приоритетом.
- Уверенное контекстное понимание: Отлично обнаруживает объекты в загроможденных и сложных сценах благодаря своей способности обрабатывать глобальную информацию об изображении.
Слабые стороны:
- Более высокая задержка: Более низкая скорость инференса по сравнению с YOLOv10 делает ее менее подходящей для приложений реального времени.
- Высокие вычислительные затраты: Требуется больше параметров и FLOPs, что приводит к более высоким требованиям к аппаратному обеспечению.
- Большой объем памяти: Обучение моделей-трансформеров требует большого объема памяти, часто требуя высокопроизводительные GPU.
- Сложная архитектура: Может быть сложнее для понимания, модификации и оптимизации по сравнению с простой конструкцией моделей YOLO.
Идеальные варианты использования
RT-DETRv2 лучше всего подходит для специализированных приложений, не работающих в реальном времени, где точность имеет первостепенное значение, а вычислительные ресурсы не являются серьезным ограничением.
- Автономное вождение: Для точного восприятия окружающей среды в ИИ в автомобилях с автоматическим управлением.
- Робототехника высокого уровня: Для обеспечения точного взаимодействия объектов в сложных промышленных средах, расширения возможностей роли ИИ в робототехнике.
- Медицинская визуализация: Для детального анализа и обнаружения аномалий в ИИ в здравоохранении.
- Изображения высокого разрешения: Для анализа спутниковых или аэрофотоснимков, аналогично использованию компьютерного зрения для анализа спутниковых снимков.
Заключение
YOLOv10 и RT-DETRv2 — это мощные модели, но они отвечают разным приоритетам. RT-DETRv2 — это выбор для приложений, требующих абсолютно высочайшей точности, при условии наличия достаточных вычислительных ресурсов. Его архитектура Transformer превосходно справляется с захватом сложного контекста сцены, но за счет более высокой сложности, задержки и использования памяти.
В отличие от них, YOLOv10 предлагает гораздо лучшее сочетание скорости, эффективности и точности, что делает его рекомендуемым выбором для подавляющего большинства разработчиков и исследователей. Он превосходен в производительности в реальном времени, требует меньше вычислительных ресурсов и выигрывает от простоты использования, обширной поддержки и эффективных рабочих процессов, предоставляемых экосистемой Ultralytics. Для большинства реальных приложений, особенно тех, которые включают развертывание на периферии или требуют низкой задержки, YOLOv10 предоставляет высококонкурентное, практичное и удобное для разработчиков решение.
Пользователям, заинтересованным в других высокопроизводительных моделях обнаружения объектов, также стоит рассмотреть возможность изучения Ultralytics YOLO11 для ознакомления с последними достижениями или YOLOv8 как широко используемый и универсальный вариант. Для получения дополнительных сравнений см. наши статьи о YOLOv10 vs. YOLOv8 и RT-DETR vs. YOLO11.