YOLOv10 RTDETRv2: архитектуры и производительность в режиме реального времени
Выбор правильной архитектуры для обнаружения объектов — это очень важное решение для разработчиков, которые создают приложения для компьютерного зрения. В этом руководстве подробно описаны два разных подхода к обнаружению в реальном времени: YOLOv10, эволюция YOLO на основе CNN, которая представляет сквозные возможности, и RTDETRv2, модель на основе трансформатора, разработанная для того, чтобы бросить вызов доминированию CNN. Мы анализируем их архитектуры, тесты и пригодность для различных сценариев развертывания.
Обзор модели и истоки
Понимание происхождения этих моделей помогает прояснить философию их дизайна и предполагаемые варианты использования.
YOLOv10: CNN NMS
Выпущенная в мае 2024 года исследователями из Университета Цинхуа, YOLOv10 значительный сдвиг в YOLO . Она решает давнюю проблему детекторов реального времени: подавление не максимальных значений (NMS). Благодаря использованию последовательных двойных назначений для обучения NMS, YOLOv10 более низкой задержки и упрощает процессы развертывания по сравнению с предыдущими поколениями, такими как YOLOv9 YOLOv8.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация:Университет Цинхуа
- Дата: 2024-05-23
- Ссылки:Статья на Arxiv | Репозиторий GitHub
RTDETRv2: претендент Transformer
RT-DETR Real-Time Detection Transformer) была первой моделью на основе трансформатора, которая могла реально конкурировать со YOLO . RTDETRv2, разработанная Baidu, усовершенствует эту архитектуру с помощью подхода «Bag of Freebies», оптимизируя стратегию обучения и архитектуру для лучшей конвергенции и гибкости. Она использует мощь трансформаторов зрения (ViT) для захвата глобального контекста, часто превосходя CNN в сложных сценах с окклюзией, хотя и с более высокими вычислительными затратами.
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang и др.
- Организация:Baidu
- Дата: 17.04.2023 (оригинал RT-DETR), обновления в 2024 году
- Ссылки:Статья на Arxiv | Репозиторий GitHub
Сравнение технической архитектуры
Основное различие заключается в том, как эти модели обрабатывают признаки и генерируют прогнозы.
Архитектура YOLOv10
YOLOv10 основу сверточной нейронной сети (CNN), но революционизирует головную часть и процесс обучения.
- Последовательные двойные назначения: использует назначение «один ко многим» для тщательного контроля во время обучения и назначение «один к одному» для вывода. Это позволяет модели предсказывать один лучший ящик для каждого объекта, устраняя необходимость в NMS.
- Комплексный дизайн эффективности: архитектура отличается легкими классификационными головками и пространственно-канальным декуплированным понижающим дискретизированием для уменьшения вычислительной избыточности.
- Свертки с большим ядром: аналогично последним достижениям, использует большие рецептивные поля для повышения точности без значительных затрат на механизмы самовнимания.
Архитектура RTDETRv2
RTDETRv2 основан на структуре преобразователя-декодера трансформатора.
- Гибридный кодировщик: он использует базовую сеть CNN (обычно ResNet или HGNetv2) для извлечения признаков, которые затем обрабатываются кодировщиком-трансформатором. Это позволяет ему моделировать дальнодействующие зависимости по всему изображению.
- Выбор запросов с минимальной неопределенностью: этот механизм выбирает высококачественные начальные запросы для декодера, улучшая скорость инициализации и сходимости.
- Гибкое отделение: RTDETRv2 поддерживает дискретную выборку, позволяя пользователям более динамично выбирать между скоростью и точностью, чем в случае жестких структур CNN.
Почему экосистема имеет значение
Хотя академические модели, такие как RTDETRv2, предлагают новые архитектуры, им часто не хватает надежных инструментов, необходимых для производства. Ultralytics , такие как YOLO26 и YOLO11 интегрированы в полноценную экосистему. Она включает в себя Ultralytics для удобного управления наборами данных, обучения в один клик и беспроблемного развертывания на периферийных устройствах.
Метрики производительности
В следующей таблице сравниваются результаты обеих моделей на наборе COCO .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Анализ бенчмарков
- Превосходство по задержке: YOLOv10 значительно более низкую задержку для всех размеров моделей. Например, YOLOv10s примерно в 2 раза быстрее, чем RTDETRv2-s на графических процессорах T4, при этом сохраняя конкурентоспособную точность (46,7% против 48,1% mAP).
- Эффективность параметров: YOLOv10 высокой эффективностью с точки зрения параметров и FLOP. YOLOv10m достигает точности, аналогичной RTDETRv2-m, но требует менее половины параметров (15,4 млн против 36 млн), что делает его гораздо более предпочтительным для мобильных и пограничных приложений искусственного интеллекта.
- Предельное значение точности: RTDETRv2 демонстрирует превосходные результаты в категориях «Small» и «Medium» по показателю сырой точности (mAP), используя способность трансформатора видеть глобальный контекст. Однако в самых больших масштабах (X-large) YOLOv10 и даже превосходит RTDETRv2, оставаясь при этом более быстрым.
Вопросы обучения и развертывания
При переходе от исследований к производству такие факторы, как эффективность обучения и использование памяти, становятся первостепенными.
Требования к памяти
Модели на основе трансформаторов, такие как RTDETRv2, как правило, потребляют значительно больше CUDA во время обучения из-за квадратичной сложности механизмов самовнимания. Это требует использования дорогостоящих высокопроизводительных графических процессоров для обучения. В отличие от них, YOLO Ultralytics YOLO славятся своей эффективностью использования памяти. Модели, такие как YOLOv10 более новая YOLO26, часто можно настраивать на потребительском оборудовании или стандартных облачных инстансах, что снижает барьер для входа.
Простота использования и экосистема
Одним из наиболее значительных преимуществ использования YOLOv10 Ultralytics является оптимизированный пользовательский интерфейс.
- Ultralytics : вы можете загрузить, обучить и развернуть YOLOv10 нескольких строк Python , идентичного рабочему процессу для YOLOv8 или YOLO11.
- Параметры экспорта: Ultralytics мгновенный экспорт в такие форматы, как ONNX, TensorRT, CoreML и OpenVINO. Хотя RTDETRv2 улучшил поддержку развертывания, он часто требует более сложной настройки для обработки динамических форм, связанных с трансформаторами.
- Документация: Подробная документация обеспечивает разработчикам доступ к учебным материалам, руководствам по гиперпараметрам и ресурсам по устранению неполадок.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
Идеальные варианты использования
Когда выбирать YOLOv10
YOLOv10 предпочтительным выбором для сценариев, в которых скорость и ограничения ресурсов имеют решающее значение.
- Мобильные приложения:iOS , требующие вывода результатов в режиме реального времени без разряда батареи.
- Встроенные системы: работают на устройствах, таких как Raspberry Pi или NVIDIA , где объем памяти (RAM) ограничен.
- Обработка видео с высокой частотой кадров: приложения, такие как мониторинг дорожного движения или спортивная аналитика, где поддержание высокой частоты кадров необходимо для предотвращения смазывания движения или пропуска событий.
Когда следует выбирать RTDETRv2
RTDETRv2 подходит, когда точность является приоритетом, а аппаратные ресурсы достаточны.
- Сложные сцены: среды с сильной окклюзией или загроможденностью, где глобальный механизм внимания помогает различать перекрывающиеся объекты.
- Серверная инференция: сценарии, в которых модели работают на мощных облачных графических процессорах, что делает более высокую задержку и затраты на память приемлемыми для небольшого повышения mAP.
Будущее: Ultralytics YOLO26
В то время как YOLOv10 концепцию NMS, область быстро развивается. Выпущенный в январе 2026 года, Ultralytics представляет собой вершину этой эволюции.
YOLO26 использует сквозную конструкцию NMS, впервые примененную в YOLOv10 усовершенствованную с помощью оптимизатора MuSGD (вдохновленного обучением LLM) и улучшенных функций потерь, таких как ProgLoss. В результате модели не только проще в обучении, но и работают на CPU до 43 % быстрее по сравнению с предыдущими поколениями. Кроме того, YOLO26 изначально поддерживает полный спектр задач, включая сегментацию, оценку позы и OBB, предлагая универсальность, с которой не могут сравниться модели, ориентированные на обнаружение, такие как RTDETRv2.
Разработчикам, стремящимся к оптимальному балансу скорости, точности и простоты внедрения, настоятельно рекомендуется перейти на YOLO26.
Обзор
Как YOLOv10 RTDETRv2 расширяют границы обнаружения объектов в реальном времени. YOLOv10 устраняет NMS , предлагая чистую архитектуру CNN, которая невероятно быстра и эффективна. RTDETRv2 доказывает, что трансформеры могут быть конкурентоспособными в режиме реального времени, превосходя по сложности извлечения признаков. Однако для подавляющего большинства реальных приложений, требующих сочетания скорости, эффективности и удобных для разработчиков инструментов, Ultralytics , поддерживающая YOLOv10, YOLO11 и передовую YOLO26, остается отраслевым стандартом.
Для более подробного сравнения ознакомьтесь с нашим анализом YOLOv8 YOLOv10 или узнайте, как оптимизировать свои модели с помощью нашего руководства по экспорту.