Link to this sectionRTDETRv2 против YOLOv8#
Ландшафт компьютерного зрения постоянно меняется, что часто подчеркивается продолжающимся соперничеством между традиционными сверточными нейронными сетями (CNN) и более новыми архитектурами на основе Transformer. В этом подробном техническом сравнении мы рассмотрим, как RTDETRv2, ведущий vision transformer, соотносится с Ultralytics YOLOv8, одной из самых широко используемых и универсальных моделей CNN в индустрии. Обе модели предлагают инженерам и исследователям мощные возможности, но их базовые архитектуры приводят к заметным различиям в методологиях обучения, ограничениях при развертывании и общей производительности.
Link to this sectionОбзор модели: RTDETRv2#
RTDETRv2 (Real-Time Detection Transformer версии 2) развивает успех своего предшественника, оптимизируя архитектуру vision transformer для скорости логического вывода в реальном времени.
Ключевые технические детали:
- Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
- Организация: Baidu
- Дата: 24.07.2024
- Ссылки: Публикация на ArXiv | Репозиторий на GitHub
Link to this sectionАрхитектура и преимущества#
В основе RTDETRv2 лежит гибридная архитектура, сочетающая CNN-бэкбон со структурой трансформерного энкодера-декодера. Это позволяет модели воспринимать всё изображение в контексте, что делает её исключительно эффективной при работе со сложными сценами с перекрывающимися объектами. Одной из её определяющих особенностей является нативный дизайн «из конца в конец», полностью исключающий постпроцессинг Non-Maximum Suppression (NMS). Это снижает алгоритмическую сложность на финальных этапах конвейера обнаружения. Кроме того, возможности многомасштабного обнаружения позволяют эффективно идентифицировать как крупные структуры, так и мелкие элементы фона.
Link to this sectionСлабые стороны#
Несмотря на мощное понимание контекста, архитектуры на основе трансформеров, такие как RTDETRv2, требуют огромных вычислительных затрат при обучении. Они требуют значительного объема памяти CUDA, что затрудняет обучение на оборудовании потребительского уровня. Кроме того, настройка пользовательского набора данных и подбор гиперпараметров обучения часто требуют глубокой экспертизы в предметной области, поскольку модели не хватает отточенной, дружелюбной к новичкам программной оболочки. Развертывание на маломощных периферийных устройствах, таких как старые Raspberry Pi, также может оказаться сложной задачей из-за тяжелых механизмов внимания.
Link to this sectionОбзор модели: YOLOv8#
С момента своего выпуска Ultralytics YOLOv8 утвердился как промышленный стандарт для задач компьютерного зрения производственного уровня, уделяя приоритетное внимание безупречному опыту разработчика наряду с высочайшей точностью.
Ключевые технические детали:
- Авторы: Гленн Джочер, Аюш Чаурасия и Цзин Цю
- Организация: Ultralytics
- Дата: 10 января 2023 г.
- Ссылки: Официальная документация | Репозиторий на GitHub
Link to this sectionАрхитектура и преимущества#
YOLOv8 использует высокооптимизированную архитектуру CNN без анкоров с разделенной «головой» (decoupled head), что значительно улучшает точность локализации и классификации объектов по сравнению с предыдущими поколениями. Его главная сила заключается в невероятной эффективности и универсальности. Архитектура требует значительно меньше памяти при обучении по сравнению с vision transformer, что позволяет практикам использовать большие batch sizes на стандартных GPU. Более того, экосистема Ultralytics предоставляет непревзойденный и бесшовный рабочий процесс. Единый Python API позволяет выполнять настройку гиперпараметров, обучение, валидацию и экспорт всего несколькими строками кода.
Link to this sectionСлабые стороны#
YOLOv8 действительно полагается на традиционный NMS во время фазы постпроцессинга. Хотя движок Ultralytics эффективно справляется с этим «под капотом», технически это вносит небольшую задержку постпроцессинга по сравнению с архитектурами, изначально не использующими NMS.
Link to this sectionСравнение производительности и метрик#
При сравнении «сухих» цифр становится очевидно, что обе модели расставляют разные приоритеты в конвейере развертывания. Ниже представлен сравнительный анализ производительности.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Хотя RTDETRv2-x достигает немного более высокого пикового mAP (54,3) по сравнению с 53,9 у YOLOv8x, серия YOLOv8 доминирует по скорости логического вывода и эффективности параметров. Например, YOLOv8s работает почти в два раза быстрее на движке TensorRT по сравнению с RTDETRv2-s, требуя при этом почти вдвое меньше параметров.
Link to this sectionТребования к памяти и эффективность обучения#
Одним из наиболее важных факторов как для независимых разработчиков, так и для корпоративных команд является стоимость обучения. Модели Ultralytics YOLO требуют значительно меньше памяти CUDA во время процесса обучения, чем архитектуры трансформеров. Стандартная модель RTDETRv2 может легко создать «бутылочное горлышко» на обычном GPU, тогда как YOLOv8 сходится быстро и надежно на таком оборудовании, как NVIDIA RTX 4070.
Link to this sectionЭкосистема, API и простота использования#
Настоящим отличительным фактором для современных ИИ-решений является вспомогательный программный фреймворк. Экосистема Ultralytics упрощает сложные инженерные препятствия. Благодаря активной разработке и мощной поддержке сообщества на платформах вроде Discord, YOLOv8 гарантирует, что твой проект не застопорится из-за плохой документации.
Более того, YOLOv8 выходит за рамки стандартного обнаружения объектов. Это полноценная многозадачная сеть с нативной поддержкой Instance Segmentation, Pose Estimation, Image Classification и Oriented Bounding Boxes (OBB). RTDETRv2 по-прежнему сфокусирован исключительно на обнаружении.
Link to this sectionПример кода: Единая простота#
Используя Ultralytics Python API, ты можешь бесшовно экспериментировать с обоими семействами моделей в единой среде.
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model and a YOLOv8 model seamlessly
model_transformer = RTDETR("rtdetr-l.pt")
model_cnn = YOLO("yolov8l.pt")
# Predict on a sample image using the exact same API
results_transformer = model_transformer("https://ultralytics.com/images/bus.jpg")
results_cnn = model_cnn("https://ultralytics.com/images/bus.jpg")
# Export YOLOv8 to ONNX for rapid edge deployment
model_cnn.export(format="onnx")После обучения YOLOv8 поддерживает экспорт в один клик в форматы ONNX, TensorRT и OpenVINO, что гарантирует высокую пропускную способность вывода на разнообразных аппаратных бэкендах.
Link to this sectionСценарии использования и рекомендации#
Выбор между RT-DETR и YOLOv8 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать RT-DETR#
RT-DETR — отличный выбор для:
- Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
- Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
- Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.
Link to this sectionКогда выбирать YOLOv8#
YOLOv8 рекомендуется для:
- Универсального развертывания с несколькими задачами: проектов, требующих проверенной модели для обнаружения, сегментации, классификации и оценки позы в рамках экосистемы Ultralytics.
- Устоявшихся производственных систем: существующих производственных сред, уже построенных на архитектуре YOLOv8 со стабильными и хорошо протестированными пайплайнами развертывания.
- Широкой поддержки сообщества и экосистемы: приложений, которым нужны обширные руководства по YOLOv8, сторонние интеграции и активные ресурсы сообщества.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionВзгляд в будущее: преимущество YOLO26#
Хотя YOLOv8 остается легендарной вехой, компьютерное зрение развивается невероятно быстро. Для команд, ищущих абсолютный передовой край в 2026 году, Ultralytics YOLO26 представляет собой следующий сдвиг парадигмы.
Если тебя привлекает дизайн RTDETRv2 без NMS, YOLO26 включает в себя нативный End-to-End NMS-Free Design, сочетающий простоту постпроцессинга трансформеров с молниеносной скоростью CNN. Кроме того, YOLO26 использует революционный MuSGD Optimizer, привнося стабильность обучения в стиле LLM в модели зрения для невероятно быстрой сходимости. Благодаря удалению DFL (Distribution Focal Loss удалена для упрощенного экспорта и лучшей совместимости с периферийными/маломощными устройствами), YOLO26 обеспечивает увеличение скорости вывода на CPU до 43%. В сочетании с передовыми механизмами ProgLoss + STAL для превосходного обнаружения мелких объектов, YOLO26 определенно является рекомендованным путем обновления по сравнению как с YOLOv8, так и с RTDETRv2.
Для дальнейшего ознакомления с альтернативными моделями изучи наши руководства по YOLO11 или прочитай подробный разбор YOLOv10 vs YOLOv8, чтобы увидеть, как развивалась архитектура без NMS в семействе YOLO.