RTDETRv2 против YOLOv6.0: точность трансформера встречается с промышленной скоростью
Для ориентации в современном ландшафте обнаружения объектов необходимо найти баланс между скоростью обработки и сложным пониманием сцены. В этом техническом сравнении анализируются две влиятельные архитектуры: RTDETRv2, усовершенствованная версия Real-Time Detection Transformer, и YOLOv6.YOLOv6, мощная архитектура на основе CNN, оптимизированная для промышленной производительности.
Краткое изложение
В то время как RTDETRv2 использует глобальные контекстные возможности трансформеров зрения, чтобы превосходить другие системы в сложных, загроможденных средах без подавления неактивных пиков (NMS), YOLOv6.YOLOv6 фокусируется на максимизации количества кадров в секунду (FPS) на специальном GPU за счет агрессивной квантования и настройки архитектуры.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
RTDETRv2: эволюция Transformer
RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой значительный шаг вперед в обеспечении жизнеспособности трансформаторного обнаружения для приложений реального времени. Опираясь на успех оригинальной версии RT-DETR, в этой версии представлен гибкий подход на основе сетки для обработки динамических входных данных, что значительно повышает скорость сходимости.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 17 апреля 2023 г. (v1), июль 2024 г. (обновление v2)
- Ссылки:Arxiv | GitHub
Архитектура и инновации
Основная сила RTDETRv2 заключается в гибридном кодировщике и выборе запросов с минимальной неопределенностью. В отличие от традиционных CNN, которые испытывают трудности с долгосрочными зависимостями, трансформаторная основа позволяет модели одновременно «обращать внимание» на удаленные части изображения.
- Механизм анкерирования сетки-бокса: в отличие от запросов обученных объектов стандартных DETR, RTDETRv2 инициализирует запросы с помощью сеток-боксов, что делает ландшафт оптимизации более гладким и ускоряет сходимость.
- Bag-of-Freebies: Обновление v2 включает в себя несколько усовершенствований в области обучения, в том числе улучшенные стратегии увеличения объема данных и оптимизированные функции потерь, что повышает точность модели Small до 48,1 mAP.
- ВыводNMS: по своему дизайну трансформеры напрямую предсказывают набор уникальных объектов. Это устраняет необходимость в немаксимальном подавлении (NMS) — этапе постобработки, который часто приводит к вариации задержки и сложностям с настройкой гиперпараметров в моделях на основе CNN.
Преимущества трансформатора
Модели трансформеров, такие как RTDETRv2, отлично работают в переполненных сценах, где объекты значительно перекрывают друг друга. Поскольку они обрабатывают весь контекст изображения глобально, а не локально, они менее подвержены проблемам окклюзии, которые часто сбивают с толку детекторы на основе свертки.
YOLOv6.0: промышленный специалист
YOLOv6.YOLOv6, часто называемыйYOLOv6 .0: полномасштабная перезагрузка», специально разработан для промышленных приложений, где аппаратное обеспечение стандартизировано, а пропускная способность имеет первостепенное значение. Разработанный командой специалистов по компьютерному зрению в Meituan, он уделяет приоритетное внимание производительности на графических процессорах NVIDIA T4 с использованием TensorRT.
- Авторы: Чуй Ли, Лулу Ли, Ифэй Гэн, Хунлян Цзян и др.
- Организация:Meituan
- Дата: 13 января 2023 г.
- Ссылки:Arxiv | GitHub
Техническая архитектура
YOLOv6.0 использует архитектуру, основанную исключительно на CNN, которая усовершенствует концепцию базовой структуры «EfficientRep».
- RepBi-PAN: двунаправленная сеть агрегации путей (Bi-PAN), усовершенствованная с помощью блоков типа RepVGG. Такая структура позволяет модели иметь сложные ветвления во время обучения, но объединяться в простой и быстрый стек 3x3 сверток во время вывода.
- Обучение с помощью якорей (AAT): гибридная стратегия, которая пытается стабилизировать обучение путем повторного введения подсказок на основе якорей в структуру без якорей, что немного повышает скорость сходимости и конечную точность.
- С учетом квантования: архитектура специально разработана с учетом квантования, что позволяет минимизировать потерю точности при преобразовании в INT8 для значительного ускорения работы на периферийных графических процессорах.
Критические различия и варианты использования
1. Глобальный контекст против локальных особенностей
RTDETRv2 отлично справляется с пониманием сложных сцен. Если ваше приложение предполагает определение отношений между удаленными объектами или обработку серьезных окклюзий (например, подсчет людей на переполненном стадионе), механизм самофокусировки трансформатора дает явное преимущество. YOLOv6. YOLOv6, основанный на свертках, очень эффективен в обнаружении локальных особенностей, но может испытывать некоторые затруднения при сильном перекрытии по сравнению с трансформаторами NMS.
2. Зависимость от оборудования
YOLOv6.YOLOv6 — это «аппаратно-ориентированная» конструкция. Ее впечатляющие показатели FPS наиболее достижимы на определенном NVIDIA (например, T4) с использованием TensorRT. На универсальных процессорах или мобильных NPU ее преимущества в производительности могут уменьшиться по сравнению с моделями, оптимизированными для этих платформ, такими как YOLOv10 или YOLO11. RTDETRv2, хотя и требует больших вычислительных ресурсов из-за механизмов внимания, обеспечивает стабильную работу на всех платформах благодаря более простому конвейеру NMS.
3. Обучение и развертывание
RTDETRv2 упрощает конвейеры развертывания, устраняя NMS . Это означает, что выходные данные модели являются конечным результатом — в коде постобработки не требуется пороговое значение или сортировка. YOLOv6. YOLOv6 требует стандартного NMS, который может стать узким местом в сценариях с высокой частотой кадров, если он не оптимизирован в C++ или CUDA.
Преимущество Ultralytics
Хотя RTDETRv2 и YOLOv6. YOLOv6 предлагают привлекательные функции для определенных ниш, их интеграция в производственный рабочий процесс может быть затруднительна из-за различия в кодовых базах и дизайне API. Ultralytics объединяет эти мощные архитектуры в рамках единого, оптимизированного Python .
Почему стоит выбрать Ultralytics?
- Простота использования: переключайтесь между архитектурами моделей, изменяя одну строку. Обучайте RT-DETR с помощью той же команды обучения, которую вы используете для YOLO.
- Требования к памяти: Ultralytics значительно снижают нагрузку на VRAM во время обучения. Это особенно важно для моделей трансформаторов, таких как RT-DETR, которые естественным образом потребляют больше памяти, чем CNN.
- Универсальность: Ultralytics выходит за рамки обнаружения. Вы можете легко использовать модели для оценки позы, сегментации экземпляров и OBB в одной и той же среде.
- Хорошо поддерживаемая экосистема: воспользуйтесь активной поддержкой сообщества, частыми обновлениями и бесшовной интеграцией с такими инструментами, как MLflow и TensorBoard.
Пример кода
Тестирование этих моделей не требует особых усилий с помощью Ultralytics Python . Пакет автоматически обрабатывает данные и загружает модели.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")
# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")
Двигаясь вперед: YOLO26
Для разработчиков, стремящихся к идеальному балансу скорости, точности и современных архитектурных возможностей, Ultralytics представляет собой передовое решение. Выпущенный в январе 2026 года, он объединяет в себе лучшие аспекты как трансформаторов, так и CNN.
YOLO26 представляет собой нативную конструкцию NMS, отражающую простоту RTDETRv2, но с легкой эффективностью CNN. Оснащенный новым оптимизатором MuSGD— гибридом, вдохновленным стабильностью обучения LLM — и оснащенный ProgLoss + STAL для превосходного обнаружения мелких объектов, YOLO26 достигает на 43 % более быстрой CPU по сравнению с предыдущими поколениями.
Независимо от того, что для вас важнее — глобальная точность преобразователей или сырая пропускная способность промышленных CNN, Ultralytics позволяет вам с минимальными усилиями внедрить подходящий инструмент для решения задачи.