RTDETRv2 против YOLO: глубокое погружение в обнаружение объектов в реальном времени
Компьютерное зрение стремительно развивается, и исследователи постоянно расширяют границы между скоростью вывода и точностью обнаружения. Двумя выдающимися соперниками на этой арене являются RTDETRv2, модель на основе трансформаторов от Baidu, и YOLO, высоко оптимизированная конволюционная сеть от Alibaba. В этом техническом сравнении рассматриваются различные архитектурные философии этих моделей, их показатели производительности и идеальные сценарии применения.
Бенчмарки производительности: Скорость против точности
При выборе модели обнаружения объектов основной компромисс обычно лежит между средней точностьюmAP) и задержкой. Приведенные ниже данные показывают разницу в производительности RTDETRv2 и YOLO на наборе данных для проверки COCO .
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Полученные данные свидетельствуют о четком различии в философии проектирования. YOLO ставит во главу угла скорость и эффективность, а вариант "Tiny" достигает исключительно низкой задержки, подходящей для ограниченных вычислительных сред на границе. Напротив, RTDETRv2 стремится к максимальной точности, а его самый большой вариант достигает заметного значения 54,3 mAP, что делает его превосходным для задач, где точность имеет первостепенное значение.
RTDETRv2: Трансформер-мощник
RTDETRv2 опирается на успех архитектуры трансформатора обнаружения (DETR), решая проблему высоких вычислительных затрат, обычно связанных с трансформаторами зрения, сохраняя при этом их способность улавливать глобальный контекст.
- Авторы: Веню Лю, Иань Чжао, Циньяо Чанг, Куй Хуанг, Гуаньчжун Ван и И Лю
- Организация:Baidu
- Дата: 2023-04-17 (первоначальная), 2024-07-24 (обновление v2)
- Arxiv:RT-DETRv2: Улучшенный базовый уровень с помощью Bag-of-Freebies
- GitHub:РепозиторийRT-DETRv2
Архитектура и возможности
В RTDETRv2 используется гибридный кодер, который эффективно обрабатывает разномасштабные признаки. В отличие от традиционных моделей YOLO , основанных на CNN, RTDETR исключает необходимость в постобработке с использованием технологии немаксимального подавления (NMS). Такой сквозной подход упрощает конвейер развертывания и снижает вариативность задержек в сценах с большим скоплением людей.
В модели используется эффективный гибридный кодер, который разделяет внутримасштабное взаимодействие и межмасштабное слияние, что значительно снижает вычислительные затраты по сравнению со стандартными моделями DETR. Такая конструкция позволяет ей превосходно идентифицировать объекты в сложных условиях, где окклюзия может сбить с толку стандартные конволюционные детекторы.
Использование памяти трансформатора
Хотя RTDETRv2 обеспечивает высокую точность, важно отметить, что архитектуры Transformer обычно потребляют значительно больше памяти CUDA во время обучения по сравнению с CNN. Пользователи с ограниченным объемом памяти GPU VRAM могут столкнуться с трудностями при обучении этих моделей по сравнению с такими эффективными альтернативами, как YOLO11.
YOLO: оптимизация для эффективности
YOLO представляет собой строгий подход к оптимизации архитектуры, используя нейронный поиск архитектуры (NAS) для поиска наиболее эффективных структур для извлечения и объединения признаков.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация:Alibaba Group
- Дата: 23.11.2022
- Arxiv:YOLO: отчет о разработке системы обнаружения объектов в реальном времени
- GitHub:Репозиторий YOLO
Ключевые архитектурные инновации
YOLO объединяет в себе несколько передовых технологий для достижения максимального компромисса между скоростью и точностью:
- MAE-NAS Backbone: В ней используется основа, найденная с помощью метода эффективного поиска нейронной архитектуры, гарантирующего, что каждый параметр вносит эффективный вклад в извлечение признаков.
- RepGFPN: Специализированная конструкция шеи, которая объединяет функции разных масштабов с минимальными вычислительными затратами, улучшая обнаружение мелких объектов без снижения скорости вывода.
- ZeroHead: упрощенная головка обнаружения, которая снижает сложность конечных слоев предсказания.
Эта модель особенно эффективна в сценариях, требующих высокой пропускной способности, таких как промышленные сборочные линии или высокоскоростной мониторинг дорожного движения, где счет идет на миллисекунды.
Сценарии применения в реальном мире
Выбор между этими двумя моделями часто сводится к конкретным ограничениям среды развертывания.
Когда следует выбирать RTDETRv2
RTDETRv2 является предпочтительным выбором для приложений, где точность не является обязательной, а аппаратные ресурсы достаточно велики.
- Медицинская визуализация: При анализе медицинских изображений пропуск обнаружения (ложноотрицательный результат) может иметь серьезные последствия. Высокий mAP RTDETRv2 позволяет использовать его для обнаружения аномалий на рентгеновских снимках или снимках МРТ.
- Детальное наблюдение: Для систем безопасности, требующих распознавания лиц или идентификации мелких деталей на расстоянии, возможности глобального контекста архитектуры трансформера дают явное преимущество.
Когда следует выбирать YOLO
YOLO отлично проявляет себя в средах с ограниченными ресурсами или в приложениях, требующих сверхнизкой задержки.
- Робототехника: Для автономных мобильных роботов, обрабатывающих визуальные данные на встраиваемых устройствах с батарейным питанием, эффективность YOLO обеспечивает оперативность реагирования в реальном времени.
- Высокоскоростное производство: При автоматизации производства обнаружение дефектов на быстро движущихся конвейерных лентах требует высокой скорости вывода информации, которую обеспечивают YOLO и small варианты.
Преимущество Ultralytics : Почему YOLO11 - оптимальный выбор
В то время как RTDETRv2 и YOLO предлагают привлекательные возможности, Ultralytics YOLO11 представляет собой целостное решение, в котором сбалансированы производительность, удобство использования и поддержка экосистемы, что делает его лучшим выбором для большинства разработчиков и исследователей.
Непревзойденная экосистема и удобство использования
Одним из самых серьезных препятствий на пути внедрения исследовательских моделей является сложность их кодовой базы. Ultralytics устраняет эти трудности с помощью унифицированного, удобного API на языке Python . Независимо от того, выполняете ли вы сегментацию экземпляров, оценку позы или классификацию, рабочий процесс остается последовательным и интуитивно понятным.
from ultralytics import YOLO
# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")
# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Универсальность в решении различных задач
В отличие от YOLO, ориентированной в первую очередь на обнаружение, YOLO11 - универсальная платформа. Она поддерживает широкий спектр задач компьютерного зрения, включая обнаружение ориентированных границ (Oriented Bounding Box, OBB), что очень важно для анализа аэрофотоснимков и документов. Такая универсальность позволяет командам стандартизировать один фреймворк для различных требований проекта.
Эффективность обучения и управление памятью
YOLO11 разработан для повышения эффективности. Для его обучения обычно требуется меньше памяти GPU (VRAM) по сравнению с моделями на основе трансформаторов, такими как RTDETRv2. Такая эффективность снижает аппаратный барьер, позволяя разработчикам обучать самые современные модели на графических процессорах потребительского класса или эффективно использовать облачные ресурсы через экосистемуUltralytics . Кроме того, обширная библиотека предварительно обученных весов обеспечивает быстрое и эффективное трансферное обучение, значительно сокращая время вывода на рынок решений в области ИИ.
Для тех, кто ищет надежное, хорошо обслуживаемое и высокопроизводительное решение, развивающееся вместе с отраслью, Ultralytics YOLO11 остается рекомендованным стандартом.
Изучите другие сравнения
Чтобы лучше понять, как эти модели вписываются в более широкий ландшафт компьютерного зрения, изучите эти связанные сравнения:
- YOLO11 vs. RTDETR
- YOLO11 vs. DAMO-YOLO
- YOLOv8 vs RTDETR
- YOLOv8 vs. DAMO-YOLO
- EfficientDet vs. DAMO-YOLO
- PP-YOLOE против RTDETR