RTDETRv2 против YOLOv9: сравнение трансформеров и CNN для обнаружения в реальном времени
Область обнаружения объектов переживает бурное развитие, и в качестве лидеров для приложений реального времени выделяются две различные архитектуры: модели на основе трансформаторов и модели на основе CNN. RTDETRv2 (Real-Time Detection Transformer version 2) представляет собой передовую технологию в области трансформаторов зрения, обеспечивающую сквозное обнаружение без постобработки. YOLOv9, с другой стороны, усовершенствует традиционную архитектуру CNN с помощью программируемой градиентной информации (PGI) для уменьшения потери информации.
В этом сравнении рассматриваются технические характеристики, показатели производительности и идеальные варианты использования обеих моделей, что помогает разработчикам выбрать подходящий инструмент для своих конкретных задач в области компьютерного зрения.
Краткое изложение
RTDETRv2 отлично подходит для сценариев, требующих высокой точности в сложных средах, особенно там, где часто встречаются окклюзии. Его механизмы внимания позволяют понимать глобальный контекст, но это достигается за счет более высоких вычислительных требований и более низкой скорости обучения. Это отличный выбор для исследований и высокопроизводительных GPU .
YOLOv9 предлагает превосходный баланс скорости и точности, сохраняя эффективность, характерную для YOLO . Он очень эффективен для задач общего назначения, но в последнее время был вытеснен более новыми Ultralytics , такими как YOLO26, которые объединяют в себе лучшее из обоих миров: сквозное обнаружение NMS со скоростью оптимизированных CNN.
Для большинства разработчиков экосистема Ultralytics представляет собой наиболее надежный путь к производству, предлагая бесшовную интеграцию, обширную документацию и поддержку новейших современных моделей.
Подробное сравнение производительности
В следующей таблице представлено сравнение ключевых показателей. Обратите внимание, что хотя RTDETRv2 обеспечивает высокую точность, модели на основе CNN, такие как YOLOv9 более новая YOLO26, часто обеспечивают более высокую скорость вывода на стандартном оборудовании.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
RTDETRv2: конкурент Vision Transformer
RTDETRv2 основан на успехе оригинального RT-DETR, оптимизируя гибридный кодировщик и выбор запросов с минимальной неопределенностью для повышения скорости и точности.
Ключевые характеристики:
- Авторы: Вэнью Лю, Янь Чжао и др.
- Организация:Baidu
- Дата: апрель 2023 г. (оригинал), июль 2024 г. (v2)
- Ссылки:Arxiv, GitHub
Архитектура и сильные стороны
RTDETRv2 использует архитектуру трансформатора, которая обрабатывает изображения с глобальным вниманием. Это позволяет модели «видеть» взаимосвязи между удаленными частями изображения, что делает ее особенно устойчивой к окклюзии и переполненным сценам. Основным преимуществом является NMS, что упрощает процесс развертывания, устраняя необходимость в постобработке с подавлением не максимальных значений.
Ограничения
Несмотря на свою мощность, RTDETRv2 обычно требует значительно больше GPU для обучения по сравнению с CNN. Квадратичная сложность механизмов внимания может стать препятствием для ввода данных с высоким разрешением. Кроме того, экосистема в основном ориентирована на исследования и не имеет обширных инструментов развертывания, которые есть в Ultralytics .
YOLOv9: Программируемая градиентная информация
YOLOv9 концепцию программируемой градиентной информации (PGI) и обобщенной эффективной сети агрегации слоев (GELAN). Эти инновации решают проблему информационного узкого места в глубоких нейронных сетях.
Ключевые характеристики:
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Институт информатики, Academia Sinica
- Дата: 21 февраля 2024 г.
- Ссылки:Arxiv, GitHub
Архитектура и сильные стороны
Архитектура GELAN YOLOv9 максимально повышает эффективность параметров, позволяя достигать высокой точности с меньшим количеством FLOP, чем в предыдущих версиях. Сохраняя важную информацию в процессе прямой передачи, она гарантирует точность и надежность градиентов, используемых для обновления весов. В результате получается модель, которая является одновременно легкой и высокоточной.
Ограничения
Несмотря на свои достижения, YOLOv9 полагается на традиционные NMS постобработки, что может привести к задержкам и усложнить развертывание. Пользователи, управляющие крупномасштабными развертываниями, часто предпочитают оптимизированный интерфейс новых Ultralytics , которые изначально справляются с этими сложностями.
Ultralytics : за пределами модели
Хотя выбор конкретной архитектуры имеет большое значение, часто решающим фактором для успеха проектов является окружающая ее программная экосистема. Ultralytics , включая YOLOv8, YOLO11и передовую YOLO26, предлагают ряд явных преимуществ:
1. Простота использования и эффективность обучения
Для обучения модели не требуется докторская степень в области глубокого обучения. Python Ultralytics упрощает сложные процессы загрузки данных, их дополнения и распределенного обучения.
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your data with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)
2. Универсальность в различных задачах
В отличие от многих специализированных моделей, Ultralytics разработаны как универсальные инструменты искусственного интеллекта для обработки изображений. Единая платформа поддерживает:
- Обнаружение объектов: идентификация предметов и их местоположения.
- Сегментация экземпляров: обводка объектов на уровне пикселей.
- Оценка позы: отслеживание ключевых точек скелета.
- Классификация: категоризация целых изображений.
- OBB: Обнаружение ориентированных объектов, таких как корабли или текст.
3. Развертывание и экспорт
Переход от обученной модели к производственному приложению происходит беспрепятственно. Ultralytics экспорт в один клик в такие форматы, как ONNX, TensorRT, CoreML и TFLite, обеспечивая эффективную работу вашей модели на любом оборудовании, от периферийных устройств до облачных серверов.
Взгляд в будущее: Мощь YOLO26
Для разработчиков, стремящихся к максимальной производительности, YOLO26 представляет собой следующий шаг вперед. Он устраняет ограничения RTDETRv2 и YOLOv9 их преимущества в единую архитектуру.
Почему стоит перейти на YOLO26?
YOLO26 делает предыдущие сравнения бессмысленными, предлагая встроенную сквозную детекцию NMS. Он устраняет узкие места постобработки YOLOv9 сохраняя YOLOv9 преимущества CNN в скорости, и избегает высоких вычислительных затрат трансформаторов, таких как RTDETRv2.
YOLO26 Ключевые прорывы:
- Нативная сквозная интеграция: устраняет NMS более быстрое и простое развертывание конвейеров.
- MuSGD Optimizer: вдохновленный обучением LLM (например, Kimi K2 от Moonshot AI), этот гибридный оптимизатор обеспечивает стабильную конвергенцию и надежное обучение.
- Повышенная скорость: оптимизирован для CPU , достигает скорости на 43 % выше, чем предыдущие поколения, что делает его идеальным для приложений искусственного интеллекта на периферии.
- ProgLoss + STAL: усовершенствованные функции потери улучшают обнаружение мелких объектов, что является важной функцией для изображений с дронов и IoT.
Заключение
Как RTDETRv2, так и YOLOv9 впечатляющими достижениями в области компьютерного зрения. RTDETRv2 расширяет границы точности на основе трансформаторов, а YOLOv9 эффективность CNN. Однако для практического применения в реальных условиях YOLO Ultralytics YOLO остаются лучшим выбором. С выпуском YOLO26 разработчикам больше не нужно выбирать между простотой сквозного обнаружения и скоростью CNN — они могут получить и то, и другое в одном хорошо поддерживаемом пакете.
Изучите Ultralytics , чтобы начать обучение своих моделей уже сегодня, или ознакомьтесь с нашей обширной документацией, чтобы узнать больше об оптимизации вашего конвейера искусственного интеллекта для обработки изображений.