Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 против RTDETRv2: техническое сравнение для обнаружения объектов в реальном времени#

Ландшафт компьютерного зрения продолжает стремительно развиваться, находясь под сильным влиянием конкуренции между сверточными нейронными сетями (CNN) и трансформерами зрения (ViT). В этом техническом обзоре мы погружаемся в две тяжеловесные архитектуры: YOLOv7, высокооптимизированный детектор объектов на основе CNN, и RTDETRv2, современный трансформер для обнаружения объектов в реальном времени.

Анализируя их архитектурные различия, показатели производительности и идеальные сценарии развертывания, ты сможешь принять обоснованные решения при интеграции этих моделей компьютерного зрения в свои производственные конвейеры.

Link to this sectionYOLOv7: архитектура CNN с «набором бесплатных инструментов»#

YOLOv7 представила несколько революционных структурных оптимизаций для традиционного семейства YOLO, раздвинув границы обнаружения объектов в реальном времени с помощью серии «обучаемых бесплатных улучшений» (trainable bag-of-freebies).

Ключевые характеристики: Авторы: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Link to this sectionАрхитектура и преимущества#

YOLOv7 процветает благодаря своей архитектуре E-ELAN (Extended Efficient Layer Aggregation Network). Эта структурная разработка позволяет модели изучать более разнообразные признаки, не разрушая исходный путь градиента. Кроме того, она включает запланированные репараметризованные свертки, которые оптимизируют скорость вывода без снижения точности. Ее подход с использованием обучаемых бесплатных улучшений позволяет достичь впечатляющего баланса между скоростью и точностью, что делает ее крайне подходящей для задач обнаружения объектов в реальном времени на серверных GPU.

YOLOv7 также обладает высокой универсальностью. Помимо стандартного обнаружения ограничивающих прямоугольников, репозиторий предлагает ветки для оценки позы и сегментации экземпляров, демонстрируя свою адаптивность.

Link to this sectionОграничения#

Как и многие устаревшие модели CNN, YOLOv7 полагается на немаксимальное подавление (NMS) для постобработки. NMS вносит переменную задержку, особенно в переполненных сценах, что может усложнить соблюдение строгих гарантий реального времени на периферийных устройствах.

Узнай больше о YOLOv7

Link to this sectionRTDETRv2: развитие трансформеров реального времени#

RTDETRv2 опирается на исходную структуру RT-DETR, дополнительно подтверждая, что трансформеры могут конкурировать с архитектурами YOLO по задержке в реальном времени, сохраняя при этом высокую пространственную точность.

Ключевые характеристики: Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Организация: Baidu
Дата: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Link to this sectionАрхитектура и преимущества#

RTDETRv2 представляет собой значительный шаг вперед для трансформеров зрения. Она использует гибкий процесс выбора запросов и эффективный гибридный энкодер для быстрой обработки многомасштабных признаков. Внедряя новый «набор бесплатных улучшений», специально разработанный для трансформеров обнаружения (DETR), она доводит пространственное мышление до предела. Поскольку она изначально не требует NMS, она обеспечивает детерминированное время вывода — критически важная функция для требовательных приложений умного города и беспилотного вождения.

Link to this sectionОграничения#

Несмотря на свои достижения, RTDETRv2 несет в себе традиционные обременения архитектур на основе трансформеров. Она требует значительно больше памяти CUDA как во время обучения, так и во время вывода по сравнению с CNN. Кроме того, время сходимости при обучении заметно больше, что требует огромных объемов высококачественных аннотированных данных (таких как набор данных COCO) и значительных вычислительных ресурсов.

Узнай больше о RTDETRv2

Link to this sectionСравнение производительности#

При проведении бенчмаркинга этих моделей мы должны смотреть на общую картину, охватывающую точность, «сырую» скорость вывода и вычислительные затраты. Ниже представлена сравнительная таблица.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Interpretation of Benchmarks

Хотя RTDETRv2-x заявляет о самом высоком показателе mAPval на уровне 54,3%, она требует колоссальные 259 миллиардов FLOPs. И наоборот, архитектуры YOLOv7 обеспечивают отличную базу, но страдают от устаревших накладных расходов NMS, которые не полностью учитываются в метриках чистой задержки сети.

Link to this sectionПреимущество Ultralytics: экосистема и эволюция#

Хотя YOLOv7 и RTDETRv2 обладают мощными возможностями, их развертывание в производственных средах часто выявляет логистические трудности. Именно здесь преуспевает экосистема Ultralytics. Разработанная для бесшовной комплексной интеграции, платформа Ultralytics предоставляет разработчикам унифицированный API, который абстрагирует типичные сложности конвейеров компьютерного зрения.

Link to this sectionНепревзойденная универсальность и эффективность памяти#

В отличие от жестких моделей-трансформеров, потребляющих огромные объемы видеопамяти, модели Ultralytics YOLO поддерживают строгую эффективность памяти. Это позволяет быстро проводить обучение моделей на доступном оборудовании. Экосистема изначально поддерживает множество задач компьютерного зрения на основе единой кодовой базы, включая классификацию изображений и обнаружение ориентированных ограничивающих прямоугольников (OBB), предлагая гибкость, которой в настоящее время не хватает RTDETRv2.

Link to this sectionБесшовное развертывание#

Переход от исследований к производству требует надежных вариантов развертывания. API Ultralytics нативно поддерживает экспорт моделей в стандартные промышленные форматы одним кликом. Независимо от того, ориентируешься ли ты на ONNX для кроссплатформенной совместимости или на TensorRT для максимального ускорения на GPU, конвейер полностью автоматизирован и надежен.

Link to this sectionАбсолютное обновление: Ultralytics YOLO26#

Для разработчиков, выбирающих между YOLOv7 и RTDETRv2, оптимальным путем вперед на самом деле является новый стандарт в области ИИ для зрения: Ultralytics YOLO26. Выпущенная в январе 2026 года, YOLO26 сокращает разрыв между скоростью CNN и сложными рассуждениями трансформеров, полностью устраняя их соответствующие недостатки.

Узнай больше о YOLO26

YOLO26 представляет прорывные инновации, адаптированные как для серверов, так и для периферийных устройств:

  • Сквозной дизайн без NMS: Впервые представленный в YOLOv10, YOLO26 нативно устраняет постобработку NMS. Это обеспечивает детерминированную задержку, как у RTDETRv2, без обременительных вычислительных затрат трансформера.
  • Оптимизатор MuSGD: Вдохновленный методами обучения больших языковых моделей (таких как Kimi K2 от Moonshot AI), YOLO26 использует гибрид SGD и Muon. Это обеспечивает беспрецедентную стабильность обучения и значительно более быстрое время сходимости по сравнению со стандартными реализациями AdamW, используемыми в ViT.
  • ProgLoss + STAL: Эти продвинутые функции потерь дают заметные улучшения в распознавании мелких объектов, напрямую конкурируя с преимуществами многомасштабных признаков RTDETRv2, что критически важно для роботизированной автоматизации.
  • Edge Optimization & DFL Removal: By removing Distribution Focal Loss (DFL), YOLO26 streamlines the output head, leading to up to 43% faster CPU inference—making it infinitely more deployable on edge devices than heavy transformer models.

Link to this sectionПример обучения с Ultralytics#

Простота Python API от Ultralytics позволяет тебе обучить современную модель YOLO26 всего несколькими строками кода:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Link to this sectionИдеальные варианты использования#

Выбор подходящей архитектуры во многом зависит от ограничений развертывания и доступности оборудования:

Когда стоит рассмотреть YOLOv7:

  • Устаревшие исследовательские проекты, где YOLOv7 является установленной базовой моделью.
  • Среды, где есть много ресурсов для ускорения на GPU и допустим джиттер задержки NMS.

Когда стоит рассмотреть RTDETRv2:

  • Высокопроизводительные серверные развертывания, требующие максимального значения mAP.
  • Сценарии, где критически важна детерминированная задержка вывода (отсутствие NMS), при условии, что у тебя есть видеопамять для поддержки ее трансформерного бэкенда.

Когда стоит выбрать Ultralytics YOLO26:

  • Почти всегда. Она предлагает детерминизм без NMS, присущий RTDETRv2, превосходит скорость и точность YOLOv7, использует значительно меньше видеопамяти и полностью интегрирована в платформу Ultralytics для легкого управления данными, обучения и развертывания.
Изучи другие модели

Интересно, как соотносятся другие архитектуры? Ознакомься с нашими глубокими обзорами предыдущих поколений, таких как YOLO11 и YOLOv8, или узнай, как использовать настройку гиперпараметров для максимизации точности твоего проекта.

Комментарии