Перейти к содержанию

RTDETRv2 против PP-YOLOE+: технический анализ современных методов обнаружения объектов

Область обнаружения объектов претерпела быструю эволюцию, разделившись на две доминирующие архитектурные парадигмы: сверточные нейронные сети (CNN) и трансформеры. В этом сравнении анализируются два важных этапа в этой хронологии: RTDETRv2 (Real-Time Detection Transformer v2), который привносит мощь трансформеров в приложения реального времени, и PP-YOLOE+, высокооптимизированный детектор на основе CNN из PaddlePaddle .

Хотя обе модели превосходят по точности и скорости, они удовлетворяют разные инженерные потребности. В этом руководстве подробно описаны их архитектура, показатели производительности и реалии внедрения, чтобы помочь вам выбрать оптимальный инструмент для вашего конвейера компьютерного зрения.

Сравнение метрик производительности

В следующей таблице сравниваются характеристики различных масштабов моделей. Обратите внимание, что RTDETRv2, как правило, обеспечивает более высокую точность (mAP) при сопоставимых масштабах, используя свою архитектуру трансформатора для более эффективной обработки сложных визуальных характеристик, хотя зачастую при более высоких вычислительных затратах по сравнению с облегченной оптимизацией CNN.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

RTDETRv2: эволюция Transformer

RTDETRv2 представляет собой значительный скачок в применении Vision Transformers (ViT) в сценариях реального времени. Опираясь на успех оригинального RT-DETR, в этой версии представлена функция «Bag-of-Freebies», которая повышает стабильность обучения и конечную точность без увеличения задержки вывода.

Ключевые архитектурные особенности

RTDETRv2 использует гибридный кодировщик, который эффективно обрабатывает многомасштабные особенности. В отличие от чистых CNN, он использует механизмы внимания для захвата глобального контекста, что делает его исключительно устойчивым к окклюзии и перегруженным сценам. Отличительной характеристикой является его способность выполнять сквозное обнаружение, часто устраняя необходимость в немаксимальном подавлении (NMS), хотя в практических реализациях все еще могут использоваться эффективные стратегии выбора запросов.

Преимущества Transformer

Трансформеры отлично справляются с моделированием дальних зависимостей в изображении. Если ваше приложение предполагает обнаружение объектов, которые разбросаны на большом расстоянии друг от друга или сильно заслонены, механизм внимания RTDETRv2 часто превосходит традиционные рецептивные поля CNN.

Узнайте больше о RT-DETR

PP-YOLOE+: усовершенствованный стандарт CNN

PP-YOLOE+ — это усовершенствованная версия PP-YOLOE, разработанная в рамках PaddlePaddle . Он направлен на усовершенствование классической YOLO с помощью передовых механизмов без анкеров и динамического присвоения меток, в частности стратегии Task Alignment Learning (TAL).

Ключевые архитектурные особенности

Модель использует основу CSPRepResStage, которая сочетает в себе преимущества градиентного потока CSPNet с возможностью перепараметризации RepVGG. Это позволяет модели иметь сложную структуру во время обучения, но упрощенную, более быструю структуру во время вывода. Ее анкер-свободная головка уменьшает пространство поиска гиперпараметров, что упрощает адаптацию к новым наборам данных по сравнению с анкер-основанными предшественниками, такими как YOLOv4.

Критическое сравнение: архитектура и варианты использования

1. Эффективность обучения и конвергенция

RTDETRv2, основанный на трансформаторе, исторически требовал более длительных графиков обучения для сходимости по сравнению с CNN. Однако улучшения v2 значительно смягчают эту проблему, позволяя адаптировать эпохи обучения. В отличие от этого, PP-YOLOE+ обладает преимуществом быстрой сходимости, типичной для CNN, но может достигать плато раньше с точки зрения точности на массивных наборах данных, таких как Objects365.

2. Вывод и внедрение

Хотя RTDETRv2 предлагает впечатляющий компромисс между скоростью и точностью на графических процессорах (таких как NVIDIA ), трансформеры могут быть более тяжелыми для памяти и более медленными на пограничных процессорах по сравнению с CNN. PP-YOLOE+ отлично подходит для сценариев, требующих широкой аппаратной совместимости, особенно на старых пограничных устройствах, где ускорители CNN более распространены, чем NPU, подходящие для трансформеров.

3. Экосистема и обслуживание

PP-YOLOE+ тесно связан с PaddlePaddle . Несмотря на свою мощность, это может стать препятствием для команд, привыкших к PyTorch. RTDETRv2 имеет официальные PyTorch , но часто требует специфической настройки среды. Такая фрагментация подчеркивает ценность единой платформы.

Преимущество Ultralytics: Представляем YOLO26

Несмотря на то, что RTDETRv2 и PP-YOLOE+ являются мощными инструментами, разработчики часто сталкиваются с проблемами фрагментации экосистемы, сложных процессов экспорта и несовместимости оборудования. Ultralytics решает эти проблемы, объединяя передовую производительность с непревзойденным опытом разработчиков.

Узнайте больше о YOLO26

Почему YOLO26 — лучший выбор

На 2026 год Ultralytics стандарты с помощью YOLO26 — модели, которая объединяет лучшие качества CNN и Transformers, устраняя их соответствующие недостатки.

  • Сквозной дизайн NMS: Как и RTDETRv2, YOLO26 изначально является сквозным. Он полностью исключает этап NMS . Этот прорыв, впервые реализованный в YOLOv10, приводит к снижению дисперсии задержки и упрощению логики развертывания, что имеет решающее значение для систем безопасности, работающих в режиме реального времени.
  • Баланс производительности: YOLO26 достигает «золотого треугольника» скорости, точности и размера. Благодаря увеличению CPU на 43 % по сравнению с предыдущими поколениями, он открывает возможности реального времени на Raspberry Pi и мобильных устройствах, которые трансформаторные модели с большим количеством трансформаторов с трудом поддерживают.
  • Усовершенствованная динамика обучения: благодаря использованию оптимизатора MuSGD— гибрида SGD Muon (вдохновленного обучением LLM) — YOLO26 обеспечивает стабильность обучения больших языковых моделей в области зрения. В сочетании с ProgLoss и STAL (Soft Task Alignment Learning) он обеспечивает заметные улучшения в распознавании мелких объектов, что является общим слабым местом других архитектур.
  • Универсальность: в отличие от PP-YOLOE+, который в основном является детектором, YOLO26 изначально поддерживает полный спектр задач, включая сегментацию экземпляров, оценку позы, ориентированную ограничивающую рамку (OBB) и классификацию.
  • Простота использования и экосистема: Ultralytics позволяет перейти от аннотирования данных к развертыванию за считанные минуты. Благодаря сниженным требованиям к памяти во время обучения вы можете обучать более крупные партии на потребительских графических процессорах, избегая высоких затрат на VRAM, связанных с трансформаторными головками обнаружения.

Пример бесшовной интеграции

Для запуска современной модели не требуется сложных конфигурационных файлов или переключения фреймворков. С Ultralytics для этого достаточно всего трех строк на Python:

from ultralytics import YOLO

# Load the NMS-free, highly efficient YOLO26 model
model = YOLO("yolo26n.pt")  # Nano version for edge deployment

# Train on a custom dataset with MuSGD optimizer enabled by default
# Results are automatically logged to the Ultralytics Platform
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with zero post-processing overhead
results = model("https://ultralytics.com/images/bus.jpg")

Заключение и рекомендации

Выбор между RTDETRv2 и PP-YOLOE+ во многом зависит от ваших существующих ограничений.

  • Выберите RTDETRv2, если у вас есть доступ к мощным графическим процессорам и ваша задача связана с переполненными сценами, где глобальное внимание является обязательным условием.
  • Выберите PP-YOLOE+, если вы уже укоренились в PaddlePaddle Baidu PaddlePaddle и вам нужна надежная базовая модель CNN.

Однако для подавляющего большинства новых проектов в 2026 году рекомендуется использовать Ultralytics . Его функ ция DFL Removal упрощает экспорт в такие форматы, как TensorRT и ONNX, а архитектураNMS обеспечивает детерминированную задержку. В сочетании с активным, хорошо поддерживаемым сообществом открытого исходного кода, YOLO26 гарантирует, что ваш конвейер компьютерного зрения будет перспективным, эффективным и простым в масштабировании.

Чтобы изучить весь потенциал этих моделей, посетите раздел Ultralytics или начните обучение на Ultralytics уже сегодня.


Комментарии