Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 против YOLO11: глубокое погружение в архитектуры детектирования объектов в реальном времени#

Ландшафт компьютерного зрения постоянно развивается, и новые архитектуры расширяют границы возможного на периферийных устройствах и облачных серверах. Два наиболее заметных претендента в текущем пространстве детектирования объектов в реальном времени — это RTDETRv2 и YOLO11. Хотя обе модели обеспечивают исключительную производительность, они представляют фундаментально разные архитектурные философии: подход на основе Transformer против высокооптимизированной сверточной нейронной сети (CNN).

В этом комплексном техническом сравнении мы изучим архитектуры, показатели производительности, методологии обучения и идеальные сценарии использования для обеих моделей, чтобы помочь тебе принять обоснованное решение для твоего следующего приложения с искусственным интеллектом.

Link to this sectionRTDETRv2: претендент на основе Transformer#

Представленная как эволюция оригинального Real-Time Detection Transformer, модель RTDETRv2 использует механизмы внимания для обработки визуальных данных. Рассматривая патчи изображения как последовательности, она достигает глобального понимания контекста изображения, что крайне полезно для детектирования сильно перекрывающихся объектов в сложных сценах.

Детали модели:

Link to this sectionАрхитектурные сильные и слабые стороны#

Главная инновация RTDETRv2 — это архитектура end-to-end без использования NMS. Исключая подавление немаксимумов (NMS), она упрощает конвейер постобработки. Более того, её возможности многомасштабного извлечения признаков были улучшены по сравнению с оригинальной моделью RT-DETR, что позволяет ей лучше идентифицировать объекты различных размеров.

Однако, поскольку RTDETRv2 полагается на Transformer, она обычно страдает от значительно более высоких требований к памяти во время обучения. Трансформеры, как правило, медленнее сходятся и требуют существенно больше памяти CUDA по сравнению с традиционными CNN, что делает их менее доступными для исследователей, работающих на потребительском оборудовании, или при развертывании в ограниченных средах edge AI.

Узнай больше о RTDETR

Link to this sectionUltralytics YOLO11: вершина эффективности CNN#

Основываясь на годах фундаментальных исследований, Ultralytics выпустила YOLO11 как огромный шаг вперед в линейке YOLO. Она совершенствует архитектуру CNN для достижения беспрецедентной скорости и точности, сохраняя гибкость и удобную для разработчиков экосистему, которую ожидает сообщество.

Детали модели:

Link to this sectionПреимущество Ultralytics#

YOLO11 блистает своим балансом производительности. Она достигает экстраординарного компромисса между скоростью и точностью, что делает её исключительно универсальной для разнообразных сценариев реального развертывания, от массивных кластеров облачных вычислений до легких мобильных устройств.

Более того, модели Ultralytics YOLO известны своим более низким потреблением памяти во время обучения и вывода. В отличие от моделей Transformer, которые могут легко исчерпать VRAM, YOLO11 позволяет использовать большие размеры батчей на стандартных GPU. Кроме того, YOLO11 не ограничивается просто детектированием объектов; она обладает невероятной универсальностью, включая нативную поддержку сегментации экземпляров, классификации изображений, оценки позы и ориентированных ограничивающих рамок (OBB).

Узнай больше о YOLO11

Link to this sectionСравнение производительности и метрик#

При сравнении «сырых» цифр становится очевидно, что хотя RTDETRv2 достигает впечатляющей точности, YOLO11 предлагает гораздо более детальный выбор размеров моделей с превосходной скоростью вывода, особенно на TensorRT.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Как видно из таблицы, модель YOLO11x достигает превосходного mAPval в 54.7%, используя при этом меньше FLOP (194.9B против 259B) и обеспечивая более быстрый вывод на TensorRT (11.3 мс против 15.03 мс) по сравнению с вариантом RTDETRv2-x. Варианты YOLO11 nano и small предоставляют непревзойденные легковесные опции для ограниченных устройств, таких как Raspberry Pi.

Link to this sectionЭкосистема, простота использования и обучение#

Определяющей характеристикой моделей Ultralytics является оптимизированный пользовательский опыт. Python-пакет ultralytics предоставляет унифицированный, интуитивно понятный API, который берет на себя тяжелую работу по аугментации данных, распределенному обучению и экспорту моделей. В то время как исследовательский репозиторий RTDETRv2 требует значительного количества шаблонного кода и конфигурации, Ultralytics предоставляет конвейер «от нуля до героя».

Интересно, что экосистема Ultralytics настолько надежна, что она нативно поддерживает запуск моделей RT-DETR вместе с моделями YOLO! Это позволяет тебе использовать хорошо поддерживаемую экосистему Ultralytics, включая интеграции с Weights & Biases и Comet ML, для простого отслеживания экспериментов.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")
Оптимизируй свой рабочий процесс

Эффективность обучения имеет первостепенное значение в машинном обучении. Модели Ultralytics используют предобученные веса, которые быстро сходятся. Для управления своими наборами данных, запусками обучения и конечными точками развертывания без написания кода изучи платформу Ultralytics для получения интегрированного опыта MLOps.

Link to this sectionПрименение в реальных условиях#

Выбор между этими архитектурами часто сводится к конкретным ограничениям развертывания твоего проекта.

В чем превосходит RTDETRv2: Трансформерный бэкенд RTDETRv2 очень эффективен в сценариях с плотными, сильно перекрывающимися объектами, где требуется глобальный контекст. Она часто оценивается в академических исследованиях и приложениях, где вычислительный бюджет менее важен, чем построение отношений на основе внимания.

Где доминирует YOLO11: YOLO11 — бесспорный чемпион практического развертывания в реальном мире. Минимальный объем занимаемой памяти и молниеносная скорость вывода делают её идеальной для:

  • Умного производства: запуск детектирования дефектов в реальном времени на производственных линиях с использованием промышленных ПК.
  • Сельского хозяйства: развертывание на дронах для мониторинга здоровья сельскохозяйственных культур в реальном времени и автоматизированной робототехники для сбора урожая.
  • Розничной аналитики: одновременная обработка нескольких потоков с камер для управления очередями и отслеживания товарных запасов без необходимости использования массивных серверных ферм.

Link to this sectionСценарии использования и рекомендации#

Выбор между RT-DETR и YOLO11 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR — отличный выбор для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать YOLO11#

YOLO11 рекомендуется для:

  • Производственного развертывания на периферии: коммерческих приложений на устройствах типа Raspberry Pi или NVIDIA Jetson, где надежность и активная поддержка имеют первостепенное значение.
  • Многозадачных приложений компьютерного зрения: проектов, требующих детектирования, сегментации, оценки позы и OBB в рамках одной унифицированной среды.
  • Быстрого прототипирования и развертывания: команд, которым нужно быстро перейти от сбора данных к производству, используя оптимизированный Python API Ultralytics.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionВзгляд в будущее: появление YOLO26#

Если ты начинаешь новый проект, тебе также следует рассмотреть следующее поколение ИИ для зрения: Ultralytics YOLO26. Выпущенная в январе 2026 года, YOLO26 объединяет лучшее из обоих миров. Она представляет End-to-End дизайн без NMS (впервые представленный в YOLOv10), полностью устраняя задержку постобработки, точно так же, как RTDETRv2, но с непревзойденной скоростью CNN.

YOLO26 оснащена оптимизатором MuSGD (вдохновленным инновациями в обучении LLM) для невероятно стабильной и быстрой сходимости, а также обеспечивает до 43% более быстрый вывод на CPU за счет удаления функции потерь Distribution Focal Loss (DFL). Благодаря специализированным функциям потерь ProgLoss + STAL, значительно улучшающим распознавание мелких объектов, YOLO26 является окончательной рекомендацией для любого современного конвейера компьютерного зрения.

Независимо от того, выберешь ли ты YOLO11 за её проверенную универсальность, RTDETRv2 за её механизмы внимания или передовую YOLO26 для максимальной производительности на периферии, документация Ultralytics предоставляет все ресурсы, необходимые для достижения успеха в твоем пути в компьютерном зрении.

Комментарии