Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 против RTDETRv2: оценка детекторов объектов, работающих в режиме реального времени и использующих принцип end-to-end#

Ландшафт computer vision меняется стремительно, и новые архитектуры постоянно переопределяют стандарты в области детектирования объектов в реальном времени. Двумя значимыми вехами в этой эволюции стали YOLOv10 и RTDETRv2. Обе модели нацелены на решение фундаментального «узкого места» традиционных конвейеров детектирования за счет устранения необходимости в постпроцессинге NMS, однако они подходят к этой задаче с принципиально разных архитектурных позиций.

Это техническое сравнение предоставляет углубленный анализ их архитектур, методологий обучения и идеальных сценариев развертывания, чтобы помочь разработчикам и исследователям выбрать подходящий инструмент для твоего следующего проекта по vision AI.

Link to this sectionYOLOv10: первопроходец без NMS#

Разработанная исследователями из Университета Цинхуа, YOLOv10 делает основной акцент на архитектурной эффективности и устранении «узких мест» постпроцессинга. Внедряя последовательные двойные назначения (consistent dual assignments) для обучения без NMS, она достигает конкурентоспособной производительности при значительном снижении задержки вывода.

Link to this sectionТехнические характеристики#

Link to this sectionАрхитектура и методологии#

Главный прорыв YOLOv10 заключается в целостном дизайне модели, ориентированном на баланс эффективности и точности. Она оптимизирует различные компоненты с обеих точек зрения, значительно снижая вычислительные затраты. Стратегия последовательных двойных назначений позволяет модели обучаться, не полагаясь на NMS, что означает упрощенный, полностью end-to-end конвейер развертывания. Это особенно полезно при экспорте моделей в форматы для edge-устройств, такие как ONNX или TensorRT, где операции постпроцессинга могут вносить непредвиденные задержки.

Link to this sectionСильные и слабые стороны#

Модель демонстрирует исключительный баланс между скоростью и точностью, особенно в небольших вариантах (N и S). Минимальная задержка делает ее идеальной для высокоскоростных сред на edge-устройствах. Однако, несмотря на то что YOLOv10 превосходна в скорости детектирования, она остается специализированной моделью только для детекции. Командам, которым требуется instance segmentation или pose estimation, стоит присмотреться к более универсальным фреймворкам.

Узнай больше о YOLOv10

Link to this sectionRTDETRv2: совершенствование трансформера для детектирования#

Развивая идеи оригинального Real-Time Detection Transformer, RTDETRv2 включает в себя «набор бесплатных улучшений» (bag of freebies) для совершенствования своей базовой версии, доказывая, что трансформеры могут конкурировать с CNN в сценариях реального времени.

Link to this sectionТехнические характеристики#

Link to this sectionАрхитектура и методологии#

RTDETRv2 использует гибридную архитектуру, объединяющую бэкбон на базе сверточной нейронной сети (CNN) для извлечения визуальных признаков и трансформерный энкодер-декодер для глубокого понимания сцены. Механизм self-attention в трансформере позволяет модели видеть изображение глобально, что делает ее крайне эффективной при обработке сложных сцен, перекрывающихся объектов и плотных скоплений.

Link to this sectionСильные и слабые стороны#

Архитектура трансформера обеспечивает отличную точность, особенно при больших масштабах параметров, и нативно выдает финальные результаты детекции без NMS. Однако это имеет свою цену. Модели на основе трансформеров традиционно требуют значительно больше памяти CUDA при обучении и могут медленнее сходиться по сравнению с чистыми архитектурами CNN. Хотя RTDETRv2 улучшила скорость вывода, она, как правило, потребляет больше памяти, чем легкие варианты YOLO.

Узнай больше о RTDETRv2

Link to this sectionСравнение производительности#

Оценка показателей производительности дает более ясное представление о том, в чем преуспевает каждая модель. В следующей таблице освещены их возможности на наборе данных COCO:

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Анализируя данные, можно заметить, что YOLOv10 сохраняет строгое преимущество в параметрической эффективности и скорости вывода TensorRT при сопоставимых размерах. RTDETRv2-x соответствует массивной YOLOv10x по точности, но требует почти на 20 миллионов параметров больше и значительно более высоких значений FLOPs.

Link to this sectionСценарии использования и рекомендации#

Выбор между YOLOv10 и RT-DETR зависит от твоих специфических требований проекта, ограничений развертывания и предпочтений в экосистеме.

Link to this sectionКогда стоит выбрать YOLOv10#

YOLOv10 — отличный выбор для:

  • Детекции в реальном времени без NMS: Приложения, которым полезна сквозная (end-to-end) детекция без использования Non-Maximum Suppression, что снижает сложность развертывания.
  • Сбалансированного соотношения скорости и точности: Проекты, требующие оптимального баланса между скоростью вывода и точностью детекции для различных масштабов моделей.
  • Приложений с постоянной задержкой: Сценарии развертывания, где критически важна предсказуемость времени вывода, например, в робототехнике или автономных системах.

Link to this sectionКогда выбирать RT-DETR#

RT-DETR рекомендуется для:

  • Исследований детектирования на основе Transformer: проектов, изучающих механизмы внимания и архитектуры трансформеров для end-to-end детектирования объектов без NMS.
  • Сценариев с высокой точностью и гибкой задержкой: приложений, где точность детектирования является главным приоритетом, а немного большая задержка вывода допустима.
  • Детектирования крупных объектов: сцен преимущественно со средними и крупными объектами, где глобальный механизм внимания трансформеров дает естественное преимущество.

Link to this sectionКогда выбирать Ultralytics (YOLO26)#

Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:

  • Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
  • Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
  • Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.

Link to this sectionПреимущество Ultralytics: экосистема и инновации#

Хотя YOLOv10 и RTDETRv2 предлагают мощные возможности детекции, выбор модели часто сводится к окружающей программной экосистеме. Платформа Ultralytics предоставляет бесшовный, унифицированный интерфейс, который абстрагирует сложности глубокого обучения.

Link to this sectionНовый стандарт: Ultralytics YOLO26#

Для разработчиков, стремящихся к абсолютно лучшей производительности, Ultralytics YOLO26 представляет собой кульминацию недавних архитектурных достижений. Выпущенная в начале 2026 года, YOLO26 наследует End-to-End NMS-Free Design, впервые реализованный в YOLOv10, полностью исключая постпроцессинг NMS для более быстрого и простого развертывания.

Почему стоит выбрать YOLO26?

YOLO26 привносит инновации из обучения LLM в компьютерное зрение с помощью оптимизатора MuSGD (гибрид SGD и Muon), что приводит к более стабильному обучению и ускоренной сходимости. Она также может похвастаться увеличением скорости вывода на CPU до 43%, что делает ее первоклассным выбором для edge computing.

Более того, YOLO26 представляет ProgLoss + STAL для заметных улучшений в распознавании мелких объектов, и в отличие от специализированной YOLOv10, она предлагает чрезвычайную универсальность. Она нативно поддерживает детекцию объектов, сегментацию, позы и ориентированные ограничивающие рамки (OBB) с улучшениями, специфичными для задач, такими как функция потерь семантической сегментации и оценка остаточного логарифмического правдоподобия (RLE) для поз. Кроме того, удаление Distribution Focal Loss (DFL) обеспечивает упрощенный экспорт и лучшую совместимость с маломощными устройствами.

Узнай больше о YOLO26

Link to this sectionПростота использования и эффективность обучения#

Независимо от того, экспериментируешь ли ты со старыми поколениями моделей, такими как Ultralytics YOLO11, или с передовой YOLO26, оптимизированный Python API обеспечивает меньшее использование памяти во время обучения и чрезвычайно быстрые рабочие процессы.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

Хорошо поддерживаемая экосистема предоставляет инструменты для легкой настройки гиперпараметров и безупречно интегрируется с обширными решениями для отслеживания и вариантами развертывания моделей.

Link to this sectionЗаключение#

И YOLOv10, и RTDETRv2 представляют собой внушительные вехи в стремлении к детектированию объектов без NMS. RTDETRv2 доказывает, что трансформеры могут достигать задержек реального времени с отличным пониманием глобального контекста, хотя и с более высокими требованиями к памяти. YOLOv10 предоставляет высокоэффективную, быструю альтернативу на базе CNN, адаптированную для задач детекции с ограниченными ресурсами.

Однако для сбалансированной производительности, многозадачности и максимально зрелой экосистемы разработчикам настоятельно рекомендуется использовать Ultralytics YOLO26. Она прекрасно сочетает архитектурные инновации своих предшественников с надежным, удобным инструментарием, который превращает развертывание Vision AI в легкую реальность.

Комментарии