Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 против YOLOv7#

Сфера computer vision значительно расширилась за последние несколько лет благодаря постоянным инновациям как в сверточных нейронных сетях (CNN), так и в трансформерах зрения (ViT). Выбор правильной архитектуры для развертывания требует понимания тонких компромиссов между скоростью, точностью и вычислительными затратами. В этом руководстве рассматриваются технические различия между двумя высоко ценимыми архитектурами: RTDETRv2 и YOLOv7, а также освещаются современные достижения, доступные в новейшей модели Ultralytics YOLO26.

Link to this sectionRTDETRv2: Трансформерный подход к детекции в реальном времени#

RTDETRv2 (Real-Time Detection Transformer version 2) опирается на фундамент своего предшественника, доказывая, что архитектуры на основе трансформеров могут эффективно конкурировать в сценариях реального времени без использования традиционных этапов постобработки.

Авторы: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang и Yi Liu
Организация: Baidu Дата: 2024-07-24 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: Репозиторий RTDETRv2

Link to this sectionАрхитектурные особенности#

RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.

Link to this sectionПреимущества и ограничения#

Основная сила RTDETRv2 заключается в способности работать с плотными, перекрывающимися объектами в сложных сценах. Глобальный контекст, обеспечиваемый слоями внимания трансформера, делает её высокоточной, особенно в сценариях, где часты перекрытия.

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

Узнай больше о RTDETRv2

Link to this sectionYOLOv7: Базовая CNN для скорости#

Выпущенная за год до RTDETRv2, YOLOv7 представила несколько структурных оптимизаций для классического фреймворка YOLO, установив высокий стандарт для детекторов реального времени на основе CNN на момент своей публикации.

Авторы: Chien-Yao Wang, Alexey Bochkovskiy и Hong-Yuan Mark Liao
Организация: Institute of Information Science, Academia Sinica, Taiwan
Дата: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: Репозиторий YOLOv7

Link to this sectionАрхитектурные особенности#

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Link to this sectionПреимущества и ограничения#

YOLOv7 остается высокоэффективной моделью для стандартных задач object detection, предлагая отличную скорость обработки на потребительских GPU. Её природа CNN означает, что она обычно требует меньше CUDA-памяти во время обучения по сравнению с трансформерными моделями, такими как RTDETRv2.

Несмотря на эти преимущества, YOLOv7 все еще полагается на NMS для постобработки. В средах с высокой плотностью предсказаний этап NMS может вызывать колебания времени обработки, что затрудняет соблюдение строгих гарантий реального времени. Кроме того, по сравнению с современными фреймворками, процесс обработки разнообразных задач, таких как instance segmentation и pose estimation, может быть фрагментированным.

Узнай больше о YOLOv7

Link to this sectionСравнение производительности#

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Контекст производительности

Хотя RTDETRv2-x достигает наивысшего mAP, она также обладает наибольшим количеством параметров и FLOPs. Меньшие варианты, такие как RTDETRv2-s, предлагают конкурентоспособную скорость на TensorRT, но пользователям, работающим в средах с низким энергопотреблением без выделенных GPU, необходимо тщательно оценивать возможности инференса на CPU.

Link to this sectionСовременное решение: знакомься, YOLO26#

Хотя RTDETRv2 и YOLOv7 сыграли ключевую роль в расширении границ computer vision applications, ландшафт ИИ стремительно меняется. Выпущенная в январе 2026 года, YOLO26 синтезирует лучшие аспекты как эффективности CNN, так и архитектур трансформерного типа без NMS.

Для разработчиков и исследователей, создающих новые системы, интегрированная Ultralytics Platform и экосистема Python обеспечивают единый опыт, который значительно сокращает технический долг.

Link to this sectionКлючевые инновации в YOLO26#

  • End-to-End дизайн без NMS: YOLO26 является natively end-to-end, устраняя необходимость в постобработке NMS для более быстрого и простого развертывания. Этот революционный подход был впервые внедрен в YOLOv10, обеспечивая стабильную задержку независимо от плотности объектов.
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • Оптимизатор MuSGD: Гибрид SGD и Muon (вдохновленный Kimi K2 от Moonshot AI), привносящий инновации в обучении LLM в компьютерное зрение для более стабильного обучения и быстрой сходимости.
  • Удаление DFL: Distribution Focal Loss была удалена, что привело к упрощению вычислительного графа для более плавного экспорта в встроенные NPU и среды TensorRT.
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • Улучшения для конкретных задач: YOLO26 предназначена не только для детекции. Она оснащена мультимасштабными прототипами для сегментации, Residual Log-Likelihood Estimation (RLE) для отслеживания поз и специализированной функцией потерь по углу, решающей проблемы границ oriented bounding box (OBB).

Link to this sectionОптимизированный опыт разработчика#

Истинное преимущество выбора модели Ultralytics, такой как YOLO26 (или очень популярной YOLO11) — это хорошо поддерживаемая экосистема. Обучение на кастомном датасете требует минимального количества шаблонного кода:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

Узнай больше о YOLO26

Link to this sectionИдеальные варианты использования и приложения#

Выбор между этими архитектурами сильно зависит от целевого оборудования и конкретных операционных требований.

Link to this sectionКогда стоит рассмотреть RTDETRv2#

RTDETRv2 крайне эффективна в средах server-side processing, оснащенных мощными GPU. Её механизм глобального внимания делает её подходящей для понимания сложных сцен, таких как мониторинг мест с высокой плотностью людей или специализированная медицинская визуализация, где перекрывающиеся признаки требуют глубокого контекстуального анализа.

Link to this sectionКогда стоит рассмотреть YOLOv7#

YOLOv7 часто сохраняется в академических исследованиях как базовая модель для сравнения. Она также встречается в старых промышленных развертываниях, где существующие пайплайны жестко запрограммированы под конкретные версии PyTorch и не требуют гибкости для решения нескольких задач, как новые фреймворки.

Link to this sectionПочему YOLO26 — рекомендуемый стандарт#

For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.

Изучи другие сравнения

Интересуешься, как эти модели соотносятся с другими архитектурами? Ознакомься с нашими подробными руководствами по YOLO11 vs. RTDETR и YOLOv8 vs. YOLOv7, чтобы подобрать идеальный вариант для своего проекта в области ИИ зрения.

Контрибьюторы

Комментарии