Перейти к содержанию

DAMO-YOLO против YOLOv9: Достижения в обнаружении объектов в реальном времени

Область обнаружения объектов постоянно развивается, а исследователи неустанно расширяют границы точности, задержки и эффективности. Две примечательные архитектуры, которые произвели значительный резонанс в сообществе компьютерного зрения, — это YOLO, разработанная Alibaba Group, и YOLOv9, созданная исследователями из Academia Sinica.

Хотя обе модели направлены на решение задачи обнаружения в реальном времени, они подходят к этой проблеме с помощью различных архитектурных концепций.YOLO поиск нейронной архитектуры (NAS) и интенсивную перепараметризацию для оптимизации с целью снижения задержки, тогда как YOLOv9 такие концепции, как программируемая градиентная информация (PGI), для максимального сохранения информации в процессе глубокого обучения.

YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once) был представлен в конце 2022 года и ориентирован на строгое балансирование производительности и скорости для промышленных приложений.

Ключевые архитектурные особенности

YOLO на базе трех основных технологий, разработанных для извлечения максимальной производительности из ограниченных аппаратных ресурсов:

  1. MAE-NAS Backbone: в отличие от мануально разработанных магистралей,YOLO поиск нейронной архитектуры на основе маскированного автокодировщика (MAE) для нахождения оптимальной структуры сети. В результате получается структура, математически адаптированная к конкретным вычислительным ограничениям.
  2. Эффективная RepGFPN: она использует обобщенную пирамидальную сеть (GFPN), усовершенствованную с помощью механизмов перепараметризации. Это позволяет модели использовать преимущества сложного многомасштабного слияния признаков во время обучения, а во время вывода — сворачиваться в более простую и быструю структуру.
  3. ZeroHead & AlignedOTA: Датчик, получивший название «ZeroHead», имеет чрезвычайно легкий вес, что позволяет снизить вычислительную нагрузку на конечные выходные слои. Кроме того, стратегия присвоения меток AlignedOTA решает проблемы несоответствия между задачами классификации и регрессии во время обучения.

Сильные и слабые стороны

Основным преимуществомYOLO соотношение задержки и точности. Для конкретного промышленного оборудования магистраль, полученная из NAS, может обеспечить превосходную пропускную способность. Однако зависимость модели от сложного конвейера обучения дистилляцией, при котором сначала необходимо обучить более крупную «учительскую» модель, чтобы она могла направлять меньшую модель, может затруднить процесс обучения для разработчиков, которым требуются быстрые итерации. Кроме того, экосистема вокругYOLO менееYOLO по сравнению с более широким YOLO , что может ограничить поддержку новых целей развертывания.

YOLOv9: обучение с помощью программируемых градиентов

YOLOv9, выпущенная в начале 2024 года, решает проблему потери информации в глубоких сетях. По мере углубления сверточных нейронных сетей часто теряются важные данные, необходимые для сопоставления входных и выходных данных — явление, известное как «информационное узкое место».

Ключевые архитектурные особенности

YOLOv9 две революционные концепции для уменьшения потери информации:

  1. Программируемая информация о градиенте (PGI): PGI — это вспомогательная система контроля, которая генерирует надежные градиенты для обновления весов сети, обеспечивая сохранение важной семантической информации в глубоких слоях. Она включает в себя обратимую вспомогательную ветвь, которая используется только во время обучения и удаляется для вывода, не вызывая дополнительных затрат при развертывании.
  2. GELAN (Generalized Efficient Layer Aggregation Network): эта архитектура сочетает в себе лучшие характеристики CSPNet и ELAN. GELAN разработана с целью обеспечить легкость и быстродействие при поддержке различных вычислительных блоков, что позволяет строго контролировать количество параметров без ущерба для рецептивного поля.

Сильные и слабые стороны

YOLOv9 высокой точностью, устанавливая новые стандарты в COCO . Его способность сохранять информацию делает его исключительным для обнаружения сложных объектов, которые другие модели могут пропустить. Однако сложность архитектуры, обусловленная наличием вспомогательных ветвей, может затруднять модификацию кодовой базы для пользовательских задач по сравнению с более простыми модульными конструкциями. Несмотря на высокую эффективность на графических процессорах, определенные агрегаты слоев могут быть не полностью оптимизированы для всех периферийных устройств CPU по сравнению с моделями, разработанными специально для этих целей.

Узнайте больше о YOLOv9

Сравнение производительности

В следующей таблице приведены показатели производительностиYOLO YOLOv9. Обратите внимание на компромисс между количеством параметров, вычислительной нагрузкой (FLOP) и точностью (mAP).

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

В то время как YOLOv9 обычно достигает более высокой пиковой точности (до 55,6% mAP), YOLO предлагает конкурентоспособную производительность в режиме небольших моделей, хотя и за счет большего количества параметров для «крошечного» варианта. YOLOv9t значительно легче с точки зрения FLOP (7,7G против 18,1G), что делает его потенциально более подходящим для устройств с крайне ограниченными ресурсами, несмотря на более низкий mAP.

Преимущество Ultralytics: Представляем YOLO26

ХотяYOLO YOLOv9 значительные академические достижения, разработчики, ориентированные на реальную производственную деятельность, часто нуждаются в сочетании передовой производительности, простоты использования и гибкости развертывания. Именно в этом Ultralytics выделяется как лучший выбор для современных приложений искусственного интеллекта.

Почему YOLO26?

Выпущенный в январе 2026 года, YOLO26 основан на наследии предыдущих поколений, но вносит фундаментальные изменения в архитектуру и стабильность обучения.

  1. Сквозной дизайн NMS: в отличие от YOLOv9 YOLO, которые обычно требуют применения алгоритма Non-Maximum Suppression (NMS) для фильтрации дублирующихся ограничительных рамок, YOLO26 является сквозным по своей сути. Это полностью устраняет этап NMS , сокращая задержку и дисперсию вывода и значительно упрощая процессы развертывания.
  2. Оптимизатор MuSGD: Вдохновленный инновациями в области обучения больших языковых моделей (LLM), YOLO26 использует оптимизатор MuSGD. Этот гибрид SGD Muon (из Kimi K2 от Moonshot AI) обеспечивает беспрецедентную стабильность обучения, гарантируя более быструю конвергенцию и снижая необходимость в обширной настройке гиперпараметров.
  3. Эффективность Edge-First: благодаря устранению Distribution Focal Loss (DFL) и оптимизации архитектуры для CPU , YOLO26 достигает скорости CPU , которая на 43% выше. Это делает его идеальным кандидатом для пограничных вычислений на таких устройствах, как Raspberry Pi или мобильные телефоны, где нет GPU.
  4. Улучшенное обнаружение мелких объектов: благодаря внедрению ProgLoss + STAL (Self-Taught Anchor Learning) YOLO26 демонстрирует заметные улучшения в распознавании мелких объектов, что является критически важным требованием для изображений с дронов и датчиков IoT.

Оптимизированный рабочий процесс с Ultralytics

Забудьте о сложных дистилляционных трубопроводах или ручной настройке среды. С помощью Ultralytics вы можете управлять наборами данных, обучать модели YOLO26 в облаке и одним щелчком мыши развертывать их в любом формате (ONNX, TensorRT, CoreML).

Непревзойденная универсальность

ХотяYOLO в первую очередьYOLO моделью обнаружения, Ultralytics гарантирует, что YOLO26 поддерживает полный спектр задач «из коробки». Независимо от того, нужна ли вам сегментация экземпляров, оценка позы с помощью оценки остаточной логарифмической вероятности (RLE) или обнаружение ориентированных ограничивающих прямоугольников (OBB) для аэрофотосъемки, API остается неизменным и простым.

Узнайте больше о YOLO26

Пример кода: Обучение с Ultralytics

Python от Ultralytics упрощает процесс обучения сложных моделей. Вы можете легко переключаться между YOLOv9 YOLO26.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Use GPU 0
)

# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")

Заключение

Выбор подходящей модели зависит от ваших конкретных ограничений. YOLO — сильный конкурент, если вы занимаетесь исследованиями в области архитектур NAS или располагаете оборудованием, которое особенно выигрывает от его структуры RepGFPN. YOLOv9 — отличный выбор для сценариев, требующих максимально возможной точности в академических тестах, таких как COCO.

Однако для разработчиков и предприятий, которые ищут готовое к производству решение, Ultralytics предлагает наиболее привлекательный пакет. Его конструкцияNMS, CPU и интеграция с Ultralytics значительно сокращают время вывода продукта на рынок. Объединяя теоретические преимущества предыдущих моделей с практическими инновациями, такими как оптимизатор MuSGD, YOLO26 гарантирует, что вы получаете не просто модель, а комплексное, перспективное решение для визуализации.


Комментарии