Перейти к содержанию

YOLOv9 YOLOv7: обзор эволюции передовых технологий обнаружения объектов

В быстро развивающейся области компьютерного зрения для создания эффективных и точных приложений крайне важно быть в курсе последних архитектурных разработок. В этом сравнении рассматриваются два важных этапа в развитии линейки YOLO You Only Look Once): YOLOv9, представленная в начале 2024 года с новыми методами оптимизации градиента, и YOLOv7, стандарт 2022 года для обнаружения в реальном времени. Обе модели сформировали ландшафт обнаружения объектов, предлагая уникальные преимущества как для исследователей, так и для разработчиков.

Бенчмарк производительности

В следующей таблице представлены показатели производительности YOLOv9 YOLOv7 COCO . В то время как YOLOv7 высокую планку скорости и точности в 2022 году, YOLOv9 усовершенствования архитектуры, которые еще больше расширяют эти границы, особенно в области эффективности параметров.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: Программируемая градиентная информация

YOLOv9 сдвиг в том, как архитектуры глубокого обучения управляют потоком информации. Выпущенная в феврале 2024 года Чень-Яо Ван и Хонг-Юань Марк Ляо, она решает проблему «информационного бутылочного горлышка», когда данные теряются при прохождении через глубокие слои.

Ключевые архитектурные инновации

Основной инновацией YOLOv9 PGI (Programmable Gradient Information, программируемая информация о градиенте). PGI предоставляет вспомогательную структуру контроля, которая гарантирует, что основная ветвь сохраняет важную информацию о характеристиках на протяжении всего процесса обучения. Это дополняется архитектурой GELAN (Generalized Efficient Layer Aggregation Network, обобщенная сеть эффективной агрегации слоев ), которая оптимизирует использование параметров по сравнению с предыдущими методами, такими как CSPNet.

Узнайте больше о YOLOv9

YOLOv7: Обучаемый Bag-of-Freebies

YOLOv7 разработан как самый быстрый и точный детектор объектов в реальном времени на момент его выпуска в июле 2022 года. В нем было внедрено несколько методов оптимизации «bag-of-freebies», которые повышают точность без увеличения затрат на вывод.

Ключевые архитектурные инновации

YOLOv7 на E-ELAN (Extended Efficient Layer Aggregation Network), что позволяет сети обучаться более разнообразным функциям за счет контроля самых коротких и самых длинных градиентных путей. Он также стал пионером в области технологий масштабирования моделей, которые одновременно регулируют глубину и ширину, что делает его высоко адаптируемым к различным аппаратным ограничениям.

Узнайте больше о YOLOv7

Сравнительный анализ: Архитектура и варианты использования

Точность и сохранение характеристик

YOLOv9 превосходит YOLOv7 сценариях, требующих обнаружения небольших или закрытых объектов. Фреймворк PGI гарантирует, что градиенты не размываются, что особенно полезно для анализа медицинских изображений, где пропуск небольшой аномалии может иметь критические последствия. YOLOv7 надежным выбором для обнаружения общего назначения, но может испытывать некоторые затруднения при работе с экстремальными информационными пробками в очень глубоких сетях.

Скорость и эффективность вывода

Хотя обе модели предназначены для приложений, работающих в режиме реального времени, YOLOv9 лучший компромисс между параметрами и точностью. Например, YOLOv9c достигает точности, аналогичной YOLOv7x, но с значительно меньшим количеством параметров (25,3 млн против 71,3 млн) и FLOP. Это делает YOLOv9 подходящим для развертывания на устройствах, где пропускная способность памяти является ограничивающим фактором, таких как камеры с искусственным интеллектом.

Гибкость развертывания

Ultralytics славятся своей портативностью. YOLOv9 YOLOv7 легко экспортировать в такие форматы, как ONNX и TensorRT с помощьюPython Ultralytics , что упрощает путь от исследования до производства.

Эффективность обучения

Одним из основных преимуществ Ultralytics является оптимизация использования памяти во время обучения. YOLOv9, интегрированный в Ultralytics, использует преимущества эффективных загрузчиков данных и управления памятью. Это позволяет разработчикам обучать конкурентоспособные модели на потребительских графических процессорах (например, RTX 3060 или 4070) без ошибок Out-Of-Memory (OOM), которые часто встречаются в архитектурах с интенсивным использованием трансформаторов или неоптимизированных репозиториях.

Приложения в реальном мире

Выбор между этими моделями часто зависит от конкретной среды развертывания.

  • Автономные транспортные средства:YOLOv7 прошел тщательные испытания в сценариях автономного вождения, доказав свою надежность в обнаружении пешеходов и дорожных знаков при высокой частоте кадров.
  • Медицинская визуализация:YOLOv9 превосходит другие системы в области медицинской визуализации, например, при обнаружении опухолей или переломов, где чрезвычайно важно сохранить мелкие детали на глубоких уровнях.
  • Аналитика розничной торговли: для управления запасамиYOLOv9 обеспечивает высокую точность подсчета плотно упакованных товаров на полках, используя свои превосходные возможности интеграции функций.
  • Умные города: системы мониторинга дорожного движения получают выгоду от YOLOv7, что необходимо для управления дорожным движением в режиме реального времени.

Преимущество Ultralytics

Использование любой из моделей в Ultralytics дает явные преимущества по сравнению с автономными реализациями:

  1. Простота использования: унифицированный API позволяет переключаться между YOLOv7, YOLOv9 и более новыми моделями с помощью одной строки кода.
  2. Хорошо поддерживаемая экосистема: активная поддержка сообщества и частые обновления обеспечивают совместимость с последними версиями PyTorch версиями и CUDA .
  3. Универсальность: помимо обнаружения, Ultralytics поддерживает сегментацию экземпляров, оценку позы и задачи ориентированной ограничивающей рамки (OBB), что позволяет расширить масштаб вашего проекта без необходимости осваивать новые инструменты.

Пример кода: Обучение с Ultralytics

Обучение обеих моделей проходит без проблем. Вот как можно обучить YOLOv9 на пользовательском наборе данных:

from ultralytics import YOLO

# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt")  # or "yolov7.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Гарантия будущего с YOLO26

Хотя YOLOv9 YOLOv7 мощными инструментами, эта область быстро развивается. Последняя версия YOLO26, выпущенная в январе 2026 года, представляет собой передовые достижения в области компьютерного зрения.

YOLO26 отличается встроенной сквозной конструкцией NMS, что устраняет задержки постобработки и упрощает развертывание. Он устраняет распределенную фокальную потерю (DFL) для лучшей совместимости с периферийными устройствами и внедряет оптимизатор MuSGD— гибрид SGD Muon, вдохновленный обучением LLM — для беспрецедентной стабильности. Благодаря специализированным функциям потери, таким как ProgLoss + STAL, YOLO26 значительно улучшает распознавание мелких объектов, что делает его рекомендуемым выбором для новых высокопроизводительных приложений.

Узнайте больше о YOLO26

Для тех, кто ищет другие варианты, такие модели, как YOLO11 и RT-DETR также предлагают уникальные преимущества для конкретных случаев использования в Ultralytics .


Комментарии