Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 против YOLOv9#

Ландшафт обнаружения объектов в реальном времени быстро развивается, и каждая новая итерация расширяет границы возможного как на периферийных устройствах, так и на облачных серверах. При оценке архитектур для проектов компьютерного зрения разработчики часто сравнивают проверенные бенчмарки с новейшими инновациями. Это подробное руководство сравнивает две важные вехи в семействе YOLO: YOLOv7 и YOLOv9.

Мы проанализируем их архитектурные прорывы, метрики производительности и идеальные сценарии развертывания, чтобы помочь тебе выбрать подходящую модель для твоего приложения. Мы также рассмотрим, как Ultralytics Platform объединяет эти модели, упрощая их обучение, валидацию и развертывание.

Link to this sectionПроисхождение моделей и технические спецификации#

Понимание истоков и философии дизайна этих моделей дает необходимый контекст для оценки их возможностей. Обе модели имеют общее исследовательское происхождение, но решают разные архитектурные проблемы.

Link to this sectionYOLOv7: Пионер «наборов бесплатных улучшений»#

Выпущенная в середине 2022 года, YOLOv7 зарекомендовала себя как высоконадежная и сильно оптимизированная архитектура. В ней представлены структурная репараметризация и подход «обучаемого набора бесплатных улучшений» (trainable bag-of-freebies), позволяющий поддерживать высокую скорость вывода без ущерба для средней точности (mAP).

Архитектурные инновации: YOLOv7 оснащена расширенной эффективной сетью агрегации слоев (E-ELAN), которая позволяет модели изучать более разнообразные признаки путем расширения, перемешивания и объединения кардинальности. Этот дизайн обеспечивает отличное использование GPU и задержку вывода. Однако по сравнению с современными итерациями она может требовать значительного объема памяти во время сложных процессов обучения.

Узнай больше о YOLOv7

Link to this sectionYOLOv9: Решение проблемы информационного узкого места#

Представленная в начале 2024 года той же исследовательской группой, YOLOv9 решает проблему «информационного узкого места», присущую глубоким нейронным сетям. По мере прохождения данных через глубокие слои важные детали часто теряются. YOLOv9 смягчает этот эффект с помощью принципиально новых конструкций слоев.

Архитектурные инновации: YOLOv9 представляет программируемую градиентную информацию (PGI) и обобщенную эффективную сеть агрегации слоев (GELAN). PGI гарантирует, что надежные градиенты сохраняются и возвращаются обратно для точного обновления весов. GELAN максимизирует эффективность параметров, позволяя YOLOv9 достигать высокой точности при значительно меньшем количестве FLOPs по сравнению с предшественниками.

Узнай больше о YOLOv9

Link to this sectionАнализ производительности#

При выборе архитектуры AI-инженерам необходимо соблюдать баланс между точностью, скоростью вывода и вычислительными затратами. В таблице ниже показаны различия в производительности этих моделей на стандартном датасете COCO.

Модельразмер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(М)
FLOPs
(Б)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionОсновные выводы#

  • Эффективность параметров: YOLOv9m соответствует точности YOLOv7l (51.4% mAP), используя при этом почти на 45% меньше параметров (20.0M против 36.9M). Такое значительное сокращение делает YOLOv9m гораздо проще для развертывания на периферийных устройствах edge AI с ограниченной памятью.
  • Микро-развертывания: Представление варианта YOLOv9t (tiny) обеспечивает невероятную скорость (2.3 мс на T4 TensorRT) для сред, где критически важны ограничения реального времени.
  • Максимальная точность: Для приложений, где приоритетом является точность, YOLOv9e повышает точность обнаружения до 55.6% mAP, значительно превосходя YOLOv7x.
Подготовка проектов компьютерного зрения к будущему

Хотя YOLOv7 и YOLOv9 являются мощными, недавно выпущенная YOLO26 представляет собой решающий шаг вперед. YOLO26 использует нативный end-to-end дизайн без NMS, устраняя сложную постобработку и повышая скорость вывода на CPU до 43%. Благодаря использованию нового оптимизатора MuSGD и улучшенных функций потерь ProgLoss + STAL, YOLO26 обеспечивает непревзойденную стабильность обучения и точность обнаружения мелких объектов.

Link to this sectionПреимущество Ultralytics#

Выбор архитектуры модели — это только первый шаг. Программная экосистема вокруг модели определяет, как быстро ты сможешь перейти от прототипа к производству. Интеграция этих моделей через Ultralytics Python API предоставляет существенные преимущества разработчикам и исследователям.

Link to this sectionПростота использования и эффективность обучения#

Исторически обучение YOLOv7 требовало сложной подготовки данных и сильно кастомизированных скриптов. Фреймворк Ultralytics абстрагирует эти сложности глубокого обучения. Разработчики могут легко переключаться между архитектурами, экспериментировать с настройкой гиперпараметров и использовать интеллектуальные конвейеры аугментации данных с минимальным количеством кода.

Более того, Ultralytics оптимизирует использование памяти во время обучения и вывода. В отличие от тяжелых моделей Transformer (таких как RT-DETR), архитектуры Ultralytics YOLO обучаются значительно быстрее и требуют гораздо меньше памяти CUDA, что делает их идеальными для потребительских GPU.

Link to this sectionПример кода: Оптимизированное обучение#

Обучение передовых моделей в экосистеме Ultralytics происходит без проблем. Вот полностью рабочий пример того, как обучить и валидировать модель YOLOv9:

from ultralytics import YOLO

# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 sample dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=50,
    imgsz=640,
    device="0",  # Use GPU 0 if available
    batch=16,  # Optimized batch size for memory efficiency
)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Link to this sectionНепревзойденная универсальность в решении задач#

Хорошо поддерживаемая экосистема означает доступ к разнообразным задачам компьютерного зрения. В то время как YOLOv7 была создана в основном для обнаружения объектов (с последующими экспериментальными форками для других задач), современные модели Ultralytics изначально созданы для универсальности. Из коробки ты можешь легко выполнять сегментацию экземпляров, оценку позы, классификацию изображений и обнаружение с помощью ориентированных ограничивающих рамок (OBB).

Link to this sectionИдеальные варианты использования и приложения#

Выбор между YOLOv7 и YOLOv9 часто зависит от специфических отраслевых ограничений и доступного оборудования.

Link to this sectionКогда использовать YOLOv7#

  • Устаревшие периферийные развертывания: Для аппаратных сред, уже глубоко настроенных и оптимизированных под архитектуру E-ELAN модели YOLOv7, она остается надежным выбором для промышленного IoT.
  • Мониторинг дорожного движения: Высокая частота кадров и доказанная стабильность YOLOv7 делают ее отличным решением для инфраструктуры умных городов и управления трафиком в реальном времени.
  • Интеграция в робототехнику: Навигация в динамических средах требует обработки с низкой задержкой — сценарий, в котором варианты YOLOv7 прошли тщательное тестирование.

Link to this sectionКогда стоит использовать YOLOv9#

  • Медицинская визуализация: Архитектура PGI в YOLOv9 исключительно хорошо сохраняет детали при прохождении через глубокие слои, что критически важно при анализе сложных задач анализа медицинских изображений, таких как обнаружение опухолей.
  • Плотная розничная аналитика: Для отслеживания и подсчета плотно расположенных товаров на полках магазинов интеграция признаков в YOLOv9 обеспечивает превосходную точность и снижает количество ложноотрицательных результатов.
  • Аэросъемка и изображения с дронов: Эффективность параметров YOLOv9m позволяет обрабатывать изображения высокого разрешения на дронах, помогая в охране дикой природы и мониторинге сельского хозяйства, не разряжая аккумулятор.

Link to this sectionЗаключение#

И YOLOv7, и YOLOv9 закрепили свои места в истории компьютерного зрения. YOLOv7 представила необходимые оптимизации для обработки в реальном времени, в то время как YOLOv9 справилась со структурными узкими местами глубокого обучения, чтобы максимизировать эффективность параметров.

Однако для разработчиков, начинающих новые проекты сегодня, использование экосистемы Ultralytics — в частности, моделей следующего поколения, таких как YOLO11 и YOLO26 — предлагает наиболее выгодный баланс между скоростью, точностью и опытом разработки. Благодаря таким инновациям, как оптимизатор MuSGD и удаление функции Distribution Focal Loss (DFL) для более широкой аппаратной совместимости, Ultralytics продолжает предоставлять самые доступные и мощные инструменты для профессионалов в области AI-зрения.

Контрибьюторы

Комментарии