Перейти к содержанию

YOLOv10 против YOLOv9: техническое сравнение

Выбор подходящей модели обнаружения объектов имеет решающее значение для любого проекта компьютерного зрения, поскольку напрямую влияет на его производительность, скорость и возможность развертывания. Поскольку эта область быстро развивается, крайне важно быть в курсе последних архитектур. На этой странице представлено подробное техническое сравнение двух современных моделей: YOLOv10 и YOLOv9. Мы проанализируем их архитектурные инновации, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение на основе таких факторов, как точность, скорость и требования к ресурсам.

YOLOv10: Сквозная эффективность в реальном времени

YOLOv10 — это передовая модель от исследователей из Университета Цинхуа, выпущенная в мае 2024 года. Она разработана для обеспечения исключительной производительности в реальном времени за счет создания по-настоящему сквозного конвейера обнаружения объектов. Отличительной инновацией является устранение Non-Maximum Suppression (NMS), этапа постобработки, который традиционно добавляет задержку при выводе. Это делает YOLOv10 очень эффективным выбором для приложений, где скорость имеет решающее значение.

Технические детали:

Архитектура и ключевые особенности

YOLOv10 представляет несколько архитектурных усовершенствований, чтобы расширить границы компромисса между скоростью и точностью.

  • Обучение без NMS: Основным нововведением является использование Согласованных двойных назначений во время обучения. Эта стратегия обеспечивает широкие возможности для контроля модели, позволяя ей работать без NMS во время вывода. Благодаря устранению этого узкого места постобработки, YOLOv10 достигает более низкой задержки и упрощает конвейер развертывания.
  • Комплексный подход к эффективности и точности: Авторы провели комплексную оптимизацию компонентов модели. Это включает в себя облегченную классификационную голову для снижения вычислительной нагрузки, пространственно-канальную разделенную дискретизацию для более эффективного сохранения информации и блочную структуру с ранговым управлением для устранения вычислительной избыточности. Для повышения точности с минимальными затратами архитектура включает в себя свертки с большими ядрами и частичное самовнимание (PSA).

Сильные и слабые стороны

Преимущества:

  • Экстремальная эффективность: YOLOv10 оптимизирована для минимальной задержки и вычислительных затрат, что делает ее одним из самых быстрых доступных детекторов объектов.
  • Сквозное развертывание: Отсутствие NMS исключает этапы постобработки, упрощая развертывание и сокращая время вывода.
  • Превосходный баланс производительности: Достигает современного баланса между скоростью и точностью, часто превосходя другие модели в аналогичных масштабах.
  • Интеграция Ultralytics: YOLOv10 легко интегрируется в экосистему Ultralytics. Это обеспечивает пользователям оптимизированный опыт, включая простой Python API, обширную документацию и поддержку хорошо поддерживаемого фреймворка.

Слабые стороны:

  • Актуальность: Поскольку это очень новая модель, сообщество и сторонние ресурсы все еще развиваются по сравнению с более устоявшимися моделями, такими как Ultralytics YOLOv8.

Идеальные варианты использования

YOLOv10 — идеальный выбор для приложений, где производительность и эффективность в реальном времени являются наивысшими приоритетами.

  • Edge AI: Низкая задержка и малый размер делают его идеальным для развертывания на устройствах с ограниченными ресурсами, таких как NVIDIA Jetson и мобильные платформы.
  • Высокоскоростная видеоаналитика: Сценарии, требующие немедленного обнаружения в видеопотоках, такие как управление дорожным движением или мониторинг безопасности в реальном времени.
  • Автономные системы: Приложения в робототехнике и дронах, где быстрое принятие решений имеет важное значение.

Узнайте больше о YOLOv10

YOLOv9: Programmable Gradient Information

YOLOv9, представленная в феврале 2024 года, является значительным достижением исследователей из Института информатики Тайваня, Academia Sinica. Она решает фундаментальную проблему в глубоких нейронных сетях: потерю информации при передаче данных через последовательные слои. YOLOv9 представляет Programmable Gradient Information (PGI), чтобы обеспечить доступность надежной информации о градиенте для обновления сети, что приводит к более эффективному обучению и повышению точности.

Технические детали:

Архитектура и ключевые особенности

Архитектура YOLOv9 разработана для максимального сохранения информации и эффективности обучения.

  • Программируемая градиентная информация (PGI): Эта новая концепция помогает генерировать надежные градиенты для обновления весов сети, эффективно решая проблему информационного узкого места и предотвращая потерю деталей в глубоких архитектурах.
  • Обобщенная эффективная сеть агрегации слоев (GELAN): YOLOv9 представляет GELAN, новую сетевую архитектуру, которая оптимизирует использование параметров и вычислительную эффективность. Объединяя сильные стороны предыдущих архитектур, GELAN позволяет YOLOv9 достигать высокой производительности, не будучи вычислительно непомерно сложной.

Сильные и слабые стороны

Преимущества:

  • Высокая точность: YOLOv9 достигает самой современной точности, при этом ее самый крупный вариант (YOLOv9-E) устанавливает новый эталон для mAP на наборе данных COCO.
  • Эффективная архитектура: Комбинация PGI и GELAN обеспечивает отличную производительность с меньшим количеством параметров по сравнению с другими моделями, стремящимися к аналогичным уровням точности.
  • Сохранение информации: Ее основная конструкция эффективно смягчает потерю информации, что приводит к лучшему представлению признаков и обнаружению труднообнаруживаемых объектов.
  • Экосистема Ultralytics: Как и YOLOv10, YOLOv9 выигрывает от интеграции во фреймворк Ultralytics, предлагая простоту использования, всестороннюю документацию и доступ к надежному набору инструментов для обучения и развертывания.

Слабые стороны:

  • Более высокая задержка, чем у YOLOv10: Будучи эффективной для своего класса точности, она, как правило, имеет более высокую задержку инференса по сравнению с YOLOv10, как видно из таблицы производительности.
  • Сложность: Концепции PGI и вспомогательных обратимых ветвей добавляют уровень сложности в архитектуру по сравнению с более простыми конструкциями.

Идеальные варианты использования

YOLOv9 хорошо подходит для приложений, в которых достижение максимально возможной точности является основной целью, а вычислительные ресурсы менее ограничены.

Узнайте больше о YOLOv9

Производительность и тесты: YOLOv10 против YOLOv9

В следующей таблице представлено подробное сравнение производительности различных масштабов моделей YOLOv10 и YOLOv9 на наборе данных COCO. Метрики наглядно иллюстрируют компромиссы в проектировании между двумя семействами.

YOLOv10 стабильно демонстрирует более низкую задержку и большую эффективность параметров для всех сопоставимых размеров моделей. Например, YOLOv10-B достигает аналогичного mAP, что и YOLOv9-C, но с задержкой на 46% меньше и на 25% меньше параметров. Это подчеркивает силу YOLOv10 в приложениях реального времени.

С другой стороны, YOLOv9-E достигает самого высокого mAP в 55.6%, что делает его лучшим выбором для сценариев, где точность не подлежит обсуждению, даже ценой более высокой задержки и большего количества параметров.

Модель размер
(пиксели)
mAPval
50-95
Скорость
CPU ONNX
(мс)
Скорость
T4 TensorRT10
(мс)
параметры
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Заключение: какую модель вам следует выбрать?

Выбор между YOLOv10 и YOLOv9 полностью зависит от конкретных потребностей вашего проекта.

  • Выбирайте YOLOv10, если ваши основные ограничения — скорость, задержка и вычислительная эффективность. Его конструкция без NMS, end-to-end, делает его превосходным вариантом для обработки видео в реальном времени, развертывания на периферийных устройствах и любых приложений, где быстрая и эффективная инференция имеет решающее значение.

  • Выбирайте YOLOv9, если ваша главная цель — достижение максимально возможной точности обнаружения. Его инновационная архитектура превосходно сохраняет информацию, что делает его идеальным для сложных сцен и ответственных приложений, где точность перевешивает потребность в абсолютно минимальной задержке.

Обе модели представляют собой мощные, современные архитектуры, которые значительно выигрывают от интеграции в экосистему Ultralytics, что упрощает их использование и развертывание.

Изучите другие модели

Несмотря на то, что YOLOv10 и YOLOv9 представляют собой передовые разработки, экосистема Ultralytics поддерживает широкий спектр моделей. Для разработчиков, ищущих зрелую, универсальную и хорошо сбалансированную модель, Ultralytics YOLOv8 остается отличным выбором, предлагая поддержку различных задач компьютерного зрения, помимо обнаружения объектов. Для тех, кто ищет последние достижения от Ultralytics, обратите внимание на YOLO11. Вы можете найти больше сравнений на нашей странице сравнения моделей.



📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии