YOLOv10 против YOLOv9: техническое сравнение
Выбор подходящей модели обнаружения объектов имеет решающее значение для любого проекта компьютерного зрения, поскольку напрямую влияет на его производительность, скорость и возможность развертывания. Поскольку эта область быстро развивается, крайне важно быть в курсе последних архитектур. На этой странице представлено подробное техническое сравнение двух современных моделей: YOLOv10 и YOLOv9. Мы проанализируем их архитектурные инновации, показатели производительности и идеальные варианты использования, чтобы помочь вам принять обоснованное решение на основе таких факторов, как точность, скорость и требования к ресурсам.
YOLOv10: Сквозная эффективность в реальном времени
YOLOv10 — это передовая модель от исследователей из Университета Цинхуа, выпущенная в мае 2024 года. Она разработана для обеспечения исключительной производительности в реальном времени за счет создания по-настоящему сквозного конвейера обнаружения объектов. Отличительной инновацией является устранение Non-Maximum Suppression (NMS), этапа постобработки, который традиционно добавляет задержку при выводе. Это делает YOLOv10 очень эффективным выбором для приложений, где скорость имеет решающее значение.
Технические детали:
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация: Университет Цинхуа
- Дата: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Документация: https://docs.ultralytics.com/models/yolov10/
Архитектура и ключевые особенности
YOLOv10 представляет несколько архитектурных усовершенствований, чтобы расширить границы компромисса между скоростью и точностью.
- Обучение без NMS: Основным нововведением является использование Согласованных двойных назначений во время обучения. Эта стратегия обеспечивает широкие возможности для контроля модели, позволяя ей работать без NMS во время вывода. Благодаря устранению этого узкого места постобработки, YOLOv10 достигает более низкой задержки и упрощает конвейер развертывания.
- Комплексный подход к эффективности и точности: Авторы провели комплексную оптимизацию компонентов модели. Это включает в себя облегченную классификационную голову для снижения вычислительной нагрузки, пространственно-канальную разделенную дискретизацию для более эффективного сохранения информации и блочную структуру с ранговым управлением для устранения вычислительной избыточности. Для повышения точности с минимальными затратами архитектура включает в себя свертки с большими ядрами и частичное самовнимание (PSA).
Сильные и слабые стороны
Преимущества:
- Экстремальная эффективность: YOLOv10 оптимизирована для минимальной задержки и вычислительных затрат, что делает ее одним из самых быстрых доступных детекторов объектов.
- Сквозное развертывание: Отсутствие NMS исключает этапы постобработки, упрощая развертывание и сокращая время вывода.
- Превосходный баланс производительности: Достигает современного баланса между скоростью и точностью, часто превосходя другие модели в аналогичных масштабах.
- Интеграция Ultralytics: YOLOv10 легко интегрируется в экосистему Ultralytics. Это обеспечивает пользователям оптимизированный опыт, включая простой Python API, обширную документацию и поддержку хорошо поддерживаемого фреймворка.
Слабые стороны:
- Актуальность: Поскольку это очень новая модель, сообщество и сторонние ресурсы все еще развиваются по сравнению с более устоявшимися моделями, такими как Ultralytics YOLOv8.
Идеальные варианты использования
YOLOv10 — идеальный выбор для приложений, где производительность и эффективность в реальном времени являются наивысшими приоритетами.
- Edge AI: Низкая задержка и малый размер делают его идеальным для развертывания на устройствах с ограниченными ресурсами, таких как NVIDIA Jetson и мобильные платформы.
- Высокоскоростная видеоаналитика: Сценарии, требующие немедленного обнаружения в видеопотоках, такие как управление дорожным движением или мониторинг безопасности в реальном времени.
- Автономные системы: Приложения в робототехнике и дронах, где быстрое принятие решений имеет важное значение.
YOLOv9: Programmable Gradient Information
YOLOv9, представленная в феврале 2024 года, является значительным достижением исследователей из Института информатики Тайваня, Academia Sinica. Она решает фундаментальную проблему в глубоких нейронных сетях: потерю информации при передаче данных через последовательные слои. YOLOv9 представляет Programmable Gradient Information (PGI), чтобы обеспечить доступность надежной информации о градиенте для обновления сети, что приводит к более эффективному обучению и повышению точности.
Технические детали:
- Авторы: Чен-Яо Ванг, Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 21.02.2024
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Документация: https://docs.ultralytics.com/models/yolov9/
Архитектура и ключевые особенности
Архитектура YOLOv9 разработана для максимального сохранения информации и эффективности обучения.
- Программируемая градиентная информация (PGI): Эта новая концепция помогает генерировать надежные градиенты для обновления весов сети, эффективно решая проблему информационного узкого места и предотвращая потерю деталей в глубоких архитектурах.
- Обобщенная эффективная сеть агрегации слоев (GELAN): YOLOv9 представляет GELAN, новую сетевую архитектуру, которая оптимизирует использование параметров и вычислительную эффективность. Объединяя сильные стороны предыдущих архитектур, GELAN позволяет YOLOv9 достигать высокой производительности, не будучи вычислительно непомерно сложной.
Сильные и слабые стороны
Преимущества:
- Высокая точность: YOLOv9 достигает самой современной точности, при этом ее самый крупный вариант (YOLOv9-E) устанавливает новый эталон для mAP на наборе данных COCO.
- Эффективная архитектура: Комбинация PGI и GELAN обеспечивает отличную производительность с меньшим количеством параметров по сравнению с другими моделями, стремящимися к аналогичным уровням точности.
- Сохранение информации: Ее основная конструкция эффективно смягчает потерю информации, что приводит к лучшему представлению признаков и обнаружению труднообнаруживаемых объектов.
- Экосистема Ultralytics: Как и YOLOv10, YOLOv9 выигрывает от интеграции во фреймворк Ultralytics, предлагая простоту использования, всестороннюю документацию и доступ к надежному набору инструментов для обучения и развертывания.
Слабые стороны:
- Более высокая задержка, чем у YOLOv10: Будучи эффективной для своего класса точности, она, как правило, имеет более высокую задержку инференса по сравнению с YOLOv10, как видно из таблицы производительности.
- Сложность: Концепции PGI и вспомогательных обратимых ветвей добавляют уровень сложности в архитектуру по сравнению с более простыми конструкциями.
Идеальные варианты использования
YOLOv9 хорошо подходит для приложений, в которых достижение максимально возможной точности является основной целью, а вычислительные ресурсы менее ограничены.
- Анализ высокого разрешения: Сценарии, требующие детального анализа больших изображений, например, в медицинской визуализации или анализе спутниковых снимков.
- Продвинутые системы безопасности: Сложные среды наблюдения, где точная идентификация широкого спектра объектов имеет решающее значение для безопасности.
- Контроль качества: Промышленные применения, где обнаружение мельчайших дефектов с высокой точностью необходимо для контроля качества производства.
Производительность и тесты: YOLOv10 против YOLOv9
В следующей таблице представлено подробное сравнение производительности различных масштабов моделей YOLOv10 и YOLOv9 на наборе данных COCO. Метрики наглядно иллюстрируют компромиссы в проектировании между двумя семействами.
YOLOv10 стабильно демонстрирует более низкую задержку и большую эффективность параметров для всех сопоставимых размеров моделей. Например, YOLOv10-B достигает аналогичного mAP, что и YOLOv9-C, но с задержкой на 46% меньше и на 25% меньше параметров. Это подчеркивает силу YOLOv10 в приложениях реального времени.
С другой стороны, YOLOv9-E достигает самого высокого mAP в 55.6%, что делает его лучшим выбором для сценариев, где точность не подлежит обсуждению, даже ценой более высокой задержки и большего количества параметров.
Модель | размер (пиксели) |
mAPval 50-95 |
Скорость CPU ONNX (мс) |
Скорость T4 TensorRT10 (мс) |
параметры (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Заключение: какую модель вам следует выбрать?
Выбор между YOLOv10 и YOLOv9 полностью зависит от конкретных потребностей вашего проекта.
-
Выбирайте YOLOv10, если ваши основные ограничения — скорость, задержка и вычислительная эффективность. Его конструкция без NMS, end-to-end, делает его превосходным вариантом для обработки видео в реальном времени, развертывания на периферийных устройствах и любых приложений, где быстрая и эффективная инференция имеет решающее значение.
-
Выбирайте YOLOv9, если ваша главная цель — достижение максимально возможной точности обнаружения. Его инновационная архитектура превосходно сохраняет информацию, что делает его идеальным для сложных сцен и ответственных приложений, где точность перевешивает потребность в абсолютно минимальной задержке.
Обе модели представляют собой мощные, современные архитектуры, которые значительно выигрывают от интеграции в экосистему Ultralytics, что упрощает их использование и развертывание.
Изучите другие модели
Несмотря на то, что YOLOv10 и YOLOv9 представляют собой передовые разработки, экосистема Ultralytics поддерживает широкий спектр моделей. Для разработчиков, ищущих зрелую, универсальную и хорошо сбалансированную модель, Ultralytics YOLOv8 остается отличным выбором, предлагая поддержку различных задач компьютерного зрения, помимо обнаружения объектов. Для тех, кто ищет последние достижения от Ultralytics, обратите внимание на YOLO11. Вы можете найти больше сравнений на нашей странице сравнения моделей.