YOLOv10 vs. YOLO11: переход границы обнаружения объектов в режиме реального времени
Выбор правильной модели компьютерного зрения имеет решающее значение для успеха любого проекта по искусственному интеллекту, позволяя найти компромисс между скоростью, точностью и простотой развертывания. В этом руководстве приводится подробное техническое сравнение между YOLOv10академическим релизом, ориентированным на обучение NMS, и Ultralytics YOLO11новейшей разработкой известной серии YOLO , разработанной для обеспечения производительности и универсальности корпоративного уровня.
В то время как YOLOv10 представляет интересные архитектурные концепции для уменьшения задержки, YOLO11 совершенствует передовые достижения, обеспечивая более высокую точность, более широкую поддержку задач и надежную экосистему, которая упрощает рабочий процесс от аннотации данных до развертывания модели.
YOLOv10: Специалист NMS
YOLOv10 появился в результате академических исследований с конкретной целью: оптимизировать конвейер выводов, устранив необходимость в немаксимальном подавленииNMSNon-Maximum SuppressionNMS). Этот подход нацелен на снижение задержки в определенных сценариях на границе.
- Авторы: Ao Wang, Hui Chen, Lihao Liu, и др.
- Организация:Университет Цинхуа
- Дата: 2024-05-23
- Arxiv:2405.14458
- GitHub:THU-MIG/yolov10
- Документы:ДокументацияYOLOv10
Архитектура и инновации
Определяющей особенностью YOLOv10 является последовательная стратегия двойного назначения для обучения NMS. Традиционные модели YOLO часто предсказывают несколько ограничивающих рамок для одного объекта, что требует постобработки NMS для фильтрации дубликатов. YOLOv10 изменяет потери при обучении, чтобы побудить модель выдавать один лучший бокс для каждого объекта напрямую. Кроме того, в ней используется целостный дизайн модели, ориентированный на эффективность и точность, с использованием облегченных классификационных головок для уменьшения количества FLOP и параметров.
Сильные и слабые стороны
Преимущества:
- ВыводNMS: Устраняя шаг NMS , модель уменьшает время задержки при постобработке, что может быть полезно для оборудования с ограниченной мощностью CPU для нематричных операций.
- Эффективность параметров: Архитектура спроектирована таким образом, чтобы быть легкой и достигать высокой точности при относительно меньшем количестве параметров.
Слабые стороны:
- Ограниченная универсальность: YOLOv10 фокусируется почти исключительно на обнаружении объектов. В нем отсутствует встроенная поддержка сложных задач, таких как сегментация объектов или оценка позы, что ограничивает его применение в многогранных приложениях ИИ.
- Поддержка, ориентированная на исследования: Как академический проект, он не может предложить такой же уровень долгосрочного обслуживания, частоты обновлений или интеграции с инструментами развертывания, как модели, поддерживаемые предприятиями.
Идеальный вариант использования
YOLOv10 лучше всего подходит для узкоспециализированных, однозадачных приложений, где устранение этапа NMS является критичным для соблюдения строгих ограничений по задержкам на конкретном встроенном оборудовании.
Ultralytics YOLO11: вершина универсальности и производительности
Ultralytics YOLO11 представляет собой передовой край искусственного интеллекта, опираясь на наследие YOLOv8 и YOLOv5. Он разработан не просто как модель, а как комплексное решение для реальных задач ИИ.
- Авторы: Гленн Джохер, Цзин Цю
- Организация:Ultralytics
- Дата: 2024-09-27
- GitHub:ultralytics
- Документы:ДокументацияYOLO11
Архитектура и экосистема
YOLO11 совершенствует механизм безъякорного обнаружения с помощью улучшенной архитектуры "позвоночника" и "шеи", включающей модули C3k2 и C2PSA, которые повышают эффективность извлечения признаков. В отличие от своих конкурентов, YOLO11 является многозадачной системой. Единый фреймворк поддерживает обнаружение, сегментацию, классификацию, оценку позы и ориентированные граничные поля (OBB), позволяя разработчикам консолидировать свой стек ИИ.
Очень важно, что YOLO11 поддерживается экосистемойUltralytics . Это обеспечивает бесшовную интеграцию с инструментами для управления данными, легкий экспорт моделей в такие форматы, как ONNX и TensorRTи надежную поддержку сообщества.
Ключевые преимущества
- Превосходный баланс производительности: YOLO11 стабильно достигает более высоких mAP при сохранении исключительной скорости вычислений, часто превосходя альтернативы NMS по реальной пропускной способности на GPU.
- Непревзойденная универсальность: Нужно ли вам track игроков в спорте, segment медицинские снимки или detect повернутые объекты на аэрофотоснимках, YOLO11 справится со всем этим в рамках одного APIPython .
- Простота использования: интерфейс Ultralytics славится своей простотой. Для обучения самой современной модели требуется всего несколько строк кода, что обеспечивает демократичный доступ к передовому ИИ.
- Эффективность обучения: Оптимизированные процедуры обучения и высококачественные предварительно обученные веса позволяют ускорить сходимость, экономя время и вычислительные ресурсы.
- Низкие требования к памяти: По сравнению с архитектурами на основе трансформаторов, такими как RT-DETRYOLO11 значительно экономнее расходует память во время обучения, что делает ее доступной на более широком спектре аппаратных средств.
Экосистемная выгода
Использование YOLO11 предоставляет доступ к набору интеграций, включая MLFlow для отслеживания экспериментов и OpenVINO для оптимизированных выводов на оборудовании Intel , что обеспечивает плавное масштабирование вашего проекта от прототипа до производства.
Сравнение производительности: Скорость, точность и эффективность
При сравнении YOLOv10 и YOLO11 важно не ограничиваться подсчетом параметров, а изучить реальные показатели производительности. В то время как YOLOv10 снижает теоретическую сложность за счет удаления NMS, YOLO11 демонстрирует более высокую скорость вычислений на стандартных аппаратных конфигурациях, таких как T4 GPU с TensorRT.
Полученные данные показывают, что YOLO11 предлагает лучшее соотношение для большинства приложений. Например, YOLO11n достигает той же точности (39,5 mAP), что и YOLOv10n, но имеет более надежную архитектуру, поддерживаемую Ultralytics API. По мере увеличения размера модели преимущества YOLO11 в точности становятся все более заметными, а YOLO11x достигает 54,7 mAP, устанавливая высокую планку точности обнаружения.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Анализ
- Скорость: YOLO11 обеспечивает более быстрый вывод на GPUTensorRT) практически для всех размеров моделей. Например, YOLO11l работает со скоростью 6,2 мс по сравнению с 8,33 мс у YOLOv10l, что представляет собой значительное преимущество в производительности для видеоаналитики в реальном времени.
- Точность: YOLO11 постоянно превосходит YOLOv10 по mAP, обеспечивая меньшее количество ложноотрицательных результатов и лучшую локализацию, что очень важно для таких критически важных задач, как автономная навигация или обнаружение дефектов.
- Вычисления: В то время как YOLOv10 минимизирует параметры, YOLO11 оптимизирует фактический вычислительный граф, чтобы обеспечить более быстрое выполнение, доказывая, что количество параметров само по себе не диктует скорость.
Применение в реальном мире и пример кода
Настоящая проверка модели - это то, насколько легко она интегрируется в производственный процесс. YOLO11 отлично справляется с этой задачей благодаря простому интерфейсу на Python . Ниже приведен пример того, как загрузить предварительно обученную модель YOLO11 и выполнить вывод на изображении.
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Этот простой фрагмент открывает доступ к самой современной производительности. Тот же API позволяет легко перейти к обучению на пользовательских наборах данных, проверке производительности модели или отслеживанию объектов в видеопотоке.
Заключение: Вердикт
Пока YOLOv10 предлагает инновационный взгляд на архитектуры NMS и является достойным выбором для академических исследований или сценариев с жесткими ограничениями, Ultralytics YOLO11 является лучшим выбором для подавляющего большинства разработчиков и предприятий.
Сочетание высокой точности, высокой скорости вывода реальных данных и непревзойденной универсальности YOLO11 делает его окончательным решением для современного компьютерного зрения. Опираясь на активно поддерживаемую экосистему Ultralytics , разработчики получают не просто модель, а долгосрочного партнера на пути к ИИ, гарантирующего, что их приложения останутся надежными, масштабируемыми и самыми современными.
Для тех, кто исследует дальше, сравнение с другими моделями, такими как YOLOv9 или RT-DETR может предоставить дополнительный контекст для развивающегося ландшафта обнаружения объектов.