YOLO YOLOv5: техническое сравнение архитектуры и производительности
В быстро развивающейся области компьютерного зрения выбор правильной архитектуры обнаружения объектов имеет решающее значение для обеспечения баланса между точностью, скоростью и эффективностью использования ресурсов. В этом руководстве представлено всестороннее техническое сравнение YOLO, модели на основе нейронного архитектурного поиска (NAS) от Alibaba Group, и YOLOv5, легендарной широко используемой моделью от Ultralytics.
Краткое изложение
В то время как YOLO внедряет инновационные концепции, такие как поиск нейронной архитектуры (NAS) и глубокая перепараметризация, чтобы добиться более высокой точности на COCO , YOLOv5 остается отраслевым стандартом в области удобства использования, готовности к развертыванию и поддержки экосистемы.
Для разработчиков, стремящихся к абсолютному передовому уровню в 2026 году, YOLO26 является рекомендуемым вариантом обновления. Он сочетает в себе простоту использования YOLOv5 архитектурными прорывами, такими как сквозной дизайн NMS и оптимизатор MuSGD, превосходя обе старые модели по эффективности и скорости.
YOLO: Архитектура и инновации
Разработанная исследователями Alibaba Group,YOLO на преодоление ограничений скорости и точности за счет автоматизированного проектирования архитектуры.
- Авторы: Сяньчжэ Сюй, Ици Цзян, Вэйхуа Чэнь, Илунь Хуан, Юань Чжан и Сююй Сунь
- Организация: Alibaba Group
- Дата: 23 ноября 2022 г.
- Ссылки:Arxiv, GitHub
Ключевые архитектурные особенности
- Поиск нейронной архитектуры (NAS): в отличие от вручную созданных базовых структур,YOLO MAE-NAS (метод вспомогательной ранней остановки) для автоматического поиска эффективных базовых структур, адаптированных к различным ограничениям по задержке.
- RepGFPN (эффективная Rep-параметризованная обобщенная FPN): использует новый механизм слияния признаков, который оптимизирует путь информационного потока между различными масштабами, используя перепараметризацию для поддержания высокой скорости вывода при максимальном обогащении признаков.
- ZeroHead: Легкая головка обнаружения, которая значительно снижает вычислительную нагрузку по сравнению с традиционными развязанными головками.
- AlignedOTA: динамическая стратегия присвоения меток, которая решает проблемы несоответствия между задачами классификации и регрессии во время обучения.
Сильные и слабые стороны
YOLO академические тесты, часто демонстрируя более высокие mAP для заданного количества параметров по сравнению со старыми YOLO . Однако его зависимость от сложных структур NAS может затруднять модификацию или настройку для пользовательского оборудования. Рецепт обучения «distillation-first», часто требующий тяжелой модели учителя, также может усложнить процесс обучения для пользователей с ограниченными ресурсами.
YOLOv5: промышленный стандарт
Выпущенная Ultralytics 2020 году, YOLOv5 пользовательский опыт в области обнаружения объектов. Это была не просто модель, а полноценная, готовая к производству платформа.
- Автор: Гленн Джокер
- Организация:Ultralytics
- Дата: 26 июня 2020 г.
- Ссылки:YOLOv5 , GitHub
Ключевые архитектурные особенности
- CSP-Darknet Backbone: использует сети Cross Stage Partial для улучшения градиентного потока и сокращения вычислений, надежная ручная конструкция, которая эффективно уравновешивает глубину и ширину.
- PANet Neck: сеть агрегации путей значительно улучшает поток информации, помогая модели лучше локализовать объекты путем объединения характеристик с разных уровней магистрали.
- Мозаичное расширение: новаторская техника расширения данных, которая объединяет четыре обучающих изображения в одно, позволяя модели эффективно учиться detect в разных масштабах и контекстах.
- Автоматическая привязка: автоматически рассчитывает оптимальные рамки привязки для вашего конкретного набора данных, упрощая процесс настройки для пользовательских данных.
Сильные и слабые стороны
Самая большая сила YOLOv5 — это его универсальность. Он работает на всех устройствах, от облачных серверов до Raspberry Pi и iPhone через CoreML. Его стратегия обучения «bag-of-freebies» обеспечивает высокую производительность без сложных настроек. Хотя его сырой mAP COCO чем COCO более новых исследовательских моделей, таких какYOLO, его надежность в реальных условиях, экспортируемость и массовая поддержка сообщества делают его очень актуальным.
Ориентиры производительности
В следующей таблице сравниваются характеристики обеих моделей. Обратите внимание, чтоYOLO mAP интенсивной оптимизации NAS, в то время как YOLOv5 скоростью и простотой экспорта.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Контекст производительности
ХотяYOLO более высокий mAP моделей аналогичного размера, реальная скорость вывода часто зависит от аппаратной поддержки определенных слоев (таких как блоки RepVGG), которые могут потребовать специальных шагов экспорта для правильного складывания. Стандартные операции YOLOv5 универсально оптимизированы практически для всех движков вывода.
Рекомендации по вариантам использования
При выборе между этими двумя архитектурами учитывайте конкретные потребности вашей среды развертывания.
Идеальные сценарии для DAMO-YOLO
- Академические исследования: если ваша цель — изучить NAS или выжать последние 0,1 % mAP соревнований, новая архитектураYOLO предлагает плодородную почву для экспериментов.
- GPU высокопроизводительных GPU : когда ограничения по памяти и вычислительной мощности нестрогие, а основным показателем является точность при выполнении сложных тестов.
Идеальные сценарии для Ultralytics YOLOv5
- Развертывание на периферии: для устройств, таких как NVIDIA или Raspberry Pi, простая архитектура YOLOv5 легко экспортируется в TensorRT и TFLite.
- Быстрое прототипирование: опыт «от нуля до героя» позволяет вам тренироваться на настраиваемом наборе данных и видеть результаты за считанные минуты.
- Производственные системы: стабильность — это ключевой фактор. YOLOv5 испытания в миллионах внедрений, что снижает риск неожиданных сбоев в производственных конвейерах.
Преимущество Ultralytics
ХотяYOLO интересные научные исследования, Ultralytics предлагает явные преимущества для разработчиков, создающих реальные приложения.
1. Простота использования и экосистема
Ultralytics объединяет весь рабочий процесс. Вы можете управлять наборами данных, обучать модели в облаке и развертывать их на различных конечных устройствах, не покидая экосистему. Документация обширна, а сообщество активно, что гарантирует, что вы никогда не застрянете на ошибке надолго.
2. Универсальность, превосходящая возможности обнаружения
YOLO в первую очередь детектор объектов. В отличие от него, Ultralytics поддерживают более широкий спектр задач, необходимых для современных приложений искусственного интеллекта:
- Сегментация экземпляров: точное маскирование объектов на уровне пикселей.
- Оценка позы: отслеживание ключевых точек на людях или животных.
- Ориентированная ограничивающая рамка (OBB): обнаружение повернутых объектов, таких как корабли, на спутниковых снимках.
- Классификация изображений: категоризация всего изображения.
3. Эффективность использования памяти и ресурсов
YOLO Ultralytics YOLO славятся эффективным использованием памяти. В отличие от архитектур с большим количеством трансформаторов или сложных конвейеров дистилляции, которые занимают много VRAM, модели типа YOLOv5 YOLO26 часто можно обучать на потребительских графических процессорах (таких как RTX 3060), что делает доступ к обучению искусственного интеллекта высокого уровня более демократичным.
4. Эффективность обучения
ОбучениеYOLO часто включает в себя сложную фазу «дистилляции», требующую предварительно обученной модели-учителя. Ultralytics используют упрощенный подход «bag-of-freebies». Вы загружаете предварительно обученные веса, указываете конфигурацию данных, и обучение сразу же начинается с оптимизированными гиперпараметрами.
Взгляд в будущее: YOLO26
Если вы начинаете новый проект в 2026 году, явным победителем не является ни один из вышеперечисленных вариантов. YOLO26 представляет собой вершину эффективности.
- Полная NMS: благодаря удалению функции Non-Maximum Suppression (NMS) YOLO26 упрощает логику развертывания и снижает разброс задержки вывода.
- Оптимизатор MuSGD: Вдохновленный обучением LLM, этот оптимизатор обеспечивает стабильную сходимость и сокращает время обучения.
- Оптимизация краев: благодаря удалению Distribution Focal Loss (DFL) и оптимизированным блокам YOLO26 достигает до 43% более быстрой инференции на CPU по сравнению с предыдущими поколениями, что делает его лучшим выбором для мобильных и IoT-приложений.
Пример кода: Вывод с помощью Ultralytics
Простота Ultralytics позволяет легко переключаться между поколениями моделей.
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize and save the results
for result in results:
result.show() # Display to screen
result.save(filename="output.jpg") # Save image to disk
Заключение
YOLO YOLOv5 важную роль в истории обнаружения объектов.YOLO потенциал поиска нейронных архитектур, а YOLOv5 стандарт удобства использования и внедрения. Однако эта область быстро развивается. Для тех, кто требует оптимального баланса скорости, точности и удобства для разработчиков, Ultralytics является лучшим выбором для современных приложений компьютерного зрения.
Для более глубокого изучения рекомендуем ознакомиться с сравнением других архитектур, таких как YOLO11 EfficientDet или RT-DETR YOLOv8.