YOLO26 против YOLOv9: Следующая эволюция в обнаружении объектов в реальном времени
Ландшафт компьютерного зрения быстро развивается, с новыми архитектурами, постоянно расширяющими границы скорости и точности. В этом техническом сравнении мы рассмотрим различия между YOLO26 и YOLOv9, двумя весьма влиятельными моделями в области обнаружения объектов в реальном времени. Хотя обе модели предлагают различные архитектурные инновации, понимание их компромиссов в производительности, возможностей развертывания и требований к аппаратному обеспечению имеет решающее значение для выбора правильного инструмента для вашего следующего проекта в области зрения.
YOLO26: Оптимизированное для периферийных устройств мощное решение
Выпущенный в начале 2026 года, Ultralytics YOLO26 представляет собой скачок поколений в эффективности развертывания и стабильности обучения моделей. Разработанный как нативная сквозная платформа, он напрямую решает проблемы узких мест развертывания, которые исторически преследовали периферийные ИИ-приложения.
Подробности модели:
- Авторы: Гленн Джочер и Цзин Цю
- Организация:Ultralytics
- Дата: 2026-01-14
- GitHub:Репозиторий Ultralytics
- Документация:Документация YOLO26
Архитектура и инновации
YOLO26 фундаментально перерабатывает конвейер постобработки, представляя сквозную архитектуру без NMS. Устраняя необходимость в подавлении немаксимумов (NMS), модель достигает значительно меньшей вариативности задержки. Это значительно упрощает развертывание на мобильных и периферийных платформах, особенно при экспорте во фреймворки, такие как ONNX и Apple CoreML.
Кроме того, удаление Distribution Focal Loss (DFL) упрощает процесс экспорта и повышает совместимость с маломощными микроконтроллерами. Для повышения стабильности обучения YOLO26 интегрирует новый оптимизатор MuSGD, гибрид стохастического градиентного спуска (SGD) и Muon (вдохновленный инновациями в обучении больших языковых моделей). Это приводит к более быстрой сходимости и более надежному извлечению признаков на сложных наборах данных.
Инференс на периферийных устройствах
Благодаря архитектурным упрощениям и удалению DFL, YOLO26 обеспечивает до 43% более быструю инференцию на CPU, что делает его идеальным выбором для периферийных устройств с ограниченными ресурсами, таких как Raspberry Pi или NVIDIA Jetson Nano.
Для обнаружения особо сложных объектов на сценах, таких как аэроснимки с дронов, YOLO26 использует обновленные функции потерь ProgLoss + STAL. Они обеспечивают заметные улучшения в полноте распознавания мелких объектов. Кроме того, она обладает специфическими для задач улучшениями, включая многомасштабный прототип для сегментации экземпляров, оценку остаточного логарифмического правдоподобия (RLE) для оценки позы и специализированную угловую функцию потерь для обнаружения ориентированных ограничивающих рамок (OBB).
YOLOv9: Программируемая градиентная информация
Представленный в начале 2024 года, YOLOv9 привнес теоретические достижения в то, как нейронные сети обрабатывают поток градиентов на этапе обучения, сосредоточившись на эффективности параметров и сохранении глубоких признаков.
Подробности модели:
- Авторы: Чен-Яо Ванг и Хонг-Юань Марк Ляо
- Организация: Institute of Information Science, Academia Sinica, Taiwan
- Дата: 2024-02-21
- Arxiv:Статья YOLOv9
- GitHub:Репозиторий YOLOv9
- Документация:Документация YOLOv9
Архитектура и сильные стороны
YOLOv9 построен на концепции Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN). Эти концепции решают проблему информационного узкого места, часто наблюдаемую в глубоких нейронных сетях. Сохраняя существенную информацию в процессе прямого распространения, GELAN гарантирует, что градиенты, используемые для обновления весов, остаются надежными. Эта архитектура обеспечивает высокую точность и делает YOLOv9 сильным кандидатом для академических исследований в области теории нейронных сетей и оптимизации градиентного пути с использованием фреймворка PyTorch.
Ограничения
Несмотря на превосходную эффективность параметров, YOLOv9 в значительной степени полагается на традиционный NMS для постобработки ограничивающих рамок, что может создавать вычислительные узкие места во время инференса на периферийных устройствах. Кроме того, официальный репозиторий в основном ориентирован на обнаружение объектов, требуя значительных пользовательских инженерных решений для адаптации его к специализированным задачам, таким как tracking или оценка позы.
Сравнение производительности
При оценке этих моделей для реального развертывания критически важен баланс между точностью (mAP), скоростью инференса и использованием памяти. Модели Ultralytics известны своими низкими требованиями к памяти как во время обучения, так и во время инференса, требуя значительно меньше памяти CUDA, чем альтернативы на основе трансформеров, такие как RT-DETR.
Ниже представлено прямое сравнение производительности YOLO26 и YOLOv9 на наборе данных COCO. Лучшие значения в каждом столбце выделены жирным шрифтом.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Примечание: Скорость CPU для YOLOv9 опущена, так как она сильно варьируется в зависимости от конфигурации NMS и, как правило, медленнее, чем собственная реализация YOLO26 без NMS.
Сценарии использования и рекомендации
Выбор между YOLO26 и YOLOv9 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда выбирать YOLO26
YOLO26 является отличным выбором для:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Когда выбирать YOLOv9
YOLOv9 рекомендуется для:
- Исследования информационного узкого места: Академические проекты, изучающие архитектуры Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
- Исследования по оптимизации потока градиентов: Исследования, направленные на понимание и снижение потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинг обнаружения с высокой точностью: Сценарии, где высокая производительность YOLOv9 в бенчмарке COCO необходима в качестве эталонной точки для архитектурных сравнений.
Преимущество Ultralytics
Выбор модели включает в себя нечто большее, чем просто чтение бенчмарка точности; окружающая программная экосистема определяет, как быстро вы сможете перейти от сбора данных к производству.
Простота использования и экосистема
Параметр Ultralytics python API предлагает беспрепятственный путь от новичка до эксперта. Вместо клонирования сложных репозиториев или ручной настройки скриптов распределенного обучения, разработчики могут установить пакет через pip и немедленно начать обучение. Активно поддерживаемый экосистемы Ultralytics гарантирует частые обновления, автоматизированные интеграции с платформами машинного обучения, такими как Weights & Biases, и обширную документацию.
Другие модели Ultralytics
Если вы заинтересованы в изучении других моделей в экосистеме Ultralytics, вы также можете рассмотреть сравнение YOLO11 или классической YOLOv8, обе из которых обеспечивают исключительную гибкость для пользовательских приложений.
Универсальность в задачах компьютерного зрения
В то время как YOLOv9 в основном является движком для detect, YOLO26 — это универсальный инструмент компьютерного зрения. Используя единый унифицированный синтаксис, вы можете легко переключаться от detect объектов к пиксельной сегментации изображений или классификации целых изображений. Такая универсальность снижает технический долг по поддержке нескольких разрозненных кодовых баз для различных функций компьютерного зрения.
Эффективное обучение и развертывание
Эффективность обучения является краеугольным камнем философии Ultralytics. YOLO26 использует легкодоступные предварительно обученные веса и отличается значительно меньшим потреблением памяти по сравнению с громоздкими визуальными трансформерами. После обучения встроенные конвейеры экспорта позволяют выполнять преобразования в оптимизированные форматы, такие как TensorRT или TensorFlow Lite, одним щелчком мыши, упрощая путь к развертыванию.
Пример кода: Начало работы с YOLO26
Реализация YOLO26 удивительно проста. Следующий фрагмент кода на python демонстрирует, как загрузить предварительно обученную модель, обучить ее на пользовательских данных и выполнить инференс с использованием API Ultralytics.
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Uses GPU 0, or use 'cpu' for CPU training
)
# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the bounding boxes and confidences
predictions[0].show()
Используя скорость, упрощенную архитектуру и надежную экосистему YOLO26, команды могут выводить передовые приложения ИИ для зрения на рынок быстрее и с меньшими техническими препятствиями, чем когда-либо прежде.