Meet YOLO26: next-gen vision AI.

Link to this sectionСравнительный анализ вариантов развертывания YOLO26#

YOLO26 поддерживает более 20 вариантов развертывания, каждый из которых настроен под свою среду выполнения, целевое оборудование или платформу — от PyTorch и ONNX до TensorRT, OpenVINO, CoreML и специализированных форматов для edge-NPU. Выбор правильного варианта позволяет сбалансировать скорость вывода, аппаратные ограничения и простоту интеграции. В этом руководстве сравниваются все варианты, чтобы ты мог выбрать наиболее подходящий для своего приложения, а затем перейти к рекомендациям по развертыванию моделей для надежного внедрения.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

Развертывание — это этап рабочего процесса проекта компьютерного зрения, на котором обученная модель начинает выполнять реальную работу, поэтому формат, в который ты экспортируешь, напрямую влияет на скорость, стоимость и переносимость.

Link to this sectionКак выбрать правильный вариант развертывания для твоей модели YOLO26#

Когда приходит время развертывать твою модель YOLO26, выбор подходящего формата экспорта становится очень важным. Как описано в документации по экспорту Ultralytics YOLO26, функция model.export() преобразует твою обученную модель в различные форматы, адаптированные для разнообразных сред и требований к производительности.

Идеальный формат зависит от предполагаемого рабочего контекста твоей модели и оборудования.

Пропусти ручной экспорт

Для управляемого развертывания без ручного экспорта Ultralytics Platform предоставляет готовые эндпоинты для вывода с функцией автоматического масштабирования в 43 регионах по всему миру.

Link to this sectionВарианты развертывания YOLO26#

Вот краткое описание каждого формата и рекомендации, когда его использовать. Для полного пошагового руководства по экспорту см. документацию по экспорту; для сравнения критериев перейди к сравнительной таблице.

  • PyTorch (.pt): Родной формат для обучения и вывода, предлагающий максимальную гибкость и ускорение на GPU через CUDA — идеален для исследований и прототипирования, так как не требует шага экспорта.
  • TorchScript (torchscript): Сериализует модель для среды выполнения C++, не требующей Python; подходит для производственных систем, где Python недоступен.
  • ONNX (onnx): Независимый от фреймворка формат обмена с широкой кроссплатформенной и аппаратной поддержкой через ONNX Runtime.
  • OpenVINO (openvino): Инструментарий Intel для оптимизированного вывода на процессорах Intel, интегрированных GPU и NPU, широко распространенный в IoT и edge computing.
  • TensorRT (engine): Высокопроизводительная среда выполнения от NVIDIA, обеспечивающая вывод на GPU топового уровня с оптимизацией FP16 и INT8.
  • CoreML (coreml): Формат Apple для работы на устройстве в iOS, macOS, watchOS и tvOS с использованием Apple Neural Engine.
  • TF SavedModel (saved_model): Стандартный формат TensorFlow для масштабируемого серверного обслуживания с помощью TensorFlow Serving.
  • TF GraphDef (pb): Статический замороженный формат графа TensorFlow для сред, требующих фиксированного вычислительного графа.
  • TF Lite (tflite): Легковесная среда выполнения TensorFlow для вывода на устройстве на мобильном и встроенном оборудовании.
  • TF Edge TPU (edgetpu): Компилирует модели TF Lite для ускорителей Google Coral Edge TPU.
  • TF.js (tfjs): Запускает модели прямо в браузере без бэкенда, с ускорением через WebGL.
  • PaddlePaddle (paddle): Фреймворк Baidu для глубинного обучения, популярный в Китае, с широкой аппаратной поддержкой.
  • MNN (mnn): Легковесный высокопроизводительный движок вывода, оптимизированный для мобильных и встраиваемых систем ARM и x86-64.
  • NCNN (ncnn): Высокопроизводительный легковесный фреймворк вывода, настроенный для мобильных устройств ARM.
  • Sony IMX500 (imx): Экспорт для интеллектуального датчика зрения Sony IMX500 с обработкой на чипе, такого как Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn): Ориентирован на NPU Rockchip на встраиваемых платах с квантованием FP16 и INT8.
  • ExecuTorch (executorch): Родная среда выполнения PyTorch для устройств на мобильных (iOS и Android) и встраиваемых системах через XNNPACK.
  • Axelera AI (axelera): Компилирует для Metis AIPU от Axelera (до 856 TOPS) через PCIe или M.2 для высокопроизводительного вывода на границе сети.
  • DEEPX (deepx): Ориентирован на оборудование DEEPX NPU с квантованием INT8 для встраиваемого вывода на границе сети.
  • Qualcomm QNN (qnn): Вывод на устройстве на NPU Snapdragon Hexagon, Adreno GPU и CPU через стек Qualcomm AI.

Для еще одного целевого устройства edge, интеграция Hailo компилирует модели обнаружения YOLO в Hailo HEF. Это не прямая цель для model.export(): модели обнаружения сначала экспортируются в ONNX, а затем компилируются в HEF с помощью внешнего компилятора Hailo Dataflow Compiler для ускорителей Hailo-8, Hailo-8L и Hailo-15.

Link to this sectionСравнение вариантов развертывания#

В следующей таблице представлены варианты развертывания моделей YOLO26 по критериям, которые обычно определяют выбор. Для детального обзора каждого формата см. документацию по форматам экспорта.

Вариант развертыванияТесты производительностиСовместимость и интеграцияПоддержка сообщества и экосистемаПримеры использованияОбслуживание и обновленияВопросы безопасностиАппаратное ускорение
PyTorchХорошая гибкость; может идти в ущерб чистой производительностиОтлично работает с библиотеками PythonОбширные ресурсы и сообществоИсследования и прототипыРегулярная, активная разработкаЗависит от среды развертыванияПоддержка CUDA для ускорения на GPU
TorchScriptЛучше подходит для продакшена, чем PyTorchПлавный переход от PyTorch к C++Специализированная, но уже, чем у PyTorchИндустрия, где Python является «узким местом»Последовательные обновления вместе с PyTorchПовышенная безопасность без полноценного PythonНаследует поддержку CUDA от PyTorch
ONNXПеременная в зависимости от среды выполненияВысокая для различных фреймворковШирокая экосистема, поддерживаемая многими организациямиГибкость между ML-фреймворкамиРегулярные обновления для новых операцийОбеспечение безопасных методов конвертации и развертыванияРазличные аппаратные оптимизации
OpenVINOОптимизировано для оборудования IntelЛучше всего в рамках экосистемы IntelНадежно в области компьютерного зренияIoT и периферийные вычисления на оборудовании IntelРегулярные обновления для оборудования IntelНадежные функции для конфиденциальных приложенийАдаптировано для оборудования Intel
TensorRTВысший уровень для GPU NVIDIAЛучшее для оборудования NVIDIAСильная сеть через NVIDIAВывод видео и изображений в реальном времениЧастые обновления для новых GPUАкцент на безопасностиРазработано для GPU NVIDIA
CoreMLОптимизировано для оборудования Apple на устройствеЭксклюзивно для экосистемы AppleСильная поддержка Apple и разработчиковML на устройстве в продуктах AppleРегулярные обновления AppleФокус на конфиденциальности и безопасностиApple Neural Engine и GPU
TF SavedModelМасштабируемость в серверных средахШирокая совместимость в экосистеме TensorFlowШирокая поддержка благодаря популярности TensorFlowМасштабируемое обслуживание моделейРегулярные обновления от Google и сообществаНадежные функции для предприятияРазличные виды аппаратного ускорения
TF GraphDefСтабильно для статических вычислительных графовХорошо интегрируется с инфраструктурой TensorFlowРесурсы для оптимизации статических графовСценарии, требующие статических графовОбновления параллельно с ядром TensorFlowУстоявшиеся практики безопасности TensorFlowВарианты ускорения TensorFlow
TF LiteСкорость и эффективность на мобильных/встроенных устройствахШирокий спектр поддерживаемых устройствНадежное сообщество, поддержка GoogleМобильные приложения с минимальным объемом занимаемой памятиНовейшие функции для мобильных устройствБезопасная среда на устройствах конечных пользователейGPU и DSP в числе прочих
TF Edge TPUОптимизировано для оборудования Google Edge TPUЭксклюзивно для устройств Edge TPUРазвивается благодаря Google и сторонним ресурсамIoT-устройства, требующие обработки в реальном времениУлучшения для нового оборудования Edge TPUНадежная IoT-безопасность от GoogleСпециально разработано для Google Coral
TF.jsПриемлемая производительность в браузереВысокая производительность с веб-технологиямиПоддержка разработчиков Web и Node.jsИнтерактивные веб-приложенияВклад команды и сообщества TensorFlowМодель безопасности веб-платформыУлучшено с помощью WebGL и других API
PaddlePaddleКонкурентоспособно, просто в использовании и масштабируемоЭкосистема Baidu, широкая поддержка приложенийБыстрорастущая, особенно в КитаеКитайский рынок и обработка языкаФокус на китайских AI-приложенияхАкцент на конфиденциальности и безопасности данныхВключая чипы Kunlun от Baidu
MNNВысокая производительность для мобильных устройствМобильные и встроенные ARM-системы и X86-64 CPUСообщество мобильного/встроенного MLЭффективность мобильных системПоддержка высокой производительности на мобильных устройствахПреимущества безопасности на устройствеОптимизация для ARM CPU и GPU
NCNNОптимизировано для мобильных устройств на базе ARMМобильные и встроенные ARM-системыНишевое, но активное сообщество мобильного/встроенного MLЭффективность Android и ARM-системПоддержание высокой производительности на ARMПреимущества безопасности на устройствеОптимизация для ARM CPU и GPU
Sony IMX500Вывод на сенсоре при очень низком энергопотребленииДатчик Sony IMX500, Raspberry Pi AI CameraЭкосистема Sony AITRIOSEdge AI на камереОбновления Sony SDK и цепочки инструментов MCTДанные остаются на сенсореУскоритель на чипе Sony IMX500
Rockchip RKNNОптимизировано для NPU RockchipПлаты Rockchip SoC (например, RK3588)Сообщество разработчиков RockchipВстраиваемые SBC и устройства edgeОбновления Rockchip RKNN-ToolkitЛокальный вывод на устройствеRockchip NPU
ExecuTorchЭффективная среда выполнения PyTorch на устройствеiOS, Android, встраиваемые системы через XNNPACKПоддерживается проектом PyTorchМобильные и встраиваемые приложенияРазвивается вместе с PyTorchИнференс на устройстве позволяет сохранять данные локальноБэкенды XNNPACK и мобильные CPU/GPU
Axelera AIОчень высокая пропускная способность (до 856 TOPS)Metis AIPU через PCIe или M.2Axelera Voyager SDKВысокопроизводительный вывод на границе сетиОбновления Axelera SDKЛокальный вывод на границе сетиAxelera Metis AIPU
DEEPXВывод на NPU, оптимизированный под INT8Оборудование DEEPX NPUИнструменты разработчика DEEPX (dx_com, dx_engine)Встраиваемый вывод на границе сетиОбновления DEEPX SDK и среды выполненияЛокальный вывод на устройствеDEEPX NPU
Qualcomm QNNБыстрый вывод на устройствах SnapdragonNPU Snapdragon Hexagon, Adreno GPU, CPUЭкосистема Qualcomm AI HubМобильные и edge-устройства на базе SnapdragonОбновления стека Qualcomm AI (QAIRT)Инференс на устройстве позволяет сохранять данные локальноNPU Snapdragon Hexagon

Это сравнение дает тебе общее представление. Для развертывания сопоставь специфические требования и ограничения своего проекта с каждым вариантом и обратись к руководству по интеграции для выбранного формата.

Link to this sectionЗаключение#

Широкий спектр форматов экспорта YOLO26 позволяет адаптировать модель практически к любой среде, от облачного GPU-сервера до камеры на границе сети. Выбрав формат, следуй рекомендациям по развертыванию моделей для оптимизации, устранения неполадок и обеспечения безопасности, а если возникнут трудности — обращайся к сообществу Ultralytics.

Link to this sectionFAQ#

Link to this sectionКакие варианты развертывания доступны для YOLO26 на различных аппаратных платформах?#

Ultralytics YOLO26 поддерживает различные форматы развертывания, каждый из которых предназначен для определенных сред и аппаратных платформ. Ключевые форматы включают:

  • PyTorch для исследований и прототипирования с отличной интеграцией с Python.
  • TorchScript для производственных сред, где Python недоступен.
  • ONNX для кроссплатформенной совместимости и аппаратного ускорения.
  • OpenVINO для оптимизированной производительности на оборудовании Intel.
  • TensorRT для высокоскоростного инференса на NVIDIA GPUs.

У каждого формата есть свои уникальные преимущества. Подробное пошаговое руководство можно найти в нашей документации по процессу экспорта.

Link to this sectionКак мне повысить скорость инференса моей модели YOLO26 на процессоре Intel?#

Чтобы повысить скорость инференса на процессорах Intel, ты можешь развернуть свою модель YOLO26 с использованием инструментария Intel OpenVINO. OpenVINO обеспечивает значительный прирост производительности за счет оптимизации моделей для эффективного использования оборудования Intel.

  1. Конвертируй свою модель YOLO26 в формат OpenVINO с помощью функции model.export().
  2. Следуй подробному руководству по настройке в документации по экспорту Intel OpenVINO.

Дополнительную информацию можно найти в нашем блоге.

Link to this sectionМогу ли я развернуть модели YOLO26 на мобильных устройствах?#

Да, модели YOLO26 можно развертывать на мобильных устройствах с помощью TensorFlow Lite (TF Lite) как для платформ Android, так и для iOS. TF Lite разработан для мобильных и встроенных устройств, обеспечивая эффективный инференс непосредственно на устройстве.

Пример
# Export command for TFLite format
model.export(format="tflite")

Более подробную информацию о развертывании моделей на мобильных устройствах смотри в нашем руководстве по интеграции TF Lite.

Link to this sectionКакие факторы мне следует учитывать при выборе формата развертывания для моей модели YOLO26?#

При выборе формата развертывания для YOLO26 учитывай следующие факторы:

  • Производительность: Некоторые форматы, такие как TensorRT, обеспечивают исключительную скорость на NVIDIA GPUs, в то время как OpenVINO оптимизирован для оборудования Intel.
  • Совместимость: ONNX предлагает широкую совместимость на разных платформах.
  • Простота интеграции: Форматы вроде CoreML или TF Lite адаптированы для конкретных экосистем, таких как iOS и Android соответственно.
  • Поддержка сообщества: Форматы вроде PyTorch и TensorFlow обладают обширными ресурсами сообщества и поддержкой.

Для сравнительного анализа обратись к нашей документации по форматам экспорта.

Link to this sectionКак я могу развернуть модели YOLO26 в веб-приложении?#

Чтобы развернуть модели YOLO26 в веб-приложении, ты можешь использовать TensorFlow.js (TF.js), который позволяет запускать модели машинного обучения непосредственно в браузере. Такой подход устраняет необходимость в бэкенд-инфраструктуре и обеспечивает производительность в реальном времени.

  1. Экспортируй модель YOLO26 в формат TF.js.
  2. Интегрируй экспортированную модель в свое веб-приложение.

Пошаговые инструкции смотри в нашем руководстве по интеграции TensorFlow.js.

Комментарии