Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 배포 옵션에 대한 비교 분석#

YOLO26은 20개 이상의 배포 옵션을 지원하며, 각 옵션은 런타임, 하드웨어 대상 또는 플랫폼에 따라 최적화되어 있습니다. PyTorch 및 ONNX부터 TensorRT, OpenVINO, CoreML 및 전용 에지 NPU 형식까지 다양합니다. 올바른 옵션을 선택하면 추론 속도, 하드웨어 제약 조건 및 통합 용이성 사이에서 균형을 맞출 수 있습니다. 이 가이드는 모든 옵션을 비교하므로 귀하의 애플리케이션에 가장 적합한 것을 선택한 다음, 안정적인 배포를 위해 모델 배포 모범 사례를 참고하시기 바랍니다.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

배포는 학습된 모델이 실제 작업을 시작하는 컴퓨터 비전 프로젝트 워크플로의 단계이므로, 내보내는 형식은 속도, 비용 및 이식성에 직접적인 영향을 미칩니다.

Link to this sectionYOLO26 모델에 적합한 배포 옵션을 선택하는 방법#

YOLO26 모델을 배포할 때 적절한 내보내기 형식을 선택하는 것은 매우 중요합니다. Ultralytics YOLO26 내보내기 문서에서 설명한 바와 같이, model.export() 함수는 학습된 모델을 다양한 환경 및 성능 요구 사항에 맞춰 다양한 형식으로 변환합니다.

이상적인 형식은 모델의 의도된 운영 환경 및 하드웨어에 따라 달라집니다.

수동 내보내기 건너뛰기

수동 내보내기 없이 관리형 배포를 하려면 Ultralytics Platform에서 제공하는 43개 글로벌 지역에 걸쳐 자동 확장이 가능한 추론 엔드포인트를 사용하십시오.

Link to this sectionYOLO26의 배포 옵션#

각 형식에 대한 간단한 설명과 사용 시기는 다음과 같습니다. 전체 내보내기 절차는 내보내기 문서를 참조하고, 병렬 비교 기준은 비교 테이블로 이동하십시오.

  • PyTorch (.pt): 기본 학습 및 추론 형식으로, 최대의 유연성과 CUDA GPU 가속을 제공합니다. 별도의 내보내기 단계가 필요 없어 연구 및 프로토타이핑에 이상적입니다.
  • TorchScript (torchscript): Python이 없는 C++ 런타임을 위해 모델을 직렬화하며, Python을 사용할 수 없는 프로덕션 시스템에 적합합니다.
  • ONNX (onnx): ONNX Runtime을 통해 광범위한 크로스 플랫폼 및 하드웨어 지원을 제공하는 프레임워크 독립적인 상호 운용 형식입니다.
  • OpenVINO (openvino): Intel CPU, 통합 GPU 및 NPU에서 최적화된 추론을 위한 Intel 툴킷으로, IoT 및 에지 컴퓨팅에서 흔히 사용됩니다.
  • TensorRT (engine): FP16 및 INT8 최적화를 통해 최고 수준의 GPU 추론을 제공하는 NVIDIA의 고성능 런타임입니다.
  • CoreML (coreml): Apple Neural Engine을 사용하여 iOS, macOS, watchOS 및 tvOS에서 실행되는 Apple의 온디바이스 형식입니다.
  • TF SavedModel (saved_model): TensorFlow Serving을 통한 확장 가능한 서버 측 서빙을 위한 TensorFlow의 표준 형식입니다.
  • TF GraphDef (pb): 고정된 계산 그래프가 필요한 환경을 위한 고정된 정적 그래프 TensorFlow 형식입니다.
  • TF Lite (tflite): 모바일 및 임베디드 하드웨어에서 온디바이스 추론을 수행하기 위한 경량 TensorFlow 런타임입니다.
  • TF Edge TPU (edgetpu): Google Coral Edge TPU 가속기를 위해 TF Lite 모델을 컴파일합니다.
  • TF.js (tfjs): WebGL을 통해 가속화되어 백엔드 없이 브라우저에서 직접 모델을 실행합니다.
  • PaddlePaddle (paddle): 중국에서 인기가 높고 광범위한 하드웨어 지원을 제공하는 Baidu의 딥러닝 프레임워크입니다.
  • MNN (mnn): 모바일 및 임베디드 ARM 및 x86-64 시스템에 최적화된 경량 고성능 추론 엔진입니다.
  • NCNN (ncnn): 모바일 ARM 장치에 최적화된 고성능 경량 추론 프레임워크입니다.
  • Sony IMX500 (imx): Raspberry Pi AI Camera와 같이 온칩 처리가 가능한 Sony의 IMX500 지능형 비전 센서를 위해 내보냅니다.
  • Rockchip RKNN (rknn): FP16 및 INT8 양자화를 사용하여 임베디드 보드의 Rockchip NPU를 타겟팅합니다.
  • ExecuTorch (executorch): XNNPACK을 통해 모바일(iOS 및 Android) 및 임베디드 시스템에서 실행되는 PyTorch의 기본 온디바이스 런타임입니다.
  • Axelera AI (axelera): 고처리량 에지 추론을 위해 PCIe 또는 M.2를 통해 Axelera의 Metis AIPU(최대 856 TOPS)로 컴파일합니다.
  • DEEPX (deepx): 임베디드 에지 추론을 위해 INT8 양자화를 사용하여 DEEPX NPU 하드웨어를 타겟팅합니다.
  • Qualcomm QNN (qnn): Qualcomm AI 스택을 통해 Snapdragon Hexagon NPU, Adreno GPU 및 CPU에서 온디바이스 추론을 수행합니다.

추가 에지 타겟의 경우, Hailo 통합은 YOLO 탐지 모델을 Hailo HEF로 컴파일합니다. 이는 직접적인 model.export() 타겟이 아닙니다. 탐지 모델은 먼저 ONNX로 내보낸 후, Hailo-8, Hailo-8L 및 Hailo-15 가속기를 위한 외부 Hailo Dataflow Compiler를 사용하여 HEF로 컴파일됩니다.

Link to this section배포 옵션 비교#

다음 표는 일반적으로 선택의 기준이 되는 기준에 따라 YOLO26 모델의 배포 옵션을 요약한 것입니다. 각 형식에 대한 자세한 내용은 내보내기 형식 문서를 참조하십시오.

배포 옵션성능 벤치마크호환성 및 통합커뮤니티 지원 및 생태계사례 연구유지보수 및 업데이트보안 고려 사항하드웨어 가속
PyTorch우수한 유연성; 원시 성능과 맞바꿀 수 있음Python 라이브러리와 우수한 호환성방대한 리소스 및 커뮤니티연구 및 프로토타입정기적이고 활발한 개발배포 환경에 따라 다름GPU 가속을 위한 CUDA 지원
TorchScriptPyTorch보다 프로덕션 환경에 더 적합함PyTorch에서 C++로의 원활한 전환전문적이지만 PyTorch보다는 범위가 좁음Python이 병목 현상인 산업 분야PyTorch와 일관된 업데이트전체 Python 없이 보안 향상PyTorch로부터 CUDA 지원 상속
ONNX런타임에 따라 다름다양한 프레임워크 전반에서 높음폭넓은 생태계, 많은 조직의 지원ML 프레임워크 간의 유연성새로운 연산을 위한 정기 업데이트안전한 변환 및 배포 관행 보장다양한 하드웨어 최적화
OpenVINOIntel 하드웨어에 최적화Intel 생태계 내에서 최고컴퓨터 비전 도메인에서 견고함Intel 하드웨어를 사용하는 IoT 및 엣지Intel 하드웨어를 위한 정기 업데이트민감한 애플리케이션을 위한 강력한 기능Intel 하드웨어에 맞춤 설계됨
TensorRTNVIDIA GPU에서 최상위 등급NVIDIA 하드웨어에 최적NVIDIA를 통한 강력한 네트워크실시간 비디오 및 이미지 추론새로운 GPU를 위한 빈번한 업데이트보안 강조NVIDIA GPU를 위해 설계됨
CoreML온디바이스 Apple 하드웨어에 최적화Apple 생태계 전용강력한 Apple 및 개발자 지원Apple 제품에서의 온디바이스 ML정기적인 Apple 업데이트개인정보 보호 및 보안에 중점Apple Neural Engine 및 GPU
TF SavedModel서버 환경에서 확장 가능TensorFlow 생태계 내에서 폭넓은 호환성TensorFlow 인기로 인한 방대한 지원대규모 모델 서빙Google 및 커뮤니티의 정기 업데이트엔터프라이즈를 위한 강력한 기능다양한 하드웨어 가속
TF GraphDef정적 계산 그래프에 대해 안정적TensorFlow 인프라와 잘 통합됨정적 그래프 최적화를 위한 리소스정적 그래프가 필요한 시나리오TensorFlow 코어와 함께 업데이트확립된 TensorFlow 보안 관행TensorFlow 가속 옵션
TF Lite모바일/임베디드 기기에서의 속도 및 효율성폭넓은 기기 지원Google이 지원하는 강력한 커뮤니티최소한의 풋프린트를 갖춘 모바일 애플리케이션모바일용 최신 기능최종 사용자 기기에서의 보안 환경GPU 및 DSP 등
TF Edge TPUGoogle의 Edge TPU 하드웨어에 최적화Edge TPU 기기 전용Google 및 타사 리소스와 함께 성장 중실시간 처리가 필요한 IoT 기기새로운 Edge TPU 하드웨어를 위한 개선 사항Google의 강력한 IoT 보안Google Coral을 위해 맞춤 설계됨
TF.js합리적인 브라우저 내 성능웹 기술 활용 시 높음웹 및 Node.js 개발자 지원인터랙티브 웹 애플리케이션TensorFlow 팀 및 커뮤니티 기여웹 플랫폼 보안 모델WebGL 및 기타 API로 향상됨
PaddlePaddle경쟁력 있고 사용하기 쉬우며 확장 가능함Baidu 생태계, 폭넓은 애플리케이션 지원중국을 중심으로 빠르게 성장 중중국 시장 및 언어 처리중국 AI 애플리케이션에 집중데이터 개인정보 보호 및 보안 강조Baidu의 Kunlun 칩 포함
MNN모바일 장치를 위한 고성능모바일 및 임베디드 ARM 시스템과 X86-64 CPU모바일/임베디드 ML 커뮤니티모바일 시스템 효율성모바일 장치에서의 고성능 유지 관리온디바이스 보안의 이점ARM CPU 및 GPU 최적화
NCNN모바일 ARM 기반 기기에 최적화모바일 및 임베디드 ARM 시스템틈새시장이지만 활발한 모바일/임베디드 ML 커뮤니티Android 및 ARM 시스템 효율성ARM에서의 고성능 유지온디바이스 보안의 이점ARM CPU 및 GPU 최적화
Sony IMX500매우 낮은 전력에서의 온센서 추론Sony IMX500 센서, Raspberry Pi AI CameraSony AITRIOS 생태계온카메라 에지 AISony SDK 및 MCT 툴체인 업데이트데이터가 센서에 유지됨Sony IMX500 온칩 가속기
Rockchip RKNNRockchip NPU에 최적화Rockchip SoC 보드 (예: RK3588)Rockchip 개발자 커뮤니티임베디드 SBC 및 에지 장치Rockchip RKNN-Toolkit 업데이트온디바이스 로컬 추론Rockchip NPU
ExecuTorch효율적인 온디바이스 PyTorch 런타임iOS, Android, XNNPACK을 통한 임베디드PyTorch 프로젝트 지원모바일 및 임베디드 앱PyTorch와 함께 유지 관리됨온디바이스 추론으로 데이터 로컬 유지XNNPACK 및 모바일 CPU/GPU 백엔드
Axelera AI매우 높은 처리량 (최대 856 TOPS)PCIe 또는 M.2 기반 Metis AIPUAxelera Voyager SDK고처리량 에지 추론Axelera SDK 업데이트온프레미스 에지 추론Axelera Metis AIPU
DEEPXINT8 최적화 NPU 추론DEEPX NPU 하드웨어DEEPX 개발자 도구 (dx_com, dx_engine)임베디드 에지 추론DEEPX SDK 및 런타임 업데이트온디바이스 로컬 추론DEEPX NPU
Qualcomm QNN빠른 온디바이스 Snapdragon 추론Snapdragon Hexagon NPU, Adreno GPU, CPUQualcomm AI Hub 생태계모바일 및 에지 Snapdragon 장치Qualcomm AI 스택 (QAIRT) 업데이트온디바이스 추론으로 데이터 로컬 유지Snapdragon Hexagon NPU

이 비교는 전반적인 개요를 제공합니다. 배포를 위해서는 프로젝트의 특정 요구 사항과 제약 조건을 각 옵션과 비교하고, 선택한 형식의 연결된 통합 가이드를 참조하십시오.

Link to this section결론#

YOLO26의 다양한 내보내기 형식을 사용하면 클라우드 GPU 서버부터 온센서 에지 카메라까지 거의 모든 환경에 맞게 모델을 조정할 수 있습니다. 형식을 선택한 후에는 최적화, 문제 해결 및 보안을 위해 모델 배포 모범 사례를 따르고, 어려움이 있을 때는 Ultralytics 커뮤니티의 도움을 받으시기 바랍니다.

Link to this sectionFAQ#

Link to this section다양한 하드웨어 플랫폼에서 YOLO26을 배포하기 위한 옵션에는 무엇이 있습니까?#

Ultralytics YOLO26은 다양한 배포 형식을 지원하며, 각 형식은 특정 환경과 하드웨어 플랫폼을 위해 설계되었습니다. 주요 형식은 다음과 같습니다:

  • PyTorch: 연구 및 프로토타이핑용으로, 뛰어난 Python 통합 기능을 제공합니다.
  • TorchScript: Python을 사용할 수 없는 프로덕션 환경용입니다.
  • ONNX: 플랫폼 간 호환성 및 하드웨어 가속용입니다.
  • OpenVINO: Intel 하드웨어에서 최적화된 성능을 제공합니다.
  • TensorRT: NVIDIA GPU에서 고속 추론을 제공합니다.

각 형식은 고유한 장점이 있습니다. 자세한 절차는 내보내기 프로세스 문서를 참조하십시오.

Link to this sectionIntel CPU에서 YOLO26 모델의 추론 속도를 어떻게 향상합니까?#

Intel CPU에서 추론 속도를 향상하려면 Intel의 OpenVINO 툴킷을 사용하여 YOLO26 모델을 배포할 수 있습니다. OpenVINO는 모델을 최적화하여 Intel 하드웨어를 효율적으로 활용함으로써 상당한 성능 향상을 제공합니다.

  1. model.export() 함수를 사용하여 YOLO26 모델을 OpenVINO 형식으로 변환하십시오.
  2. Intel OpenVINO 내보내기 문서의 자세한 설정 가이드를 따르십시오.

더 많은 통찰력을 얻으려면 블로그 게시물을 확인하십시오.

Link to this section모바일 기기에 YOLO26 모델을 배포할 수 있습니까?#

네, YOLO26 모델은 Android 및 iOS 플랫폼 모두를 위해 TensorFlow Lite(TF Lite)를 사용하여 모바일 기기에 배포할 수 있습니다. TF Lite는 모바일 및 임베디드 기기를 위해 설계되었으며 효율적인 온디바이스 추론을 제공합니다.

예시
# Export command for TFLite format
model.export(format="tflite")

모바일에 모델을 배포하는 방법에 대한 자세한 내용은 TF Lite 통합 가이드를 참조하십시오.

Link to this sectionYOLO26 모델의 배포 형식을 선택할 때 어떤 요소를 고려해야 합니까?#

YOLO26 배포 형식을 선택할 때는 다음 요소를 고려하십시오:

  • 성능: TensorRT와 같은 형식은 NVIDIA GPU에서 뛰어난 속도를 제공하며, OpenVINO는 Intel 하드웨어에 최적화되어 있습니다.
  • 호환성: ONNX는 다양한 플랫폼에서 폭넓은 호환성을 제공합니다.
  • 통합 용이성: CoreML이나 TF Lite와 같은 형식은 각각 iOS 및 Android와 같은 특정 생태계에 맞게 조정되었습니다.
  • 커뮤니티 지원: PyTorch 및 TensorFlow와 같은 형식은 광범위한 커뮤니티 리소스와 지원을 제공합니다.

비교 분석을 보려면 내보내기 형식 문서를 참조하십시오.

Link to this section웹 애플리케이션에 YOLO26 모델을 어떻게 배포합니까?#

웹 애플리케이션에 YOLO26 모델을 배포하려면 TensorFlow.js(TF.js)를 사용할 수 있습니다. 이를 통해 브라우저에서 직접 머신러닝 모델을 실행할 수 있습니다. 이 방식은 백엔드 인프라의 필요성을 없애고 실시간 성능을 제공합니다.

  1. YOLO26 모델을 TF.js 형식으로 내보내십시오.
  2. 내보낸 모델을 웹 애플리케이션에 통합하십시오.

단계별 지침은 TensorFlow.js 통합 가이드를 참조하십시오.

댓글