Link to this sectionYOLO26 배포 옵션에 대한 비교 분석#
YOLO26은 20개 이상의 배포 옵션을 지원하며, 각 옵션은 런타임, 하드웨어 대상 또는 플랫폼에 따라 최적화되어 있습니다. PyTorch 및 ONNX부터 TensorRT, OpenVINO, CoreML 및 전용 에지 NPU 형식까지 다양합니다. 올바른 옵션을 선택하면 추론 속도, 하드웨어 제약 조건 및 통합 용이성 사이에서 균형을 맞출 수 있습니다. 이 가이드는 모든 옵션을 비교하므로 귀하의 애플리케이션에 가장 적합한 것을 선택한 다음, 안정적인 배포를 위해 모델 배포 모범 사례를 참고하시기 바랍니다.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
배포는 학습된 모델이 실제 작업을 시작하는 컴퓨터 비전 프로젝트 워크플로의 단계이므로, 내보내는 형식은 속도, 비용 및 이식성에 직접적인 영향을 미칩니다.
Link to this sectionYOLO26 모델에 적합한 배포 옵션을 선택하는 방법#
YOLO26 모델을 배포할 때 적절한 내보내기 형식을 선택하는 것은 매우 중요합니다. Ultralytics YOLO26 내보내기 문서에서 설명한 바와 같이, model.export() 함수는 학습된 모델을 다양한 환경 및 성능 요구 사항에 맞춰 다양한 형식으로 변환합니다.
이상적인 형식은 모델의 의도된 운영 환경 및 하드웨어에 따라 달라집니다.
수동 내보내기 없이 관리형 배포를 하려면 Ultralytics Platform에서 제공하는 43개 글로벌 지역에 걸쳐 자동 확장이 가능한 추론 엔드포인트를 사용하십시오.
Link to this sectionYOLO26의 배포 옵션#
각 형식에 대한 간단한 설명과 사용 시기는 다음과 같습니다. 전체 내보내기 절차는 내보내기 문서를 참조하고, 병렬 비교 기준은 비교 테이블로 이동하십시오.
- PyTorch (
.pt): 기본 학습 및 추론 형식으로, 최대의 유연성과 CUDA GPU 가속을 제공합니다. 별도의 내보내기 단계가 필요 없어 연구 및 프로토타이핑에 이상적입니다. - TorchScript (
torchscript): Python이 없는 C++ 런타임을 위해 모델을 직렬화하며, Python을 사용할 수 없는 프로덕션 시스템에 적합합니다. - ONNX (
onnx): ONNX Runtime을 통해 광범위한 크로스 플랫폼 및 하드웨어 지원을 제공하는 프레임워크 독립적인 상호 운용 형식입니다. - OpenVINO (
openvino): Intel CPU, 통합 GPU 및 NPU에서 최적화된 추론을 위한 Intel 툴킷으로, IoT 및 에지 컴퓨팅에서 흔히 사용됩니다. - TensorRT (
engine): FP16 및 INT8 최적화를 통해 최고 수준의 GPU 추론을 제공하는 NVIDIA의 고성능 런타임입니다. - CoreML (
coreml): Apple Neural Engine을 사용하여 iOS, macOS, watchOS 및 tvOS에서 실행되는 Apple의 온디바이스 형식입니다. - TF SavedModel (
saved_model): TensorFlow Serving을 통한 확장 가능한 서버 측 서빙을 위한 TensorFlow의 표준 형식입니다. - TF GraphDef (
pb): 고정된 계산 그래프가 필요한 환경을 위한 고정된 정적 그래프 TensorFlow 형식입니다. - TF Lite (
tflite): 모바일 및 임베디드 하드웨어에서 온디바이스 추론을 수행하기 위한 경량 TensorFlow 런타임입니다. - TF Edge TPU (
edgetpu): Google Coral Edge TPU 가속기를 위해 TF Lite 모델을 컴파일합니다. - TF.js (
tfjs): WebGL을 통해 가속화되어 백엔드 없이 브라우저에서 직접 모델을 실행합니다. - PaddlePaddle (
paddle): 중국에서 인기가 높고 광범위한 하드웨어 지원을 제공하는 Baidu의 딥러닝 프레임워크입니다. - MNN (
mnn): 모바일 및 임베디드 ARM 및 x86-64 시스템에 최적화된 경량 고성능 추론 엔진입니다. - NCNN (
ncnn): 모바일 ARM 장치에 최적화된 고성능 경량 추론 프레임워크입니다. - Sony IMX500 (
imx): Raspberry Pi AI Camera와 같이 온칩 처리가 가능한 Sony의 IMX500 지능형 비전 센서를 위해 내보냅니다. - Rockchip RKNN (
rknn): FP16 및 INT8 양자화를 사용하여 임베디드 보드의 Rockchip NPU를 타겟팅합니다. - ExecuTorch (
executorch): XNNPACK을 통해 모바일(iOS 및 Android) 및 임베디드 시스템에서 실행되는 PyTorch의 기본 온디바이스 런타임입니다. - Axelera AI (
axelera): 고처리량 에지 추론을 위해 PCIe 또는 M.2를 통해 Axelera의 Metis AIPU(최대 856 TOPS)로 컴파일합니다. - DEEPX (
deepx): 임베디드 에지 추론을 위해 INT8 양자화를 사용하여 DEEPX NPU 하드웨어를 타겟팅합니다. - Qualcomm QNN (
qnn): Qualcomm AI 스택을 통해 Snapdragon Hexagon NPU, Adreno GPU 및 CPU에서 온디바이스 추론을 수행합니다.
추가 에지 타겟의 경우, Hailo 통합은 YOLO 탐지 모델을 Hailo HEF로 컴파일합니다. 이는 직접적인 model.export() 타겟이 아닙니다. 탐지 모델은 먼저 ONNX로 내보낸 후, Hailo-8, Hailo-8L 및 Hailo-15 가속기를 위한 외부 Hailo Dataflow Compiler를 사용하여 HEF로 컴파일됩니다.
Link to this section배포 옵션 비교#
다음 표는 일반적으로 선택의 기준이 되는 기준에 따라 YOLO26 모델의 배포 옵션을 요약한 것입니다. 각 형식에 대한 자세한 내용은 내보내기 형식 문서를 참조하십시오.
| 배포 옵션 | 성능 벤치마크 | 호환성 및 통합 | 커뮤니티 지원 및 생태계 | 사례 연구 | 유지보수 및 업데이트 | 보안 고려 사항 | 하드웨어 가속 |
|---|---|---|---|---|---|---|---|
| PyTorch | 우수한 유연성; 원시 성능과 맞바꿀 수 있음 | Python 라이브러리와 우수한 호환성 | 방대한 리소스 및 커뮤니티 | 연구 및 프로토타입 | 정기적이고 활발한 개발 | 배포 환경에 따라 다름 | GPU 가속을 위한 CUDA 지원 |
| TorchScript | PyTorch보다 프로덕션 환경에 더 적합함 | PyTorch에서 C++로의 원활한 전환 | 전문적이지만 PyTorch보다는 범위가 좁음 | Python이 병목 현상인 산업 분야 | PyTorch와 일관된 업데이트 | 전체 Python 없이 보안 향상 | PyTorch로부터 CUDA 지원 상속 |
| ONNX | 런타임에 따라 다름 | 다양한 프레임워크 전반에서 높음 | 폭넓은 생태계, 많은 조직의 지원 | ML 프레임워크 간의 유연성 | 새로운 연산을 위한 정기 업데이트 | 안전한 변환 및 배포 관행 보장 | 다양한 하드웨어 최적화 |
| OpenVINO | Intel 하드웨어에 최적화 | Intel 생태계 내에서 최고 | 컴퓨터 비전 도메인에서 견고함 | Intel 하드웨어를 사용하는 IoT 및 엣지 | Intel 하드웨어를 위한 정기 업데이트 | 민감한 애플리케이션을 위한 강력한 기능 | Intel 하드웨어에 맞춤 설계됨 |
| TensorRT | NVIDIA GPU에서 최상위 등급 | NVIDIA 하드웨어에 최적 | NVIDIA를 통한 강력한 네트워크 | 실시간 비디오 및 이미지 추론 | 새로운 GPU를 위한 빈번한 업데이트 | 보안 강조 | NVIDIA GPU를 위해 설계됨 |
| CoreML | 온디바이스 Apple 하드웨어에 최적화 | Apple 생태계 전용 | 강력한 Apple 및 개발자 지원 | Apple 제품에서의 온디바이스 ML | 정기적인 Apple 업데이트 | 개인정보 보호 및 보안에 중점 | Apple Neural Engine 및 GPU |
| TF SavedModel | 서버 환경에서 확장 가능 | TensorFlow 생태계 내에서 폭넓은 호환성 | TensorFlow 인기로 인한 방대한 지원 | 대규모 모델 서빙 | Google 및 커뮤니티의 정기 업데이트 | 엔터프라이즈를 위한 강력한 기능 | 다양한 하드웨어 가속 |
| TF GraphDef | 정적 계산 그래프에 대해 안정적 | TensorFlow 인프라와 잘 통합됨 | 정적 그래프 최적화를 위한 리소스 | 정적 그래프가 필요한 시나리오 | TensorFlow 코어와 함께 업데이트 | 확립된 TensorFlow 보안 관행 | TensorFlow 가속 옵션 |
| TF Lite | 모바일/임베디드 기기에서의 속도 및 효율성 | 폭넓은 기기 지원 | Google이 지원하는 강력한 커뮤니티 | 최소한의 풋프린트를 갖춘 모바일 애플리케이션 | 모바일용 최신 기능 | 최종 사용자 기기에서의 보안 환경 | GPU 및 DSP 등 |
| TF Edge TPU | Google의 Edge TPU 하드웨어에 최적화 | Edge TPU 기기 전용 | Google 및 타사 리소스와 함께 성장 중 | 실시간 처리가 필요한 IoT 기기 | 새로운 Edge TPU 하드웨어를 위한 개선 사항 | Google의 강력한 IoT 보안 | Google Coral을 위해 맞춤 설계됨 |
| TF.js | 합리적인 브라우저 내 성능 | 웹 기술 활용 시 높음 | 웹 및 Node.js 개발자 지원 | 인터랙티브 웹 애플리케이션 | TensorFlow 팀 및 커뮤니티 기여 | 웹 플랫폼 보안 모델 | WebGL 및 기타 API로 향상됨 |
| PaddlePaddle | 경쟁력 있고 사용하기 쉬우며 확장 가능함 | Baidu 생태계, 폭넓은 애플리케이션 지원 | 중국을 중심으로 빠르게 성장 중 | 중국 시장 및 언어 처리 | 중국 AI 애플리케이션에 집중 | 데이터 개인정보 보호 및 보안 강조 | Baidu의 Kunlun 칩 포함 |
| MNN | 모바일 장치를 위한 고성능 | 모바일 및 임베디드 ARM 시스템과 X86-64 CPU | 모바일/임베디드 ML 커뮤니티 | 모바일 시스템 효율성 | 모바일 장치에서의 고성능 유지 관리 | 온디바이스 보안의 이점 | ARM CPU 및 GPU 최적화 |
| NCNN | 모바일 ARM 기반 기기에 최적화 | 모바일 및 임베디드 ARM 시스템 | 틈새시장이지만 활발한 모바일/임베디드 ML 커뮤니티 | Android 및 ARM 시스템 효율성 | ARM에서의 고성능 유지 | 온디바이스 보안의 이점 | ARM CPU 및 GPU 최적화 |
| Sony IMX500 | 매우 낮은 전력에서의 온센서 추론 | Sony IMX500 센서, Raspberry Pi AI Camera | Sony AITRIOS 생태계 | 온카메라 에지 AI | Sony SDK 및 MCT 툴체인 업데이트 | 데이터가 센서에 유지됨 | Sony IMX500 온칩 가속기 |
| Rockchip RKNN | Rockchip NPU에 최적화 | Rockchip SoC 보드 (예: RK3588) | Rockchip 개발자 커뮤니티 | 임베디드 SBC 및 에지 장치 | Rockchip RKNN-Toolkit 업데이트 | 온디바이스 로컬 추론 | Rockchip NPU |
| ExecuTorch | 효율적인 온디바이스 PyTorch 런타임 | iOS, Android, XNNPACK을 통한 임베디드 | PyTorch 프로젝트 지원 | 모바일 및 임베디드 앱 | PyTorch와 함께 유지 관리됨 | 온디바이스 추론으로 데이터 로컬 유지 | XNNPACK 및 모바일 CPU/GPU 백엔드 |
| Axelera AI | 매우 높은 처리량 (최대 856 TOPS) | PCIe 또는 M.2 기반 Metis AIPU | Axelera Voyager SDK | 고처리량 에지 추론 | Axelera SDK 업데이트 | 온프레미스 에지 추론 | Axelera Metis AIPU |
| DEEPX | INT8 최적화 NPU 추론 | DEEPX NPU 하드웨어 | DEEPX 개발자 도구 (dx_com, dx_engine) | 임베디드 에지 추론 | DEEPX SDK 및 런타임 업데이트 | 온디바이스 로컬 추론 | DEEPX NPU |
| Qualcomm QNN | 빠른 온디바이스 Snapdragon 추론 | Snapdragon Hexagon NPU, Adreno GPU, CPU | Qualcomm AI Hub 생태계 | 모바일 및 에지 Snapdragon 장치 | Qualcomm AI 스택 (QAIRT) 업데이트 | 온디바이스 추론으로 데이터 로컬 유지 | Snapdragon Hexagon NPU |
이 비교는 전반적인 개요를 제공합니다. 배포를 위해서는 프로젝트의 특정 요구 사항과 제약 조건을 각 옵션과 비교하고, 선택한 형식의 연결된 통합 가이드를 참조하십시오.
Link to this section결론#
YOLO26의 다양한 내보내기 형식을 사용하면 클라우드 GPU 서버부터 온센서 에지 카메라까지 거의 모든 환경에 맞게 모델을 조정할 수 있습니다. 형식을 선택한 후에는 최적화, 문제 해결 및 보안을 위해 모델 배포 모범 사례를 따르고, 어려움이 있을 때는 Ultralytics 커뮤니티의 도움을 받으시기 바랍니다.
Link to this sectionFAQ#
Link to this section다양한 하드웨어 플랫폼에서 YOLO26을 배포하기 위한 옵션에는 무엇이 있습니까?#
Ultralytics YOLO26은 다양한 배포 형식을 지원하며, 각 형식은 특정 환경과 하드웨어 플랫폼을 위해 설계되었습니다. 주요 형식은 다음과 같습니다:
- PyTorch: 연구 및 프로토타이핑용으로, 뛰어난 Python 통합 기능을 제공합니다.
- TorchScript: Python을 사용할 수 없는 프로덕션 환경용입니다.
- ONNX: 플랫폼 간 호환성 및 하드웨어 가속용입니다.
- OpenVINO: Intel 하드웨어에서 최적화된 성능을 제공합니다.
- TensorRT: NVIDIA GPU에서 고속 추론을 제공합니다.
각 형식은 고유한 장점이 있습니다. 자세한 절차는 내보내기 프로세스 문서를 참조하십시오.
Link to this sectionIntel CPU에서 YOLO26 모델의 추론 속도를 어떻게 향상합니까?#
Intel CPU에서 추론 속도를 향상하려면 Intel의 OpenVINO 툴킷을 사용하여 YOLO26 모델을 배포할 수 있습니다. OpenVINO는 모델을 최적화하여 Intel 하드웨어를 효율적으로 활용함으로써 상당한 성능 향상을 제공합니다.
model.export()함수를 사용하여 YOLO26 모델을 OpenVINO 형식으로 변환하십시오.- Intel OpenVINO 내보내기 문서의 자세한 설정 가이드를 따르십시오.
더 많은 통찰력을 얻으려면 블로그 게시물을 확인하십시오.
Link to this section모바일 기기에 YOLO26 모델을 배포할 수 있습니까?#
네, YOLO26 모델은 Android 및 iOS 플랫폼 모두를 위해 TensorFlow Lite(TF Lite)를 사용하여 모바일 기기에 배포할 수 있습니다. TF Lite는 모바일 및 임베디드 기기를 위해 설계되었으며 효율적인 온디바이스 추론을 제공합니다.
# Export command for TFLite format
model.export(format="tflite")모바일에 모델을 배포하는 방법에 대한 자세한 내용은 TF Lite 통합 가이드를 참조하십시오.
Link to this sectionYOLO26 모델의 배포 형식을 선택할 때 어떤 요소를 고려해야 합니까?#
YOLO26 배포 형식을 선택할 때는 다음 요소를 고려하십시오:
- 성능: TensorRT와 같은 형식은 NVIDIA GPU에서 뛰어난 속도를 제공하며, OpenVINO는 Intel 하드웨어에 최적화되어 있습니다.
- 호환성: ONNX는 다양한 플랫폼에서 폭넓은 호환성을 제공합니다.
- 통합 용이성: CoreML이나 TF Lite와 같은 형식은 각각 iOS 및 Android와 같은 특정 생태계에 맞게 조정되었습니다.
- 커뮤니티 지원: PyTorch 및 TensorFlow와 같은 형식은 광범위한 커뮤니티 리소스와 지원을 제공합니다.
비교 분석을 보려면 내보내기 형식 문서를 참조하십시오.
Link to this section웹 애플리케이션에 YOLO26 모델을 어떻게 배포합니까?#
웹 애플리케이션에 YOLO26 모델을 배포하려면 TensorFlow.js(TF.js)를 사용할 수 있습니다. 이를 통해 브라우저에서 직접 머신러닝 모델을 실행할 수 있습니다. 이 방식은 백엔드 인프라의 필요성을 없애고 실시간 성능을 제공합니다.
- YOLO26 모델을 TF.js 형식으로 내보내십시오.
- 내보낸 모델을 웹 애플리케이션에 통합하십시오.
단계별 지침은 TensorFlow.js 통합 가이드를 참조하십시오.