배포
Ultralytics Platform은 YOLO 모델을 프로덕션 환경에 배포하기 위한 포괄적인 배포 옵션을 제공합니다. 브라우저 기반 추론으로 모델을 테스트하고, 전 세계 43개 지역의 전용 엔드포인트에 배포하며, 실시간으로 성능을 모니터링하세요.
참고: Ultralytics 시작하기 - 배포
개요
배포 섹션은 다음을 돕습니다.
- 테스트 모델을 브라우저에서 직접
Predict탭 - 배포: 전 세계 43개 리전의 전용 엔드포인트에 배포
- 요청 지표, 로그 및 상태 확인 모니터링
- 유휴 상태일 때 스케일링을 0으로 조정 (현재 배포 환경에서는 활성 인스턴스가 하나만 실행 중임)

배포 옵션
Ultralytics 플랫폼은 다양한 배포 경로를 제공합니다:
| 옵션 | 설명 | 최적 용도 |
|---|---|---|
| 예측 탭 | 이미지, 웹캠 및 예제를 사용한 브라우저 기반 추론 | 개발, 검증 |
| 공유 추론 | 3개 지역에 걸친 멀티 테넌트 서비스 | 가벼운 사용, 테스트 |
| 전용 엔드포인트 | 43개 지역에 걸친 단일 테넌트 서비스 | 프로덕션, 낮은 지연 시간 |
워크플로우
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| 단계 | 설명 |
|---|---|
| 테스트 | 모델을 다음으로 검증하십시오: Predict 탭 |
| 구성 | 지역과 배포 이름을 선택하세요(배포에는 고정된 기본 리소스가 사용됩니다) |
| 배포 | 전용 엔드포인트를 다음에서 생성합니다. Deploy 탭 |
| 모니터링 | 모니터링에서 요청, 지연 시간, 오류 및 로그 추적 |
아키텍처
공유 추론
공유 추론 서비스는 3개의 주요 지역에서 운영되며, 데이터 지역에 따라 요청을 자동으로 라우팅합니다:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| 리전 | 위치 |
|---|---|
| 미국 | 아이오와, 미국 |
| 유럽 | 벨기에, 유럽 |
| AP | 홍콩, 아시아 태평양 |
전용 엔드포인트
Ultralytics Cloud에서 전 세계 43개 지역에 배포:
- 아메리카: 14개 리전
- 유럽: 13개 지역
- 아시아 태평양: 12개 지역
- 중동 및 아프리카: 4개 지역
각 엔드포인트는 다음과 같은 단일 테넌트 서비스입니다:
- 의 기본 리소스
1 CPU,2 GiB기억,minInstances=0,maxInstances=1 - 유휴 상태일 때 스케일을 0으로 설정
- 고유한 엔드포인트 URL
- 독립적인 모니터링, 로그 기록 및 상태 점검
배포 페이지
사이드바의 ~ 아래에서 전역 배포 페이지에 접근 Deploy. 이 페이지에는 다음이 표시됩니다:
- 세계 지도 (배포 지역 핀 포함, 인터랙티브 지도)
- 개요 카드: 총 요청 (24시간), 활성 배포, 오류율 (24시간), P95 지연 시간 (24시간)
- 배포 목록: 카드, 컴팩트, 테이블의 세 가지 보기 모드
- 새 배포 버튼을 사용하여 완료된 모든 모델에서 엔드포인트 생성

자동 폴링
이 페이지는 보통 15초마다 폴링을 수행합니다. 배포가 전환 상태에 있을 때는 (creating, deploying또는 stopping), 더 빠른 피드백을 위해 폴링 간격이 3초마다로 늘어납니다.
주요 기능
글로벌 커버리지
다음 43개 리전을 통해 사용자와 가까운 곳에 배포하세요:
- 북미, 남미
- 유럽, 중동, 아프리카
- 아시아 태평양, 오세아니아
스케일링 특성
현재 엔드포인트는 다음과 같이 동작합니다:
- 제로 스케일링: 유휴 상태일 때 비용 없음 (기본값)
- 단일 활성 인스턴스:
maxInstances현재 상한선이1모든 요금제에서
비용 절감
스케일-투-제로는 기본적으로 활성화되어 있습니다(최소 인스턴스 = 0). 활성 추론 시간에 대해서만 요금이 부과됩니다.
낮은 지연 시간
전용 엔드포인트는 다음을 제공합니다:
- 콜드 스타트: 약 5-15초 (캐시된 컨테이너), 최대 약 45초 (첫 배포 시)
- 웜 추론: 50-200ms (모델에 따라 다름)
- 최적의 성능을 위한 리전별 라우팅
건강 검진
각 실행 중인 배포에는 다음을 포함하는 자동 상태 확인이 포함됩니다:
- 실시간 상태 표시기 (정상/비정상)
- 응답 지연 시간 표시
- 상태가 좋지 않을 때 자동 재시도 (20초마다 폴링)
- 수동 새로고침 버튼
빠른 시작
2분 이내에 모델 배포:
- 모델을 프로젝트에 훈련시키거나 업로드하세요
- 모델의 배포 탭으로 이동하세요
- 지연 시간 테이블에서 지역을 선택하십시오
- 배포를 클릭합니다. — 엔드포인트가 활성화됩니다.
빠른 배포
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
배포 후에는 API 키와 함께 엔드포인트 URL을 사용하여 모든 애플리케이션에서 추론 요청을 전송하십시오.
빠른 링크
FAQ
공유 추론과 전용 추론의 차이점은 무엇입니까?
| 기능 | 공유 | 전용 |
|---|---|---|
| 지연 시간 | 가변적 | 일관적 |
| 비용 | 무료 (포함) | 무료(기본), 사용량 기반(고급) |
| 규모 | 제한적 | 스케일-투-제로, 단일 인스턴스 |
| 리전 | 3 | 43 |
| URL | 일반적 | 사용자 정의 |
| 요율 | 분당 20회 요청 | 무제한 |
배포는 얼마나 걸립니까?
전용 엔드포인트 배포는 일반적으로 1-2분 소요됩니다.
- 이미지 풀링(약 30초)
- 컨테이너 시작(약 30초)
- 상태 확인(약 30초)
여러 모델을 배포할 수 있습니까?
네, 각 모델은 서로 다른 리전에 여러 엔드포인트를 가질 수 있습니다. 배포 횟수는 요금제에 따라 제한됩니다: 무료 3, Pro 10, 엔터프라이즈 unlimited.
엔드포인트가 유휴 상태일 때 어떻게 됩니까?
스케일 투 제로(scale-to-zero) 활성화 시:
- 비활성 상태 후 엔드포인트 축소
- 첫 요청 시 콜드 스타트 발생
- 후속 요청은 빠름
휴지 기간 후 첫 요청은 콜드 스타트를 유발합니다.