콘텐츠로 건너뛰기

배포

Ultralytics Platform은 YOLO 모델을 프로덕션 환경에 배포하기 위한 포괄적인 배포 옵션을 제공합니다. Inference API로 모델을 테스트하고, 전용 엔드포인트에 배포하며, 실시간으로 성능을 모니터링할 수 있습니다.

개요

배포 섹션은 다음을 돕습니다.

  • 브라우저에서 직접 모델 테스트
  • 배포: 전 세계 43개 리전의 전용 엔드포인트에 배포
  • 모니터링: 요청 지표 및 로그 모니터링
  • 스케일: 트래픽에 따라 자동 스케일

배포 옵션

Ultralytics 플랫폼은 다양한 배포 경로를 제공합니다:

옵션설명최적 용도
테스트 탭브라우저 기반 추론 테스트개발, 검증
공유 API멀티테넌트 추론 서비스가벼운 사용, 테스트
전용 엔드포인트싱글테넌트 프로덕션 서비스프로덕션, 낮은 지연 시간

워크플로우

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
단계설명
테스트sample_images로 모델 검증
구성리전 및 스케일링 옵션 선택
배포전용 엔드포인트 생성
모니터링요청, 지연 시간 및 오류 track

아키텍처

공유 추론

공유 추론 서비스는 3개의 주요 리전에서 실행됩니다:

리전위치
미국아이오와, 미국
유럽벨기에, 유럽
AP아시아 태평양 지역, 대만

요청은 데이터 리전으로 자동으로 라우팅됩니다.

전용 엔드포인트

전 세계 43개 리전에 배포:

  • 미주: 15개 리전
  • 유럽: 12개 리전
  • 아시아 태평양: 16개 리전

각 엔드포인트는 다음과 같은 단일 테넌트 서비스입니다:

  • 전용 컴퓨팅 리소스
  • 자동 스케일링 (0-N 인스턴스)
  • 사용자 지정 URL
  • 독립적인 모니터링

주요 기능

글로벌 커버리지

다음 43개 리전을 통해 사용자와 가까운 곳에 배포하세요:

  • 북미, 남미
  • 유럽, 중동, 아프리카
  • 아시아 태평양, 오세아니아

자동 스케일링

엔드포인트는 자동으로 스케일링됩니다:

  • 제로 스케일: 유휴 상태일 때 비용 없음
  • 스케일 업: 트래픽 급증 처리
  • 구성 가능한 제한: 최소/최대 인스턴스 설정

낮은 지연 시간

전용 엔드포인트는 다음을 제공합니다:

  • 콜드 스타트: ~2-5초
  • 웜 추론: 50-200ms (모델에 따라 다름)
  • 최적의 성능을 위한 리전별 라우팅

FAQ

공유 추론과 전용 추론의 차이점은 무엇입니까?

기능공유전용
지연 시간가변적일관적
비용요청당 지불가동 시간당 지불
규모제한적구성 가능
리전343
URL일반적사용자 정의

배포는 얼마나 걸립니까?

전용 엔드포인트 배포는 일반적으로 1-2분 소요됩니다.

  1. 이미지 풀링(약 30초)
  2. 컨테이너 시작(약 30초)
  3. 상태 확인(약 30초)

여러 모델을 배포할 수 있습니까?

예, 각 모델은 다른 지역에 여러 엔드포인트를 가질 수 있습니다. 총 엔드포인트 수에는 제한이 없습니다(요금제에 따라 다름).

엔드포인트가 유휴 상태일 때 어떻게 됩니까?

스케일 투 제로(scale-to-zero) 활성화 시:

  • 비활성 상태 후 엔드포인트 축소
  • 첫 요청 시 콜드 스타트 발생
  • 후속 요청은 빠름

콜드 스타트를 방지하려면 최소 인스턴스를 0보다 크게 설정하십시오.



5; 20 전에 생성됨 ✏️ 14 전에 업데이트됨
glenn-jocher

댓글