Link to this sectionYOLOv5 대 DAMO-YOLO#
실시간 컴퓨터 비전 분야는 지속적으로 발전하고 있으며, 연구자와 엔지니어들은 정확성, 속도, 사용 편의성의 완벽한 균형을 위해 노력하고 있습니다. 이 여정을 형성해 온 두 가지 주요 모델은 Ultralytics YOLOv5와 Alibaba의 DAMO-YOLO입니다.
본 가이드에서는 다음 배포를 위해 적합한 모델을 선택하는 데 도움을 드리고자 아키텍처, 성능 지표, 훈련 방법론에 대한 심층적인 기술 분석을 제공합니다.
Link to this section모델 배경#
기술적인 세부 사항을 살펴보기 전에, 이 영향력 있는 비전 모델들의 기원과 주요 설계 철학을 이해하는 것이 중요합니다.
Link to this sectionUltralytics YOLOv5#
Glenn Jocher와 Ultralytics 팀이 개발한 YOLOv5는 출시 이후 업계 표준이 되었습니다. PyTorch 프레임워크를 기반으로 구축되었으며, 간소화된 개발자 경험과 즉시 사용 가능한 강력한 배포 기능을 우선시했습니다.
- 저자: Glenn Jocher
- 조직: Ultralytics
- 날짜: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- 문서: Ultralytics YOLOv5 문서
Link to this sectionDAMO-YOLO#
Alibaba Group의 연구원들이 제작한 DAMO-YOLO는 신경 아키텍처 검색(NAS)과 고급 증류(distillation) 기법에 크게 중점을 둡니다. 이는 하드웨어 특화 성능의 이론적 한계를 밀어붙이며, 고도의 튜닝이 필요한 연구 및 에지 환경에 강력하게 대응합니다.
- 저자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직: Alibaba Group
- 날짜: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Link to this section아키텍처 혁신#
두 모델 모두 실시간 성능을 달성하기 위해 고유한 구조적 개념을 활용하지만, 접근 방식은 크게 다릅니다.
Link to this sectionYOLOv5: 안정성과 범용성#
YOLOv5는 수정된 CSP(Cross Stage Partial) 백본과 PANet(Path Aggregation Network) 넥을 활용합니다. 이 구조는 매우 효율적이며 훈련 및 추론 중 CUDA 메모리 사용량을 최소화합니다.
YOLOv5의 가장 큰 장점 중 하나는 작업 전반에 걸친 범용성입니다. 경계 상자(BBox) 예측을 넘어 이미지 분할 및 이미지 분류를 위한 전용 아키텍처를 제공하여 개발자들이 단일하고 응집력 있는 프레임워크를 중심으로 비전 파이프라인을 표준화할 수 있게 합니다.
Link to this sectionDAMO-YOLO: 자동화된 아키텍처 검색#
DAMO-YOLO의 핵심 혁신은 MAE-NAS 백본입니다. 다중 목표 진화 검색(Multi-Objective Evolutionary search)을 사용하여 Alibaba 팀은 탐지 정확도와 추론 속도의 균형을 동적으로 맞추는 백본을 찾아냈습니다.
또한 향상된 특징 융합을 위해 Efficient RepGFPN 넥을 특징으로 하며, 이는 위성 이미지 분석에서 흔히 볼 수 있는 복잡한 스케일 변화에 매우 유용합니다. ZeroHead 설계는 최종 예측 계층을 단순화하여 지연 시간을 줄이지만, 이 복잡한 구조 생성은 아키텍처를 경직되게 만들고 맞춤형 애플리케이션을 위해 수정하기 어렵게 만들 수 있습니다.
Transformer 기반 아키텍처는 종종 높은 VRAM 소비로 어려움을 겪습니다. YOLOv5와 DAMO-YOLO 모두 효율적인 합성곱 설계를 사용하여 메모리 사용량을 낮게 유지하지만, Ultralytics 모델은 소비자용 GPU에 맞게 최적화되어 있어 독립 연구자와 스타트업이 훨씬 더 쉽게 접근할 수 있습니다.
Link to this section성능 및 지표#
실시간 객체 탐지기를 평가하려면 mAP(mean Average Precision), 추론 속도 및 모델 크기 매개변수의 행렬을 살펴보아야 합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLO는 특정 매개변수 수에서 매우 경쟁력 있는 mAP 점수를 달성하지만, YOLOv5는 일관되게 뛰어난 TensorRT 속도와 나노 및 스몰 구성에 대한 놀랍도록 낮은 매개변수 수를 보여줍니다. 이러한 성능 균형을 통해 YOLOv5는 다양한 에지 배포 시나리오에서 효율적으로 작동합니다.
Link to this section학습 효율성 및 생태계#
모델의 이론적 정확도는 실용적인 구현 가능성만큼만 의미가 있습니다. 이 부분에서 두 모델은 상당히 갈라집니다.
Link to this section증류의 복잡성#
DAMO-YOLO는 다단계 훈련 방법론에 크게 의존합니다. AlignedOTA라고 하는 교사-학생 지식 증류 기법을 구현합니다. 이는 학생 모델에서 최대 성능을 추출하지만, 처음에 거대한 교사 모델을 훈련해야 합니다. 이는 컴퓨팅 시간, 에너지 비용, 필요한 하드웨어를 크게 증가시켜 민첩한 ML 팀에게 병목 현상을 일으킵니다.
Link to this sectionUltralytics의 강점: 사용 편의성#
반면 Ultralytics 에코시스템은 직관적인 API와 훈련 효율성으로 세계적으로 유명합니다. 활발한 개발과 방대한 오픈 소스 커뮤니티의 지원을 받아 개발자는 모델을 원활하게 훈련, 검증 및 배포할 수 있습니다.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")또한 Ultralytics는 Weights & Biases 및 Comet ML과 같은 도구를 통한 실험 추적에 대한 내장 지원을 제공하여 마찰 없는 워크플로우를 생성합니다.
Link to this section실제 활용 사례#
- YOLOv5는 빠르게 진행되는 프로덕션 환경에서 탁월합니다. 직관적인 내보내기 기능 덕분에 스마트 리테일 분석, 고속 제조 결함 탐지 및 CoreML을 통한 모바일 애플리케이션 통합에 가장 적합한 선택입니다.
- DAMO-YOLO는 엄격한 학술 벤치마킹 및 특정 고정 하드웨어 대상을 위해 부분적인 mAP 개선을 짜내기 위한 긴 증류 훈련 실행을 수행할 수 있는 방대한 계산 자원이 있는 시나리오에 매우 적합합니다.
Link to this section활용 사례 및 권장 사항#
YOLOv5와 DAMO-YOLO 중 하나를 선택하는 것은 특정 프로젝트 요구 사항, 배포 제약 조건 및 에코시스템 선호도에 따라 다릅니다.
Link to this sectionYOLOv5를 선택해야 하는 경우#
YOLOv5는 다음에 추천합니다:
- 검증된 프로덕션 시스템: YOLOv5의 긴 안정성 이력, 광범위한 문서, 방대한 커뮤니티 지원이 가치 있게 평가되는 기존 배포 환경.
- 리소스가 제한된 학습: YOLOv5의 효율적인 학습 파이프라인과 낮은 메모리 요구 사항이 유리한, GPU 자원이 제한된 환경.
- 광범위한 내보내기 형식 지원: ONNX, TensorRT, CoreML, TFLite를 포함한 다양한 형식으로 배포가 필요한 프로젝트.
Link to this sectionDAMO-YOLO를 선택해야 할 때#
DAMO-YOLO는 다음의 경우 권장됩니다:
- 고처리량 영상 분석: 배치-1(batch-1) 처리량이 주요 지표인 고정 NVIDIA GPU 인프라에서 높은 FPS 영상 스트림을 처리할 때.
- 산업 제조 라인: 조립 라인의 실시간 품질 검사와 같이 전용 하드웨어에서 엄격한 GPU 지연 시간 제약이 있는 시나리오.
- 신경망 아키텍처 탐색 연구: 자동화된 아키텍처 탐색(MAE-NAS) 및 효율적인 재매개변수화 백본이 탐지 성능에 미치는 영향을 연구할 때.
Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#
대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:
- NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
- 소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.
Link to this section다음 진화: YOLO26#
새 프로젝트를 시작하는 경우 미래를 내다보는 것을 강력히 권장합니다. Ultralytics YOLO26은 YOLOv5의 놀라운 기반을 바탕으로 최첨단 비전 AI를 재정의하는 혁신적인 발전을 통합합니다.
전 세계적인 호평과 함께 출시된 YOLO26은 네이티브 엔드투엔드 모델입니다. 엔드투엔드 NMS-Free 설계를 특징으로 하여 Non-Maximum Suppression 후처리를 완전히 제거하여 훨씬 빠르고 단순한 배포를 가능하게 합니다.
YOLO26의 주요 혁신 사항은 다음과 같습니다:
- MuSGD 옵티마이저: LLM 훈련 혁신에서 영감을 받은 SGD와 Muon의 이 조합은 매우 안정적인 훈련과 빠른 수렴을 보장합니다.
- 최대 43% 더 빠른 CPU 추론: 에지 컴퓨팅을 위해 크게 최적화되어 전용 GPU 없이 작동하는 IoT 장치에 완벽합니다.
- ProgLoss + STAL: 항공 드론 이미지 및 로봇 공학에 중요한 소형 객체 인식 성능을 획기적으로 향상시키는 고급 손실 함수입니다.
- 작업별 개선: 회전 경계 상자(OBB)를 위한 특수 각도 손실부터 정확한 자세 추정(Pose estimation)을 위한 잔차 로그 가능성 추정(RLE)까지, YOLO26은 복잡한 영역을 쉽게 처리합니다.
Link to this section결론#
YOLOv5와 DAMO-YOLO 모두 객체 탐지의 역사에서 자신의 위치를 확고히 했습니다. DAMO-YOLO는 신경 아키텍처 검색과 증류에 관한 흥미로운 연구 대상으로 남아 있습니다. 그러나 잘 유지 관리되는 에코시스템, 사용 편의성, 신속한 프로덕션 경로를 우선시하는 조직의 경우 Ultralytics 모델은 타의 추종을 불허합니다.
컴퓨터 비전 파이프라인이 미래 지향적이고 빠르며 매우 정확하도록 보장하기 위해 Ultralytics 플랫폼을 활용하여 YOLO26과 같은 차세대 모델을 주석 처리, 훈련 및 배포할 것을 강력히 권장합니다.