Link to this sectionDAMO-YOLO vs YOLOv7#
컴퓨터 비전의 급격한 발전으로 정밀도와 연산 비용 간의 균형을 맞추도록 설계된 고효율 객체 탐지 모델이 탄생했습니다. 2022년에 소개된 주목할 만한 두 모델은 DAMO-YOLO와 YOLOv7입니다. 두 모델 모두 실시간 비전 작업의 한계를 뛰어넘는 것을 목표로 하지만, 매우 다른 아키텍처 패러다임과 학습 방법론을 통해 결과를 달성합니다.
이 포괄적인 기술 비교는 두 모델의 차별화된 접근 방식을 탐구하고, 아키텍처, 배포 잠재력 및 성능 지표를 검토하여 머신러닝 엔지니어가 자신의 컴퓨터 비전 애플리케이션에 적합한 도구를 선택하도록 돕습니다.
Link to this section모델 기원 및 메타데이터#
심층적인 기술 분석에 앞서, 이 두 컴퓨터 비전 모델의 기원을 맥락적으로 파악하는 것이 중요합니다.
Link to this sectionDAMO-YOLO#
Alibaba Group 연구원들이 개발한 DAMO-YOLO는 자동화된 아키텍처 검색 및 증류(distillation)를 통해 속도와 정확도를 모두 최적화하기 위해 도입되었습니다.
- 저자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직: Alibaba Group
- 날짜: 2022년 11월 23일
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Link to this sectionYOLOv7#
2022년 중반에 최신 기술(SOTA)로 출시된 YOLOv7은 배포 비용을 증가시키지 않으면서 학습 가능한 "bag-of-freebies"를 도입하여 실시간 추론 성능을 한층 더 높였습니다.
- 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 기관: 대만 중앙연구원 정보과학연구소
- 날짜: 2022년 7월 6일
- Arxiv: 2207.02696
- 문서: YOLOv7 설명서
YOLOv7은 Ultralytics 생태계 내에서 공식적으로 지원되므로 통합 API를 통해 원활한 학습, 검증 및 내보내기가 가능합니다.
Link to this section아키텍처 혁신#
Link to this sectionDAMO-YOLO: NAS 및 증류#
DAMO-YOLO는 최대 효율을 지향하는 여러 최첨단 기술을 통합합니다:
- NAS 백본: 신경 아키텍처 검색(NAS)을 활용하여 지연 시간에 민감한 환경에 맞춘 최적의 백본(MAE-NAS)을 자동으로 설계합니다.
- 효율적인 RepGFPN: 여러 스케일에 걸쳐 특징 융합 효율성을 크게 향상시키는 수정된 일반화 특징 피라미드 네트워크입니다.
- ZeroHead 및 AlignedOTA: 경량 탐지 헤드와 최적화된 레이블 할당 전략(AlignedOTA)을 통합하여 연산 오버헤드를 줄입니다.
- 증류 강화: 학습 중 지식 증류를 적극적으로 활용하여 파라미터 수를 늘리지 않고도 소형 모델 변형의 성능을 향상시킵니다.
Link to this sectionYOLOv7: E-ELAN 및 Bag-of-Freebies#
YOLOv7은 그래디언트 경로 최적화와 강력한 학습 전략에 중점을 둔 보다 구조적인 엔지니어링 접근 방식을 취했습니다.
- E-ELAN 아키텍처: 확장된 효율적 레이어 집계 네트워크(Extended Efficient Layer Aggregation Network)는 최단 및 최장 그래디언트 경로를 제어하여 모델이 더 다양한 특징을 학습할 수 있게 하며, 효과적인 학습 수렴을 보장합니다.
- 모델 스케일링: 연결(concatenation) 기반 모델에 맞춘 복합 스케일링 방식을 도입하여 구조적 정렬을 위해 깊이와 너비를 동시에 스케일링합니다.
- 학습 가능한 Bag-of-Freebies: 식별 연결이 없는 재매개변수화된 컨볼루션(RepConv)과 같은 기술 및 동적 레이블 할당 전략을 사용하여 추론 속도에 영향을 주지 않으면서 학습 중 정확도를 높입니다.
Link to this section성능 분석#
평균 정밀도(mAP), 속도 및 효율성을 평가할 때 두 모델 모두 인상적인 지표를 보여주지만, 타겟팅하는 영역은 약간 다릅니다. YOLOv7은 고정밀 GPU 배포에 크게 집중하는 반면, DAMO-YOLO의 NAS 기반 구조는 공격적인 저지연 CPU 및 엣지 배포를 목표로 합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
지표에서 볼 수 있듯이 DAMO-YOLO는 매우 가벼운 변형(8.5M 파라미터만 사용하는 tiny 모델 등)을 제공하지만, YOLOv7은 더 높은 전반적인 정확도 피크를 달성하며 YOLOv7x는 COCO 데이터셋에서 53.1 mAP라는 인상적인 수치를 기록합니다.
Link to this sectionUltralytics 생태계의 이점#
이론적 아키텍처도 중요하지만 모델의 실용성은 생태계에 의해 결정됩니다. YOLOv7과 같이 Ultralytics가 지원하는 모델은 잘 관리된 생태계와 독보적인 사용 편의성의 이점을 누립니다.
- 성능 균형: Ultralytics 모델은 추론 속도와 탐지 정확도 간의 최적의 절충점을 지속적으로 찾아내어 엣지 디바이스와 클라우드 기반 모델 배포 모두에 이상적입니다.
- 메모리 요구 사항: 더 무거운 Transformer 기반 모델과 달리 Ultralytics YOLO 모델은 학습 중에 낮은 CUDA 메모리 요구 사항을 유지합니다. 이를 통해 더 큰 배치 크기가 가능해져 소비자 등급 하드웨어에서도 학습 프로세스가 간소화됩니다.
- 다재다능함: Ultralytics 프레임워크는 객체 탐지를 넘어 인스턴스 분할 및 자세 추정과 같은 작업으로 확장되어 개발자에게 완벽한 컴퓨터 비전 툴킷을 제공합니다.
Ultralytics 패키지를 사용하면 고도로 최적화된 데이터 로더와 사전 학습된 가중치를 활용하여 데이터셋에서 완전히 학습된 모델로 몇 분 만에 원활하게 전환할 수 있습니다.
Link to this section코드 예제: Ultralytics로 YOLOv7 학습하기#
Ultralytics Python API를 사용하면 YOLOv7을 컴퓨터 비전 파이프라인에 통합하는 것이 매우 간단합니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)Link to this section새로운 표준: YOLO26 소개#
YOLOv7과 DAMO-YOLO가 2022년에 상당한 돌파구를 마련했지만, 비전 AI 분야는 빠르게 움직이고 있습니다. 오늘날 새로운 프로젝트를 시작하는 팀에게 권장되는 모델은 2026년 1월에 출시된 최첨단 Ultralytics YOLO26입니다.
YOLO26은 최첨단 혁신을 통합하여 성능과 사용성 측면에서 세대적 도약을 가져왔습니다:
- 종단간(End-to-End) NMS 프리 설계: YOLO26은 네이티브 종단간 모델입니다. 비최대 억제(NMS) 후처리를 제거함으로써 YOLOv10이 처음 개척한 패러다임 변화인 더 빠르고 간단한 배포 로직을 제공합니다.
- MuSGD 옵티마이저: Moonshot AI의 Kimi K2와 같은 대규모 언어 모델 혁신에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드를 활용합니다. 이 옵티마이저는 매우 안정적인 학습 역학을 보장하고 훨씬 더 빠른 수렴 속도를 제공합니다.
- 최대 43% 더 빠른 CPU 추론: 분포 초점 손실(DFL)의 목표 제거와 심층적인 구조적 개선을 통해 YOLO26은 저전력 엣지 컴퓨팅에 최적화되어 있으며 비GPU 하드웨어에서 이전 세대보다 뛰어난 성능을 발휘합니다.
- ProgLoss + STAL: 항공 이미지, 로봇 공학 및 보안 모니터링 애플리케이션에 필수적인 기능인 소형 객체 인식 기능을 명시적으로 목표로 하고 개선하는 고급 신규 손실 함수를 통합합니다.
- 작업별 개선 사항: 표준 탐지를 넘어 YOLO26은 분할을 위한 다중 스케일 프로토타이핑, 자세 추정을 위한 RLE, 지향성 경계 상자(OBB)를 위한 특정 각도 손실 등 다양한 작업을 위한 맞춤형 개선 사항을 제공합니다.
Link to this section이상적인 사용 사례#
올바른 아키텍처 선택은 전적으로 목표 배포 환경과 프로젝트 제약 조건에 달려 있습니다.
DAMO-YOLO를 선택해야 하는 경우:
- 원시 파라미터 수를 매우 낮게 유지해야 하는(예: 마이크로컨트롤러) 리소스 제한적인 엣지 환경에서 작업하는 경우입니다.
- Alibaba의 독점 클라우드 서비스와 특별히 통합된 자동화 머신러닝 파이프라인을 활용하는 경우입니다.
YOLOv7을 선택해야 하는 경우:
- 앵커 기반의 고정밀 추론을 위해 이미 최적화된 기존 GPU 파이프라인이 있는 경우입니다.
- 고속 자율주행차 또는 고급 로봇 공학과 같이 실시간 정확도가 가장 중요한 환경에서 운영되는 경우입니다.
YOLO26을 선택해야 하는 경우(권장):
- 처음부터 새로운 컴퓨터 비전 애플리케이션을 구축 중이며 정밀도와 CPU/엣지 추론 속도 모두에서 절대적인 최첨단 기술이 필요한 경우입니다.
- NMS 연산자 제약 조건을 다룰 필요 없이 빠른 배포(CoreML 또는 TensorRT로 내보내기 등)가 필요한 경우입니다.
- 클라우드 학습, 데이터셋 관리 및 자동화된 배포를 위해 Ultralytics 플랫폼의 전체 기능을 활용하려는 경우입니다.
개발자는 Ultralytics 모델의 강력한 생태계를 활용하여 엔지니어링 시간을 대폭 단축하는 동시에 실제 애플리케이션에 대한 최고 수준의 예측 성능을 확보할 수 있습니다.