DAMO-YOLO 대 YOLOv7: 실시간 객체 탐지 모델 평가

컴퓨터 비전의 빠른 발전은 정밀도와 연산 비용 간의 균형을 맞추도록 설계된 매우 효율적인 객체 탐지 모델들을 탄생시켰습니다. 2022년에 소개된 주목할 만한 두 모델은 DAMO-YOLOYOLOv7입니다. 두 모델 모두 실시간 비전 작업의 한계를 뛰어넘는 것을 목표로 하지만, 서로 매우 다른 아키텍처 패러다임과 학습 방법론을 통해 결과를 달성합니다.

이 포괄적인 기술 비교에서는 두 모델의 독특한 접근 방식을 탐구하며, 아키텍처, 배포 가능성 및 성능 지표를 검토하여 머신 러닝 엔지니어가 특정 컴퓨터 비전 애플리케이션에 적합한 도구를 선택하도록 돕습니다.

모델 기원 및 메타데이터

깊이 있는 기술 분석에 앞서, 이 두 컴퓨터 비전 모델의 기원을 맥락적으로 파악하는 것이 중요합니다.

DAMO-YOLO

Alibaba Group 연구원들이 개발한 DAMO-YOLO는 자동화된 아키텍처 탐색 및 증류(distillation)를 통해 속도와 정확도를 모두 최적화하기 위해 도입되었습니다.

DAMO-YOLO에 대해 더 알아보기

YOLOv7

2022년 중반 최첨단 기술로 출시된 YOLOv7은 배포 비용을 증가시키지 않으면서 학습 가능한 "bag-of-freebies"를 도입하여 실시간 추론 성능을 한층 더 끌어올렸습니다.

YOLOv7에 대해 자세히 알아보기

지원되는 생태계

YOLOv7은 Ultralytics 생태계 내에서 공식적으로 지원되며, 통합된 API를 통해 원활한 학습, 검증 및 내보내기(export)를 가능하게 합니다.

아키텍처 혁신

DAMO-YOLO: NAS 및 증류(Distillation)

DAMO-YOLO는 최대 효율을 지향하는 여러 최첨단 기술을 통합합니다:

  • NAS 백본: 신경망 아키텍처 탐색(NAS)을 활용하여 지연 시간에 민감한 환경에 맞춘 최적의 백본(MAE-NAS)을 자동으로 설계합니다.
  • 효율적인 RepGFPN: 다중 스케일에 걸쳐 특징 융합 효율성을 크게 향상시킨 수정된 일반화 특징 피라미드 네트워크(Generalized Feature Pyramid Network)입니다.
  • ZeroHead & AlignedOTA: 연산 오버헤드를 줄이기 위해 경량 탐지 헤드와 최적화된 라벨 할당 전략(AlignedOTA)을 통합합니다.
  • 증류 강화: 학습 중에 지식 증류(knowledge distillation)를 적극 활용하여 매개변수 수를 늘리지 않고도 소형 모델 변형의 성능을 향상시킵니다.

YOLOv7: E-ELAN 및 Bag-of-Freebies

YOLOv7은 그래디언트 경로 최적화와 강력한 학습 전략에 집중하여 보다 구조적인 엔지니어링 접근 방식을 취했습니다.

  • E-ELAN 아키텍처: 확장 가능한 효율적 계층 집계 네트워크(Extended Efficient Layer Aggregation Network)는 가장 짧고 긴 그래디언트 경로를 제어하여 모델이 더 다양한 특징을 학습할 수 있게 하며, 효과적인 학습 수렴을 보장합니다.
  • 모델 스케일링: 연결 기반 모델에 맞춘 복합 스케일링 방법을 도입하여 구조적 정렬을 위해 깊이와 너비를 동시에 스케일링합니다.
  • 학습 가능한 Bag-of-Freebies: 아이덴티티 연결이 없는 재매개변수화 컨볼루션(RepConv) 및 동적 라벨 할당 전략과 같은 기술을 사용하여 추론 속도에 영향을 주지 않으면서 학습 중 정확도를 향상시킵니다.

성능 분석

평균 정밀도(mAP), 속도 및 효율성을 평가할 때 두 모델 모두 인상적인 지표를 보이지만, 타겟으로 하는 세그먼트가 약간 다릅니다. YOLOv7은 고정밀 GPU 배포에 집중하는 반면, DAMO-YOLO의 NAS 기반 구조는 공격적인 저지연 CPU 및 엣지 배포를 목표로 합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

지표에서 볼 수 있듯이, DAMO-YOLO는 매우 가벼운 변형(8.5M 매개변수만 사용하는 tiny 모델 등)을 제공하는 반면, YOLOv7은 COCO 데이터셋에서 53.1 mAP라는 인상적인 수치를 기록한 YOLOv7x와 함께 전반적으로 더 높은 정확도 정점을 달성합니다.

Ultralytics 생태계의 이점

이론적인 아키텍처도 중요하지만, 모델의 실용성은 생태계에 의해 결정됩니다. YOLOv7과 같이 Ultralytics가 지원하는 모델은 잘 관리된 생태계와 독보적인 사용 편의성의 이점을 누립니다.

  • 성능 균형: Ultralytics 모델은 추론 속도와 탐지 정확도 간의 최적의 절충안을 지속적으로 제시하며, 이는 엣지 장치와 클라우드 기반 모델 배포 모두에 이상적입니다.
  • 메모리 요구 사항: 더 무거운 Transformer 기반 모델과 달리, Ultralytics YOLO 모델은 학습 중에 낮은 CUDA 메모리 요구 사항을 유지합니다. 이는 더 큰 배치 크기를 허용하여 소비자용 하드웨어에서도 학습 프로세스를 간소화합니다.
  • 범용성: Ultralytics 프레임워크는 객체 탐지를 넘어 인스턴스 세그멘테이션포즈 추정과 같은 작업으로 확장되어 개발자에게 완전한 컴퓨터 비전 툴킷을 제공합니다.
학습 효율성

Ultralytics 패키지를 사용하면 고도로 최적화된 데이터 로더와 사전 학습된 가중치를 활용하여 데이터셋에서 완전히 학습된 모델까지 단 몇 분 만에 원활하게 이동할 수 있습니다.

코드 예제: Ultralytics로 YOLOv7 학습하기

Ultralytics Python API를 사용하면 YOLOv7을 컴퓨터 비전 파이프라인에 통합하는 것이 매우 간단합니다.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

새로운 표준: YOLO26 소개

YOLOv7과 DAMO-YOLO가 2022년에 중요한 돌파구를 마련했지만, 비전 AI 분야는 빠르게 움직입니다. 오늘날 새로운 프로젝트를 시작하는 팀에게 권장되는 모델은 2026년 1월에 출시된 최첨단 Ultralytics YOLO26입니다.

YOLO26은 최첨단 혁신을 통합하여 성능과 사용성 면에서 세대적인 도약을 이뤄냈습니다:

  • 엔드투엔드 NMS-Free 설계: YOLO26은 기본적으로 엔드투엔드 방식입니다. NMS(Non-Maximum Suppression) 후처리를 제거함으로써 YOLOv10이 처음 개척한 패러다임 전환인 더 빠르고 간결한 배포 로직을 제공합니다.
  • MuSGD 옵티마이저: Moonshot AI의 Kimi K2와 같은 거대 언어 모델 혁신에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드를 활용합니다. 이 옵티마이저는 매우 안정적인 학습 역학을 보장하고 훨씬 더 빠른 수렴 속도를 제공합니다.
  • 최대 43% 더 빠른 CPU 추론: DFL(Distribution Focal Loss)의 제거와 심도 있는 구조적 개선을 통해, YOLO26은 저전력 엣지 컴퓨팅에 최적화되어 GPU가 아닌 하드웨어에서 이전 세대보다 뛰어난 성능을 발휘합니다.
  • ProgLoss + STAL: 소형 객체 인식 개선을 명시적으로 목표로 하는 고급 신규 손실 함수를 통합했으며, 이는 항공 이미지, 로봇 공학 및 보안 모니터링 애플리케이션에서 필수적인 기능입니다.
  • 작업별 개선 사항: 표준 탐지를 넘어, YOLO26은 세그멘테이션을 위한 다중 스케일 프로토타이핑, 포즈 추정을 위한 RLE, 회전된 경계 상자(OBB)를 위한 특정 각도 손실 등 다양한 작업을 위한 맞춤형 개선 사항을 제공합니다.

YOLO26에 대해 더 알아보기

이상적인 활용 사례

올바른 아키텍처 선택은 전적으로 귀하의 타겟 배포 환경과 프로젝트 제약 조건에 달려 있습니다.

DAMO-YOLO를 선택해야 할 때:

  • 전체 매개변수 수를 극도로 낮게 유지해야 하는 리소스 제한적인 엣지 환경(예: 마이크로컨트롤러)에서 작업하고 있는 경우.
  • Alibaba의 독점 클라우드 서비스와 특별히 통합된 자동화 머신 러닝 파이프라인을 사용하고 있는 경우.

YOLOv7을 선택해야 할 때:

  • 앵커 기반의 고정밀 추론을 위해 이미 최적화된 레거시 GPU 파이프라인을 보유하고 있는 경우.
  • 고속 자율 주행 차량이나 고급 로봇 공학과 같이 실시간 정확도가 무엇보다 중요한 환경에서 운영하는 경우.

YOLO26을 선택해야 할 때 (권장):

  • 처음부터 새로운 컴퓨터 비전 애플리케이션을 구축하고 있으며 정밀도와 CPU/엣지 추론 속도 모두에서 최고의 최첨단 기술이 필요한 경우.
  • NMS 연산자 제약 없이 CoreML 또는 TensorRT로 내보내는 등 빠르고 원활한 배포가 필요한 경우.
  • 클라우드 학습, 데이터셋 관리 및 자동화된 배포를 위해 Ultralytics Platform의 모든 기능을 활용하려는 경우.

개발자는 Ultralytics 모델의 강력한 생태계를 활용하여 엔지니어링 시간을 대폭 단축하는 동시에 실제 애플리케이션에 대한 최고 수준의 예측 성능을 확보할 수 있습니다.

댓글