DAMO-YOLO vs. YOLOv5: 실시간 객체 detect 심층 분석

컴퓨터 비전의 진화는 실시간 객체 탐지 분야의 지속적인 혁신으로 특징지어져 왔다. 오늘날 개발자와 연구자들은 비전 파이프라인을 설계할 때 수많은 아키텍처 선택에 직면한다. 이 포괄적인 기술 비교는 YOLO Ultralytics YOLOv5의 미묘한 차이를 살펴보고, 각각의 아키텍처, 훈련 방법론, 성능 지표 및 이상적인 배포 시나리오를 강조합니다.

YOLO 소개

알리바바 그룹이 공개한YOLO 탐지 속도와 정확도의 한계를 뛰어넘기 위한 여러 혁신적인 기술을YOLO .

작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
조직:조직: 알리바바 그룹
날짜: 2022년 11월 23일
Arxiv:2211.15444v2
GitHub:YOLO
문서:README.md

DAMO-YOLO에 대해 자세히 알아보세요.

아키텍처 혁신

DAMO-YOLO는 신경망 아키텍처 검색(NAS)을 기반으로 구축되었습니다. 저자들은 지연 시간과 정확도의 균형을 맞추는 백본을 자동으로 설계하기 위해 MAE-NAS를 활용했습니다. 이 모델은 다양한 스케일에 걸쳐 특징 융합을 개선하는 효율적인 RepGFPN (Reparameterized Generalized Feature Pyramid Network)을 도입합니다. 또한, DAMO-YOLO는 추론 시 재매개변수화(rep-parameterization)에 크게 의존하는 더 간단하고 효율적인 구조를 선호하여 복잡한 다중 분기 예측 헤드를 제거하는 "ZeroHead" 설계를 통합합니다.

훈련 성능 향상을 위해 본 모델은 레이블 할당에 AlignedOTA를 활용하며, 대규모 "교사" 모델이 소규모 "학생" 모델을 지도하여 정확도를 높이는 고강도 증류 강화 과정을 적용합니다.

Ultralytics YOLOv5 소개

Ultralytics YOLOv5 안정성, 사용 편의성 및 광범위한 배포 생태계로 유명한 세계에서 가장 널리 채택된 비전 아키텍처 중YOLOv5 .

작성자: Glenn Jocher
조직:Ultralytics
날짜: 2020년 6월 26일
GitHub:yolov5
문서:5 문서

5에 대해 자세히 알아보기

생태계 표준

YOLOv5 사용성 측면에서 업계 표준을 YOLOv5 . PyTorch에 내장되어 있으며, 고도로 최적화된 CSPNet 백본과 PANet 넥을 활용하여 강력한 특징 집계를 수행합니다. 후속 모델에서 나타난 앵커 프리(anchor-free) 트렌드보다 앞서 등장했지만, 정교하게 다듬어진 앵커 기반 접근법과 자동 앵커 학습을 결합하여 뛰어난 성능을 즉시 제공합니다.

YOLOv5 진정한 강점은 잘 관리된 생태계에 YOLOv5 . 이는 추적 도구와 원활하게 통합됩니다. Comet 및 Weights & Biases과 같은 추적 도구와 원활하게 통합되며, ONNX, TensorRT, CoreML.

YOLOv5 시작하기

YOLOv5 사용자 정의 데이터셋으로 훈련시키기 매우 YOLOv5 . 간소화된 API는 프로토타입에서 생산 환경으로의 전환 과정을 원활하게 하여, 민첩한 엔지니어링 팀들 사이에서 선호되는 모델입니다.

성능 및 지표 비교

이러한 모델들을 비교할 때 평균 정밀도(mAP), 추론 속도, 매개변수 수의 균형을 살펴보는 것이 중요하다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

장단점 분석

DAMO-YOLO는 파라미터 크기에 비해 인상적인 mAP 점수를 달성하며, 증류 훈련 단계에서 큰 이점을 얻습니다. 하지만 이는 훈련 효율성 저하라는 대가를 치릅니다. 다단계 증류 과정은 먼저 무거운 교사 모델을 훈련해야 하며, 이는 필요한 GPU 연산 시간과 VRAM을 크게 증가시킵니다.

반대로, YOLOv5는 뛰어난 메모리 요구 사항을 제공합니다. Ultralytics YOLO 모델은 복잡한 증류 파이프라인이나 RT-DETR과 같은 트랜스포머 기반 모델에 비해 학습 및 추론 시 메모리 사용량이 적은 것으로 알려져 있습니다. 이를 통해 YOLOv5는 일반 소비자용 하드웨어 또는 Google Colab과 같은 접근 가능한 클라우드 환경에서 효율적으로 학습될 수 있습니다.

실생활 적용 사례와 다용도성

올바른 아키텍처 선택은 종종 배포 환경에 따라 달라집니다.

YOLO 강점

DAMO-YOLO는 엄밀히 말해 객체 detect 모델입니다. 이는 학술 연구, 특히 신경망 아키텍처 검색을 연구하거나 논문에 상세히 설명된 재매개변수화(rep-parameterization) 기술을 재현하려는 팀에게 탁월한 선택입니다. 프로젝트에 증류(distillation) 학습 단계를 실행할 광범위한 컴퓨팅 리소스가 있고 2D 바운딩 박스의 마지막 정확도까지 최대한 끌어내는 데만 집중한다면, DAMO-YOLO는 강력한 경쟁자입니다.

Ultralytics 이점

실제 생산 환경에서는 Ultralytics 사용 편의성과 다용도성 덕분에 선호되는 선택지가 됩니다. YOLOv5 탐지 및 이미지 분류의 핵심 도구로 YOLOv5 있지만, 더 광범위한 Ultralytics 개발자는 작업 간 전환을 손쉽게 수행할 수 있습니다.

예를 들어, Ultralytics 최신 버전은 인스턴스 세그멘테이션, 자세 추정, 방향성 바운딩 박스(OBB) 탐지를 기본적으로 지원합니다. 이러한 다중 작업 기능 덕분에 팀은 자동 번호판 인식과 차량 세그멘테이션을 결합하는 등 복잡한 파이프라인을 위해 단일 통합 Python 활용할 수 있습니다.

사용 사례 및 권장 사항

DAMO-YOLO와 YOLOv5 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

YOLO 선택해야 할 때

DAMO-YOLO는 다음 경우에 강력한 선택입니다.

고처리량 비디오 분석: 배치-1 처리량이 주요 지표인 고정 NVIDIA GPU 인프라에서 고FPS 비디오 스트림을 처리합니다.
산업 제조 라인: 조립 라인의 실시간 품질 검사와 같이 전용 하드웨어에서 엄격한 GPU 지연 시간 제약이 있는 시나리오.
신경망 아키텍처 탐색 연구: 자동화된 아키텍처 탐색(MAE-NAS) 및 효율적인 재매개변수화된 백본이 detect 성능에 미치는 영향 연구.

5 선택해야 할 때

YOLOv5 다음에 권장YOLOv5 :

검증된 프로덕션 시스템: YOLOv5의 오랜 안정성 기록, 광범위한 문서 및 대규모 커뮤니티 지원이 중요하게 평가되는 기존 배포 환경.
리소스 제약이 있는 훈련: YOLOv5의 효율적인 훈련 파이프라인과 낮은 메모리 요구 사항이 유리한 제한된 GPU 리소스 환경.
광범위한 내보내기 형식 지원: ONNX, TensorRT, CoreML 및 TFLite를 포함한 다양한 형식으로 배포해야 하는 프로젝트.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.

미래: YOLO26으로의 전환

YOLOv5 YOLO 흥미로운 학술적 통찰을YOLO , 최첨단 기술은 진화해 왔습니다. 2026년 1월 출시된 Ultralytics 비전 커뮤니티에 있어 거대한 도약을 의미합니다.

YOLO26에 대해 더 알아보기

YOLO26은 에지 배포 및 훈련 불안정성의 전통적인 병목 현상을 해결합니다:

엔드투엔드 NMS-Free 설계: YOLO26은 Non-Maximum Suppression 후처리 과정을 기본적으로 제거합니다. 이 혁신은 배포 로직을 간소화하고 지연 시간 가변성을 대폭 줄여, 고속 로봇 공학 및 자율 시스템에 이상적입니다.
MuSGD Optimizer: LLM 훈련 혁신(예: Moonshot AI의 Kimi K2)에서 영감을 받아, YOLO26은 MuSGD 옵티마이저(SGD와 Muon의 하이브리드)를 활용합니다. 이는 매우 안정적인 훈련 실행과 현저히 빠른 수렴을 보장합니다.
최대 43% 더 빠른 CPU 추론: DFL(Distribution Focal Loss)을 전략적으로 제거함으로써, YOLO26은 YOLO11 및 YOLOv8와 같은 이전 모델에 비해 CPU 및 엣지 장치에서 훨씬 더 우수한 속도를 달성합니다.
ProgLoss + STAL: 이러한 고급 손실 함수는 작은 객체 인식에서 주목할 만한 개선을 가져오며, 이는 항공 드론 이미지 및 IoT 센서 피드 분석에 필수적입니다.

코드 예시: 행동하는 단순성

Ultralytics 사용하면 몇 줄의 코드만으로 모델을 훈련하고 배포할 수 있습니다. YOLOv5 권장되는 YOLO26으로 YOLOv5 , 인터페이스는 일관되고 직관적으로 유지됩니다.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

결론

DAMO-YOLO와 YOLOv5 모두 컴퓨터 비전 분야에 크게 기여했습니다. DAMO-YOLO는 신경망 아키텍처 검색(Neural Architecture Search) 및 증류(distillation)의 강력한 잠재력을 보여주며, 연구자들에게 흥미로운 연구 대상이 됩니다. 하지만 YOLOv5는 성능 균형(Performance Balance), 낮은 메모리 요구 사항, 그리고 탁월한 사용 편의성 덕분에 여전히 실용적인 강력한 도구로 남아 있습니다.

오늘날 새로운 프로젝트를 시작하는 개발자들에게는 Ultralytics 활용하고 YOLOv6를 채택할 것을 권장합니다. 이는 YOLOv5 사랑받는 사용자 친화적 YOLOv5 획기적인 아키텍처 발전을 YOLOv5 클라우드 및 엣지 AI 애플리케이션 모두에 최상위 정확도와 초고속 추론을 보장합니다. 개발자들은 또한 다음과 같은 다른 효율적인 모델들을 탐구해 볼 수 있습니다. YOLOv6 나 YOLOX 같은 다른 효율적인 모델도 살펴볼 수 있습니다.