YOLO . YOLO11: 실시간 객체 탐지에 대한 심층 분석

물체 탐지 분야는 정확도, 추론 속도, 계산 효율성이라는 상충되는 요구 사항 사이의 균형을 맞추기 위해 연구자와 엔지니어들이 끊임없이 노력하며 지속적으로 진화하고 있습니다. 이 분야에서 주목할 만한 두 가지 아키텍처는 알리바바 그룹이 개발한YOLOYOLO11입니다Ultralytics

YOLO 신경망 아키텍처 검색(NAS)과 중대한 재매개변수화 분야에서 새로운 개념을YOLO 반면, YOLO11 생산 준비성과 다용도성에 초점을 맞춘 정교하고 사용자 중심의 접근법을 YOLO11 . 본 비교 분석은 두 모델의 아키텍처적 차이점, 성능 지표 및 실용적 배포 고려 사항을 탐구합니다.

DAMO-YOLO 개요

YOLO 알리바바 DAMO 아카데미 연구진이 제안한 고성능 객체 탐지YOLO . 이 알고리즘은 신경망 구조 탐색(NAS)을 활용하여 특정 제약 조건에 맞춤화된 효율적인 백본을 자동으로 설계한다는 점에서 차별화됩니다.

작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
조직:조직: 알리바바 그룹
날짜:23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

이 아키텍처는 특징 융합을 위한 특수화된 RepGFPN(재매개변수화된 일반화 피라미드 특징 네트워크)과 "ZeroHead"라 명명된 경량 헤드를 통합합니다. 훈련 전략의 핵심 구성 요소는 분류 및 회귀 작업 간의 정렬 불일치 문제를 해결하기 위해 설계된 동적 레이블 할당 방법인 "AlignedOTA"입니다. 또한 더 큰 "교사" 모델로부터의 증류에 크게 의존하여 소형 변종의 성능을 향상시킵니다.

YOLO11

YOLO11 YOLO 유산을 YOLO11 CSP(Cross Stage Partial) 네트워크 설계를 개선함으로써 매개변수 효율성을 극대화합니다. 복잡한 설정이 필요할 수 있는 연구 중심 모델과 달리, YOLO11 즉시 실제 적용이 가능하도록 YOLO11 "배터리 포함" 경험을 제공합니다.

저자: 글렌 조커와 징 치우
조직:Ultralytics
날짜:27
Docs:https://docs.ultralytics.com/models/yolo11/
GitHub:https://github.com/ultralytics/ultralytics

YOLO11 C3k2 블록 설계를 YOLO11 전역적 컨텍스트를 더 잘 포착하기 위해 C2PSA(Cross Stage Partial with Spatial Attention) 모듈을 도입합니다. 이 모델은 Ultralytics 완전히 통합되어 CPU, GPU, 에지 디바이스 등 다양한 하드웨어에서 원활한 훈련, 검증 및 배포를 지원합니다.

YOLO11에 대해 자세히 알아보세요

기술적 비교

다음 표는 모델 간 성능 차이를 보여줍니다.YOLO 이론적으로 우수한YOLO , YOLO11 특히 내보내기 및 배포 오버헤드를 고려할 때 실제 환경에서 속도와 정확도의 균형 잡힌 성능을 더 YOLO11 제공합니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

아키텍처 및 교육 방법론

YOLO 특정 지연 시간 제약 조건 하에서 최적의 백본 구조를 발견하기 위해 MAE-NAS(마스크드 자동 인코더 신경망 구조 탐색)를 사용합니다. 이로 인해 이론적으로 효율적인 모델이 생성되지만, 원래 NAS 파이프라인 없이는 수정하거나 미세 조정하기 어려울 수 있습니다. 훈련 과정은 복잡하며, 종종 먼저 무거운 교사 모델을 훈련시켜 지식을 더 작은 대상 모델로 전이시키는 2단계 접근법이 필요합니다.

YOLO11반면 YOLO11은 깊이, 폭, 해상도의 균형을 맞춘 수작업으로 제작되었지만 고도로 최적화된 아키텍처를 활용합니다. 훈련 파이프라인은 보조 교사 모델이나 복잡한 증류 단계가 필요 없는 표준 증강 기법과 손실 함수를 사용하여 간소화되었습니다. 이로 인해 YOLO11 깊은 도메인 전문 지식 없이도 맞춤형 데이터셋에서 훈련하기가 YOLO11 용이합니다.

경고: 복잡성과 사용성

YOLO NAS 기반 접근법은 수학적으로 최적의 구조를 산출하지만, Ultralytics 사용성을 최우선으로 합니다. YOLO11 같은 모델은 단일 CLI 훈련할 YOLO11 . yolo train반면 연구 저장소는 종종 복잡한 구성 파일과 다단계 준비 과정을 요구합니다.

Ultralytics 이점

모델 선택은 단순한 mAP 넘어선다. 이는 머신러닝 프로젝트의 전체 라이프사이클을 포함한다. YOLO11같은 Ultralytics , 그리고 최첨단 YOLO26은개발을 단순화하는 뚜렷한 장점을 제공한다.

비교할 수 없는 사용 편의성 및 생태계

Ultralytics 마찰을 줄이도록 설계되었습니다. YOLO11 훈련에는 최소한의 코드만 필요하며, Python 모든 모델 버전에서 일관되게 유지됩니다. 이는YOLO 대조적입니다.YOLO 사용자가 종종 연구용 코드베이스를 다루어야 하는데, 이 코드베이스는 견고한 문서화가 부족하거나 장기적인 유지보수가 이루어지지 않을 수 있습니다.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)

또한 Ultralytics 데이터셋 관리, 라벨링 및 클라우드 훈련을 위한 원활한 인터페이스를 제공함으로써, 고급 컴퓨터 비전 기능에 대한 접근성을 효과적으로 민주화합니다.

작업 전반에 걸친 다양한 활용성

Ultralytics 채택의 가장 강력한 장점 중 하나는 다용도성입니다.YOLO 주로 객체 탐지기에YOLO 반면, YOLO11 동일한 코드베이스 내에서 다양한 컴퓨터 비전 작업을 YOLO11 :

인스턴스 분할: 객체의 정밀한 마스킹.
자세 추정: 인간 골격 추적을 위한 키포인트 탐지
방향성 경계 상자(OBB): 항공 촬영 이미지와 각진 물체에 이상적입니다.
Classification: 전체 이미지 분류.

성능 균형 및 메모리 효율성

Ultralytics 효율적인 자원 활용으로 유명합니다. YOLO11 트랜스포머 기반 아키텍처나 복잡한 NAS(네트워크 아키텍처 검색) 파생 모델에 비해 훈련 중 더 적은 CUDA 요구합니다. 이를 통해 개발자는 소비자용 GPU에서 더 큰 배치로 훈련할 수 있어 반복 주기를 가속화할 수 있습니다.

추론을 위해 YOLO11 다음과 같은 형식으로 내보내기에 최적화되어 있습니다. ONNX, TensorRT, CoreML 같은 형식으로 내보내도록 최적화되어 있습니다. 이를 통해 벤치마크에서 확인된 높은 정확도가 NVIDIA 모듈부터 Raspberry Pi에 이르는 에지 디바이스에서 실시간 성능으로 구현됩니다.

앞으로 바라보기: YOLO26의 힘

개발자들이 추구하는 성능의 절대적 정점을 위해, Ultralytics YOLO26을 Ultralytics . 이 차세대 모델은 혁신적인 발전을 YOLO11 대체합니다:

엔드투엔드 NMS 설계: YOLO26은 비최대 억제(NMS) 후처리 단계를 제거합니다. 이 본질적인 엔드투엔드 접근 방식은 배포 파이프라인을 단순화하고 지연 시간 편차를 줄여주며, 이는 최초로 YOLOv10에서 처음 탐구된 기능입니다.
MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 분야의 혁신(예: Moonshot AI의 Kimi K2)에서 영감을 받아, YOLO26은 더 빠른 수렴과 향상된 훈련 안정성을 위해 MuSGD 최적화기를 활용합니다.
에지 우선 최적화: 분포 초점 손실(DFL) 제거 및 특정 CPU 통해 YOLO26은 CPU에서 최대 43% 더 빠른 추론을 달성하여 에지 컴퓨팅에 최적의 선택이 됩니다.
ProgLoss + STAL: 새로운 손실 함수가 소형 물체 탐지 성능을 향상시켜 드론 및 IoT 애플리케이션에 필수적인 기능을 제공합니다.

YOLO26에 대해 더 알아보기

이상적인 사용 사례

YOLO 선택하십시오: 비전 백본에서 NAS(Neural Architecture Search)의 효능을 연구하는 연구자이거나, 맞춤형 검색 아키텍처가 필요한 매우 특정한 하드웨어 제약 조건이 있으며, 복잡한 증류 파이프라인을 관리할 자원이 있는 경우.
YOLO11 선택하십시오: 속도와 정확도를 탁월하게 균형 잡은 강력하고 범용적인 탐지기가 필요한 경우. 추적 기능이 필요하고, 사용자 지정 데이터로 쉽게 훈련할 수 있으며, 광범위한 플랫폼 호환성이 요구되는 상업적 용도에 이상적입니다.
다음과 같은 경우 YOLO26을 선택하십시오: 가장 빠른 추론 속도가 필요하거나(특히 에지 CPU에서), NMS 제거하여 배포 스택을 단순화해야 하는 경우. 최첨단 효율성과 다용성을 요구하는 신규 프로젝트에 권장되는 선택입니다.

결론

YOLO YOLO11 모두 컴퓨터 비전 분야에 중요한 기여를 YOLO11 .YOLO 자동화된 아키텍처 탐색의 잠재력을YOLO 반면, YOLO11 사용성과 생태계 지원에 중점을 두어 딥 러닝의 실용적 적용을 YOLO11 .

대부분의 개발자와 기업에게 Ultralytics 생태계는 YOLO11 최첨단 YOLO26을중심으로 가치를 창출하는 가장 직접적인 경로를 제공합니다. 방대한 문서, 활발한 커뮤니티 지원, Ultralytics 같은 도구를 통해 사용자는 개념에서 배포까지 자신감과 속도를 가지고 진행할 수 있습니다.

다른 아키텍처에 관심이 있는 분들을 위해 Ultralytics 다음과 같은 모델과의 비교도 제공합니다. RT-DETR (실시간 탐지 트랜스포머) 및 YOLOv9과 같은 모델과의 비교를 제공하여, 비전 AI 요구사항에 맞는 적절한 도구를 선택할 때 전체적인 그림을 파악할 수 있도록 합니다.