콘텐츠로 건너뛰기

DAMO-YOLO vs. YOLO11: 기술 비교

이 페이지에서는 Alibaba Group에서 개발한 DAMO-YOLO와 Ultralytics YOLO11이라는 두 가지 최첨단 객체 감지 모델 간의 자세한 기술 비교를 제공합니다. 두 모델 모두 고성능 실시간 객체 감지를 위해 설계되었지만 뚜렷한 아키텍처 철학을 채택하고 있으며 서로 다른 영역에서 뛰어납니다. 아키텍처 차이점, 성능 지표 및 이상적인 애플리케이션을 분석하여 귀사의 컴퓨터 비전 프로젝트에 대한 정보에 입각한 결정을 내리는 데 도움을 드립니다.

DAMO-YOLO

작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
기관: Alibaba Group
날짜: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO는 Alibaba Group에서 개발한 빠르고 정확한 객체 감지 방법입니다. YOLO 스타일 감지기의 성능 한계를 뛰어넘기 위해 여러 새로운 기술을 도입했습니다. 이 모델은 특히 GPU 하드웨어에서 정확도와 지연 시간 간의 균형을 개선하는 것을 목표로 합니다.

DAMO-YOLO에 대해 자세히 알아보세요.

아키텍처 및 주요 기능

DAMO-YOLO의 아키텍처는 시너지 효과를 내도록 설계된 최첨단 구성 요소의 조합입니다.

  • NAS 기반 백본: NAS(Neural Architecture Search)를 활용하여 특정 하드웨어에 최적화된 효율적인 백본(예: GiraffeNet)을 생성함으로써 강력한 특징 추출 능력을 유지하면서도 계산 비용을 줄입니다.
  • Efficient RepGFPN Neck: 이 모델은 멀티 스케일 특징 융합을 향상시키기 위해 재파라미터화 기술이 적용된 GFPN(Generalized Feature Pyramid Networks)을 기반으로 하는 효율적인 Neck 구조를 통합했습니다.
  • ZeroHead: DAMO-YOLO는 분류 및 회귀 작업을 분리하고 계산 오버헤드를 줄이는 ZeroHead라는 가벼운 앵커 프리(anchor-free) 감지 헤드를 도입했습니다.
  • AlignedOTA Label Assignment: AlignedOTA라는 개선된 레이블 할당 전략을 사용하여 분류 및 지역화 점수를 기반으로 Ground-Truth 객체를 가장 적합한 예측과 동적으로 매칭하여 더 나은 학습 수렴을 유도합니다.
  • 지식 증류: 훈련 과정은 지식 증류를 통해 향상됩니다. 여기서 더 크고 강력한 교사 모델은 더 작은 학생 모델의 훈련을 안내하여 최종 정확도를 높입니다.

강점

  • GPU에서 높은 정확도: DAMO-YOLO는 특히 더 큰 변형에서 인상적인 mAP 점수를 달성하여 COCO 데이터 세트에서 강력한 성능을 입증합니다.
  • 빠른 GPU 추론: 이 모델은 GPU 추론에 매우 최적화되어 있어 전용 그래픽 하드웨어에서 실행되는 실시간 애플리케이션에 중요한 낮은 지연 시간을 제공합니다.
  • 혁신적인 기술: 객체 감지에서 NAS, 고급 레이블 할당 및 Distillation과 같은 현대적인 기술의 효과를 보여줍니다.

약점

  • 제한적인 다양성: DAMO-YOLO는 주로 객체 감지를 위해 설계되었습니다. Ultralytics와 같은 프레임워크에서 표준인 인스턴스 분할, 포즈 추정 또는 분류와 같은 다른 컴퓨터 비전 작업에 대한 기본 지원이 부족합니다.
  • 복잡한 생태계: 리포지토리 및 설명서는 기능적이지만 Ultralytics 생태계에 비해 덜 간소화되어 있습니다. 따라서 새로운 사용자의 학습 곡선이 더 가파를 수 있습니다.
  • 하드웨어 중심: CPU 성능에 대한 제한된 정보와 함께 GPU에서 성능이 크게 벤치마킹되므로 CPU 전용 또는 다양한 에지 장치에 배포하는 데 덜 유연한 선택입니다.

Ultralytics YOLO11

작성자: Glenn Jocher, Jing Qiu
기관: Ultralytics
날짜: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
문서: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11은 유명한 YOLO(You Only Look Once) 시리즈의 최신 진화로, 실시간 객체 감지 및 그 이상의 최첨단을 나타냅니다. YOLOv8과 같은 이전 모델의 성공을 기반으로 성숙하고 사용자 친화적인 생태계 내에서 향상된 정확도, 속도 및 다재다능성을 제공합니다.

YOLO11에 대해 자세히 알아보세요

아키텍처 및 주요 기능

YOLO11은 성능과 효율성의 뛰어난 균형을 위해 고도로 최적화된 개선된 단일 단계 앵커 프리(Anchor-Free) 아키텍처를 특징으로 합니다. 이 설계는 간소화된 특징 추출과 가벼운 네트워크 구조에 중점을 두어 매개변수 수와 계산 부하를 줄입니다. 이를 통해 YOLO11은 강력한 클라우드 서버에서 NVIDIA Jetson과 같은 리소스가 제한된 에지 장치에 이르기까지 광범위한 하드웨어에 걸쳐 배포하는 데 매우 적합합니다.

그러나 YOLO11의 진정한 힘은 잘 관리되는 Ultralytics 생태계와의 통합에 있으며, 이는 다음과 같은 중요한 이점을 제공합니다.

  • 사용 편의성: 간단한 Python API와 강력한 CLI를 통해 학습, 검증 및 추론이 매우 간단해집니다. 광범위한 문서는 모든 기술 수준의 사용자에게 명확한 지침을 제공합니다.
  • 다재다능함: DAMO-YOLO와 달리 YOLO11은 단일 통합 프레임워크 내에서 객체 감지, 인스턴스 분할, 이미지 분류, 자세 추정 및 방향이 지정된 경계 상자(OBB)를 기본적으로 지원하는 다중 작업 모델입니다.
  • 성능 균형: YOLO11 모델은 CPU와 GPU 모두에서 속도와 정확도 간의 뛰어난 균형을 제공하여 다양한 실제 시나리오에서 유연하고 효율적인 배포를 보장합니다.
  • 학습 효율성: 이 프레임워크는 빠른 학습 시간을 위해 최적화되어 있으며, 더 복잡한 아키텍처에 비해 더 낮은 메모리 요구 사항을 가집니다. 즉시 사용 가능한 사전 학습된 가중치는 사용자 정의 학습 워크플로우를 가속화합니다.
  • 견고한 생태계: 사용자는 활발한 개발, GitHubDiscord를 통한 강력한 커뮤니티 지원, 빈번한 업데이트, 종단 간 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 통해 이점을 얻을 수 있습니다.

강점

  • 최첨단 성능: 속도와 정확성 모두에 최적화된 아키텍처로 최고 수준의 mAP 점수를 달성합니다.
  • 탁월한 다재다능함: 단일 모델 프레임워크로 5가지의 다양한 비전 작업을 처리할 수 있어 복잡한 프로젝트를 위한 포괄적인 솔루션을 제공합니다.
  • 뛰어난 사용 편의성: 간소화된 API, 명확한 문서 및 통합된 에코시스템을 통해 시작하고 배포하기가 매우 쉽습니다.
  • 하드웨어 유연성: CPU와 GPU 모두에서 매우 효율적이므로 더 넓은 범위의 배포 대상에 적합합니다.
  • 활발한 지원: Ultralytics의 전담 팀과 크고 활발한 오픈 소스 커뮤니티에서 지원합니다.

약점

  • YOLO11x와 같은 더 큰 모델은 상당한 컴퓨팅 리소스가 필요하지만, 성능 등급에 비해 매우 효율적입니다.

성능 비교

아래 표는 COCO val 데이터 세트에서 DAMO-YOLO와 YOLO11의 성능 지표를 직접적으로 비교한 것입니다.

모델 크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

데이터에서 다음과 같은 몇 가지 결론을 도출할 수 있습니다.

  • 정확도: DAMO-YOLO도 경쟁력이 있지만, YOLO11 모델, 특히 중간에서 큰 변형 모델(YOLO11m, l, x)은 더 높은 mAP 점수를 달성하며, YOLO11x는 54.7 mAP라는 인상적인 수치를 기록합니다.
  • GPU 속도: DAMO-YOLO는 매우 경쟁력 있는 GPU 지연 시간을 보여줍니다. 그러나 YOLO11 모델도 고도로 최적화되어 있으며, YOLO11n은 1.5ms로 가장 빠른 GPU 속도를 달성합니다.
  • CPU 속도: YOLO11의 중요한 장점은 우수하고 잘 문서화된 CPU 성능입니다. CPU 벤치마크를 사용할 수 있으므로 GPU를 사용할 수 없는 애플리케이션에 안정적인 선택입니다. DAMO-YOLO는 공식 CPU 속도 지표가 없어 적용 가능성이 제한됩니다.
  • 효율성: YOLO11 모델은 매우 효율적입니다. 예를 들어 YOLO11l은 25.3M 파라미터만으로 53.4 mAP를 달성하여 정확도와 파라미터 효율성 모두에서 DAMO-YOLOl을 능가합니다. YOLO11n은 단 2.6M 파라미터로 경량 모델의 표준을 설정합니다.

결론 및 권장 사항

DAMO-YOLO는 인상적인 학술적 혁신을 보여주고 GPU 하드웨어에서 강력한 성능을 제공하는 강력한 객체 감지기입니다. 고급 아키텍처 개념을 탐구하는 연구원이나 객체 감지만 필요한 GPU 환경에 배포된 애플리케이션에 탁월한 선택입니다.

하지만 대다수의 개발자, 연구원 및 기업에게는 Ultralytics YOLO11이(가) 명확하고 우수한 선택입니다. 최첨단 정확도와 속도를 제공할 뿐만 아니라 성숙하고 사용하기 쉬우며 매우 다재다능한 프레임워크 내에서 이를 수행합니다. 여러 작업에 대한 기본 지원, CPU와 GPU 모두에서 뛰어난 성능, 그리고 문서, 커뮤니티 지원 및 Ultralytics HUB와 같은 MLOps 도구의 강력한 생태계는 YOLO11을 실제 컴퓨터 비전 애플리케이션 구축을 위한 더욱 실용적이고 확장 가능하며 강력한 솔루션으로 만듭니다.

다른 모델 살펴보기

DAMO-YOLO 및 YOLO11이 다른 주요 모델과 어떻게 비교되는지 궁금하다면 다음 비교 자료를 확인해 보세요.



📅 1년 전에 생성됨 ✏️ 1개월 전에 업데이트됨

댓글