YOLOv7 RTDETRv2: 최신 물체 감지기의 기술 비교

최적의 객체 감지 아키텍처를 선택하는 것은 강력한 컴퓨터 비전 솔루션을 개발하는 데 있어 매우 중요한 단계입니다. 이 결정에는 추론 속도, 감지 정확도, 컴퓨팅 리소스 요구 사항 간의 복잡한 절충점을 탐색해야 하는 경우가 많습니다. 이 가이드에서는 다음과 같은 기술 비교를 심층적으로 제공합니다. YOLOv7과 실시간 애플리케이션에 글로벌 컨텍스트 이해를 제공하도록 설계된 최첨단 트랜스포머 기반 모델인 RTDETRv2를 심층적으로 비교합니다.

YOLOv7: CNN 효율성의 정점

YOLOv7 실시간 시나리오에서 컨볼루션 신경망 (CNN)이 달성할 수 있는 한계를 뛰어넘기 위해 출시된YOLOYou Only Look OnceYOLO 제품군의 주요 진화를 나타냅니다. 아키텍처 개선과 고급 훈련 전략에 집중하여 GPU 하드웨어에서 인상적인 속도를 제공합니다.

저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organization: Institute of Information Science, Academia Sinica, Taiwan
날짜: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

아키텍처 혁신

YOLOv7 경사 경로를 파괴하지 않고 네트워크의 학습 기능을 향상시키는 새로운 백본 설계인 확장된 효율적인 레이어 집계 네트워크(E-ELAN)를 도입했습니다. 이를 통해 더 심층적인 네트워크를 효율적으로 학습할 수 있습니다. YOLOv7 가장 큰 특징은 모델 재파라미터화 및 거칠고 세밀한 리드 가이드 라벨 할당과 같은 최적화 방법의 모음인 '훈련 가능한 공짜 백'으로, 추론 지연 시간을 늘리지 않고 정확도를 향상시킵니다.

강점과 약점

YOLOv7 표준 GPU에서 실시간 추론이 우선시되는 환경에서 탁월한 성능을 발휘합니다. 이 아키텍처는 CUDA 고도로 최적화되어 있어 비디오 피드에 높은 FPS를 제공합니다. 하지만 순수 CNN으로서 트랜스포머에 비해 장거리 종속성 때문에 어려움을 겪을 수 있습니다. 또한 초보자에게는 복잡한 아키텍처를 커스터마이징하는 것이 어려울 수 있습니다.

YOLOv7 대해 자세히 알아보기

RTDETRv2: 실시간 감지를 위한 트랜스포머

RTDETRv2는 실시간 감지 트랜스포머RT-DETR의 성공을 기반으로 비전 트랜스포머(ViT) 의 성능을 활용하여 이미지 전체에서 글로벌 정보를 캡처합니다. 주변 픽셀을 처리하는 CNN과 달리, 트랜스포머는 자체 주의 메커니즘을 사용하여 멀리 떨어진 물체 간의 관계를 이해합니다.

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organization: Baidu
날짜: 2023-04-17(원래 RT-DETR), 2024-07(RTDETRv2)
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

아키텍처 혁신

RTDETRv2는 하이브리드 아키텍처를 사용합니다. 효율적인 특징 추출을 위해 CNN 백본을 사용하고 탐지 헤드를 위해 트랜스포머 인코더-디코더를 사용합니다. 결정적으로, 앵커가 없기 때문에 일부 구성에서는 수동으로 조정된 앵커 박스 및 비최대 억제NMS 후처리가 필요하지 않습니다. "v2"의 개선 사항은 유연한 백본과 개선된 훈련 전략에 중점을 두어 지연 시간을 더욱 줄이면서도 높은 평균 정밀도(mAP)를 유지합니다.

강점과 약점

RTDETRv2의 가장 큰 장점은 글로벌 컨텍스트 인식 덕분에 오클루전이 있는 복잡한 장면에서 정확도가 높다는 점입니다. 이는 종종 mAP 비슷한 규모의 CNN보다 성능이 뛰어납니다. 그러나 트랜스포머 모델은 훈련 중에 메모리를 많이 사용하는 것으로 악명이 높으며 수렴 속도가 느릴 수 있다는 단점이 있습니다. 일반적으로 YOLOv7 같은 CNN에 비해 효과적으로 훈련하려면 더 강력한 GPU가 필요합니다.

RT-DETR에 대해 자세히 알아보세요.

성능 비교: 메트릭 및 분석

다음 표는 주요 성능 메트릭을 나란히 비교한 것입니다. RTDETRv2-x가 우수한 정확도를 달성하는 반면, YOLOv7 모델은 CNN 네이티브 설계로 인해 특정 하드웨어 구성에서 순수한 추론 속도에서 경쟁 우위를 제공하는 경우가 많습니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

장단점 이해

이러한 아키텍처 중에서 선택할 때는 배포 하드웨어를 고려하세요. RTDETRv2와 같은 트랜스포머는 NVIDIA GPU에서 최대 속도 잠재력에 도달하기 위해 특정 TensorRT 최적화가 필요한 경우가 많지만, YOLOv7 같은 CNN은 일반적으로 더 적은 튜닝으로 더 광범위한 하드웨어에서 효율적으로 실행됩니다.

교육 방법론 및 리소스

훈련 방법론은 두 아키텍처 간에 크게 다릅니다. YOLOv7 모자이크와 같은 데이터 증강 파이프라인에 중점을 둔 표준 확률적 경사 하강(SGD) 또는 Adam 옵티마이저를 활용합니다. 상대적으로 메모리 효율이 높기 때문에 미드 레인지 GPU에서 훈련할 수 있습니다.

이와는 대조적으로 RTDETRv2는 더 많은 리소스 집약적인 훈련 요법이 필요합니다. 트랜스포머의 자체 주의 메커니즘은 시퀀스 길이(이미지 크기)에 따라 4제곱으로 확장되므로 VRAM 사용량이 증가합니다. 사용자는 더 큰 RT-DETR 변형을 효과적으로 훈련하기 위해 대용량 메모리(예: A100)를 갖춘 하이엔드 NVIDIA GPU가 필요한 경우가 많습니다. 또한 트랜스포머는 일반적으로 CNN에 비해 수렴하는 데 더 긴 훈련 일정(더 많은 에포크)이 필요합니다.

Ultralytics 모델이 권장되는 이유

YOLOv7 RTDETRv2는 그 자체로도 훌륭한 모델이지만, Ultralytics 에코시스템이 이끄는최첨단 YOLO11-이 이끄는 울트라틱스 에코시스템은 최신 AI 개발을 위한 보다 포괄적인 솔루션을 제공합니다.

탁월한 사용 편의성 및 에코시스템

Ultralytics 모델은 개발자 경험을 최우선으로 고려하여 설계되었습니다. 복잡한 구성 파일과 수동 설정이 필요한 YOLOv7 RTDETRv2의 특정 환경 요구 사항과 달리, Ultralytics 통합된 간단한 Python API를 제공합니다. 따라서 단 몇 줄의 코드만으로 모델을 로드, 훈련 및 배포할 수 있습니다.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

균형 잡힌 성능과 다용도성

YOLO11 은 속도와 정확성 사이에서 탁월한 균형을 이루며, 종종 효율성 면에서 YOLOv7 RT-DETR 모두 능가합니다. 결정적으로, Ultralytics 모델은 물체 감지에만 국한되지 않습니다. 기본적으로 동일한 프레임워크 내에서 다양한 컴퓨터 비전 작업을 지원합니다:

인스턴스 세분화: 정확한 오브젝트 윤곽선
포즈 추정: 사람 또는 동물의 포즈를 위한 키포인트 감지.
분류: 전체 이미지 분류.
OBB(방향성 물체 감지): 회전된 물체를 감지합니다(예: 항공 이미지에서).

효율성 및 교육

Ultralytics 모델은 메모리 효율성에 최적화되어 있습니다. 일반적으로 RTDETRv2와 같은 트랜스포머 기반 대안보다 훈련 중에 훨씬 적은 CUDA 메모리를 필요로 하므로 고성능 AI에 대한 액세스를 대중화합니다. 널리 사용 가능한 사전 훈련된 가중치와 효율적인 전이 학습 기능을 통해 단시간 내에 프로덕션에 바로 사용할 수 있는 결과를 얻을 수 있습니다.

결론

YOLOv7 은 엄격하게 최적화된 CNN 추론이 필요한 레거시 시스템에서 강력한 경쟁자로 남아 있으며, RTDETRv2는 계산 리소스가 풍부한 복잡한 장면에서 최첨단 정확도를 제공합니다. 그러나 대다수의 개발자와 연구자들은 현대적이고 다재다능하며 사용자 친화적인 솔루션을 찾고 있습니다, Ultralytics YOLO11 이 탁월한 선택입니다.

Ultralytics 선택하면 활발한 커뮤니티, 빈번한 업데이트, 데이터 관리에서 배포에 이르기까지 전체 MLOps 수명 주기를 간소화하는 강력한 도구 세트에 액세스할 수 있습니다.

다른 모델 비교 살펴보기

결정을 내리는 데 도움이 되는 추가 기술 비교를 살펴보세요:

YOLOv7 RTDETRv2: 최신 물체 감지기의 기술 비교

YOLOv7: CNN 효율성의 정점

아키텍처 혁신

강점과 약점

RTDETRv2: 실시간 감지를 위한 트랜스포머

아키텍처 혁신

강점과 약점

성능 비교: 메트릭 및 분석

교육 방법론 및 리소스

Ultralytics 모델이 권장되는 이유

탁월한 사용 편의성 및 에코시스템

균형 잡힌 성능과 다용도성

효율성 및 교육

결론

다른 모델 비교 살펴보기

댓글