RTDETRv2 ile DAMO-YOLO Karşılaştırması: Modern Gerçek Zamanlı Nesne Algılama için Kapsamlı Bir Rehber

Bilgisayarlı görü alanı sürekli gelişiyor; araştırmacılar ve mühendisler hız, doğruluk ve verimliliği mükemmel bir şekilde dengeleyen modeller oluşturmak için çabalıyorlar. Bu alanda önemli ses getiren iki öne çıkan mimari, Baidu tarafından geliştirilen RTDETRv2 ve Alibaba Group tarafından hazırlanan DAMO-YOLO'dur. Her iki model de gerçek zamanlı nesne algılamanın sınırlarını zorlasa da, etkileyici sonuçlarına ulaşmak için temelden farklı mimari felsefeleri benimsemektedir.

Bu teknik karşılaştırmada mimarilerinin, eğitim metodolojilerinin ve gerçek dünya dağıtım yeteneklerinin derinliklerine ineceğiz. Ayrıca bu modellerin, özellikle yüksek düzeyde optimize edilmiş Ultralytics Platform ve son teknoloji YOLO26 mimarisi gibi daha geniş ekosisteme karşı nasıl bir performans sergilediğini inceleyeceğiz.

Mimari Yenilikler

Bu modellerin temel mekanizmalarını anlamak, üretim ortamları için doğru aracı seçmekle görevli makine öğrenimi mühendisleri için çok önemlidir.

RTDETRv2: Transformer Yaklaşımı

Orijinal RT-DETR'in başarısının üzerine inşa edilen RTDETRv2, hibrit bir kodlayıcı ve bir transformer kod çözücü kullanır. Bu tasarım, modelin küresel bağlamı son derece etkili bir şekilde işlemesini sağlayarak onu yoğun sahnelerde üst üste binen nesneleri ayırt etmede olağanüstü derecede iyi kılar. Bu mimarinin en önemli avantajı, yerel NMS (Non-Maximum Suppression) içermeyen tasarımıdır. NMS son işleme adımını ortadan kaldıran RTDETRv2, çıkarım hattını kolaylaştırır ve çeşitli donanım konfigürasyonlarında daha kararlı gecikme süreleri sağlar.

RTDETRv2 hakkında daha fazla bilgi edinin

DAMO-YOLO: CNN Verimliliğini Geliştirme

Diğer taraftan DAMO-YOLO, oldukça başarılı CNN tabanlı YOLO soy ağacına kök salmaya devam ederken birkaç çığır açıcı iyileştirme sunuyor. Omurgasını optimize etmek için Sinir Mimarisi Aramasından (NAS) yararlanarak maksimum özellik çıkarma verimliliği sağlar. Ayrıca, AlignedOTA ve damıtma iyileştirme tekniklerinin yanı sıra verimli bir RepGFPN (Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramidi Ağı) ve ZeroHead tasarımını bünyesinde barındırır. Bu yenilikler, DAMO-YOLO'nun son derece rekabetçi bir mAPval puanını korurken hızlı çıkarım hızlarına ulaşmasını sağlar.

DAMO-YOLO hakkında daha fazla bilgi edinin

Mimari Farklılık

RTDETRv2 NMS olmadan küresel özellik anlayışı için dikkat mekanizmalarından yararlanmaya odaklanırken, DAMO-YOLO NAS ve gelişmiş damıtma yoluyla geleneksel CNN verimliliğini maksimize eder; standart son işlem gerektirir ancak belirli donanımlarda belirgin hız avantajları sunar.

Performans ve Metrik Karşılaştırması

Dağıtım için modelleri değerlendirirken, ortalama Hassasiyet (mAP), çıkarım hızı ve parametre sayısı gibi performans metrikleri çok önemlidir. Aşağıda, iki model ailesinin ayrıntılı bir karşılaştırması yer almaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Sonuçların Analizi

Tabloda görüldüğü gibi, RTDETRv2-x, 54.3 mAPval ile en yüksek doğruluğa ulaşarak COCO veri kümesi gibi karmaşık doğrulamalarda transformer mimarisinin gücünü sergilemektedir. Ancak bu, önemli ölçüde daha yüksek parametre (76M) ve FLOP maliyeti ile gerçekleşir.

Buna karşılık, DAMO-YOLOt (Tiny) son derece hafiftir ve yalnızca 8.5M parametre gerektirir, bu da onu CUDA belleğinin ciddi şekilde kısıtlı olduğu ortamlar için inanılmaz derecede hızlı bir seçenek haline getirir. DAMO-YOLO, eski nesil uç cihazlar için genellikle hız ve doğruluk arasında uygun bir denge sağlar.

Ekosistem, Kullanılabilirlik ve Ultralytics Avantajı

Resmi RT-DETR GitHub ve DAMO-YOLO GitHub gibi bağımsız depolar bu modelleri eğitmek için ham kodu sunsa da, bunları üretim hatlarına entegre etmek genellikle kapsamlı ortak kod (boilerplate) ve manuel optimizasyon gerektirir.

İşte Ultralytics ekosisteminin geliştirici deneyimini önemli ölçüde basitleştirdiği yer burasıdır. Ultralytics, RTDETRv2 gibi modelleri doğrudan birleşik API'sine entegre ederek kullanıcıların tek bir kod satırı ile modelleri eğitmesine, doğrulamasına ve dışa aktarmasına olanak tanır. Ayrıca Ultralytics modelleri, ağır transformer tabanlı bağımsız depolara kıyasla eğitim sırasında minimum bellek gereksinimleri ile bilinir.

Kod Örneği: Sorunsuz Entegrasyon

İşte çıkarım yapmak için Ultralytics Python kitaplığından ne kadar kolay yararlanabileceğin. Bir transformer modeli veya son teknoloji bir CNN kullansan da API tutarlı kalır.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()
Üretim için Modelleri Dışa Aktarma

Using the Ultralytics API, you can seamlessly export your trained models to formats like TensorRT, ONNX, or CoreML with a simple model.export(format="engine") command, drastically reducing deployment friction.

İdeal Kullanım Durumları

Bu mimariler arasında seçim yapmak tamamen senin özel proje gereksinimlerine bağlıdır:

  • RTDETRv2, VRAM'in bol olduğu sunucu tarafı işlemede mükemmeldir. Küresel bağlam farkındalığı, tıkanıklıkların sık olduğu tıbbi görüntüleme ve yoğun kalabalık analizi için mükemmeldir.
  • DAMO-YOLO, gömülü IoT uygulamaları ve düşük parametre sayısı ile yüksek FPS'nin katı gereksinimler olduğu hızlı hareket eden endüstriyel denetim hatları için oldukça uygundur.

Gelecek: Ultralytics YOLO26

Hem RTDETRv2 hem de DAMO-YOLO'nun kendi değerleri olsa da, bilgisayarlı görü alanı hızla ilerliyor. Yeni projeler için en son Ultralytics YOLO26, hız, doğruluk ve geliştirici deneyiminin nihai sentezini temsil eder.

YOLO26, transformer'ların birincil avantajını devasa hesaplama yükü olmadan yakalayan Uçtan Uca NMS'siz Bir Tasarım benimser. Kararlı ve hızlı yakınsama için Büyük Dil Modeli eğitiminden esinlenen yenilikçi MuSGD Optimizer'ı içerir. Ayrıca, DFL Kaldırma (basitleştirilmiş dışa aktarma ve daha iyi uç/düşük güç tüketimli cihaz uyumluluğu için Dağılımsal Odak Kaybı kaldırıldı) ile YOLO26, %43'e kadar daha hızlı CPU çıkarımı elde ederek onu uç bilişim için tartışmasız şampiyon haline getirir. Ek olarak, ProgLoss + STAL, IoT, robotik ve hava görüntülerinde kritik olan küçük nesne tanımada önemli iyileştirmelerle geliştirilmiş kayıp fonksiyonları sağlar.

Yalnızca sınırlayıcı kutularla sınırlı modellerin aksine, YOLO26 ailesi örnek segmentasyonu ve poz tahmini işlemlerinden yönlendirilmiş sınırlayıcı kutulara (OBB) kadar uzanan görevleri destekleyerek, bunların tamamı sezgisel Ultralytics Platform üzerinden sorunsuz bir şekilde yönetilirken eşsiz bir çok yönlülük sunar.

YOLO26'yı Platformda Keşfet

Model Detayları ve Referanslar

RTDETRv2

  • Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
  • Organizasyon: Baidu
  • Tarih: 2024-07-24
  • Arxiv: 2407.17140
  • GitHub: RT-DETR Deposu

DAMO-YOLO

Diğer karşılaştırmaları incelemek isteyen kullanıcılar için, bu modellerin Ultralytics ailesinin önceki nesillerine karşı nasıl performans gösterdiğini görmek adına RTDETRv2 vs. YOLO11 veya DAMO-YOLO vs. YOLOv8 rehberlerimize göz atabilirsin.

Yorumlar