RTDETRv2 ve DAMO-YOLO: Modern Gerçek Zamanlı Nesne detect Kapsamlı Bir Kılavuz
Bilgisayar görüşü alanı sürekli gelişmektedir; araştırmacılar ve mühendisler hız, doğruluk ve verimliliği mükemmel bir şekilde dengeleyen modeller oluşturmaya çalışmaktadır. Bu alanda önemli yankı uyandıran iki önde gelen mimari, Baidu tarafından geliştirilen RTDETRv2 ve Alibaba Group tarafından tasarlanan DAMO-YOLO'dur. Her iki model de gerçek zamanlı nesne detect sınırlarını zorlamakta, ancak etkileyici sonuçlarını elde etmek için temelden farklı mimari felsefeler benimsemektedirler.
Bu teknik karşılaştırmada, mimari yapılarına, eğitim metodolojilerine ve gerçek dünya dağıtım yeteneklerine derinlemesine ineceğiz. Ayrıca bu modellerin daha geniş ekosistemle, özellikle yüksek düzeyde optimize edilmiş Ultralytics Platformu ve son teknoloji YOLO26 mimarisi ile nasıl karşılaştırıldığını da inceleyeceğiz.
Mimari Yenilikler
Bu modellerin temel mekanizmalarını anlamak, üretim ortamları için doğru aracı seçmekle görevli makine öğrenimi mühendisleri için kritik öneme sahiptir.
RTDETRv2: Transformer Yaklaşımı
Orijinal RT-DETR'nin başarısı üzerine inşa edilen RTDETRv2, hibrit bir kodlayıcı ve bir transformatör kod çözücü kullanır. Bu tasarım, modelin küresel bağlamı son derece etkili bir şekilde işlemesine olanak tanır ve yoğun sahnelerdeki çakışan nesneleri ayırt etmede onu olağanüstü başarılı kılar. Bu mimarinin en önemli avantajı, yerel NMS'siz (Non-Maximum Suppression) tasarımıdır. NMS işlem sonrası adımını ortadan kaldırarak, RTDETRv2 çıkarım hattını kolaylaştırır ve değişen donanım konfigürasyonlarında daha istikrarlı gecikme süresi sağlar.
RTDETRv2 hakkında daha fazla bilgi edinin
DAMO-YOLO: CNN Verimliliğini İlerletmek
DAMO-YOLO ise, son derece başarılı CNN tabanlı YOLO soyuna dayanmakla birlikte, çığır açan birkaç geliştirme sunar. backbone'unu optimize etmek ve maksimum özellik çıkarma verimliliği sağlamak için Nöral Mimari Arama (NAS) kullanır. Ayrıca, verimli bir RepGFPN (Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramit Ağı) ve ZeroHead tasarımını, AlignedOTA ve damıtma geliştirme teknikleriyle birlikte içerir. Bu yenilikler, DAMO-YOLO'nun hızlı çıkarım hızlarına ulaşmasını sağlarken, son derece rekabetçi bir mAPval skorunu korumasını mümkün kılar.
DAMO-YOLO hakkında daha fazla bilgi edinin
Mimari Farklılık
RTDETRv2, NMS olmadan küresel özellik anlayışı için dikkat mekanizmalarından yararlanmaya odaklanırken, DAMO-YOLO, NAS ve gelişmiş damıtma yoluyla geleneksel CNN verimliliğini en üst düzeye çıkarır; standart işlem sonrası gerektirmesine rağmen belirli donanımlarda belirgin hız avantajları sunar.
Performans ve Metrik Karşılaştırması
Modelleri dağıtım için değerlendirirken, ortalama Hassasiyet (mAP), çıkarım hızı ve parametre sayısı gibi performans metrikleri büyük önem taşır. Aşağıda iki model ailesinin detaylı bir karşılaştırması bulunmaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Sonuçların Analizi
Tabloda görüldüğü gibi, RTDETRv2-x, 54.3'lük bir mAPval ile en yüksek doğruluğu elde ederek, COCO veri kümesi gibi karmaşık doğrulama süreçlerinde transformatör mimarisinin gücünü sergiliyor. Ancak bu, önemli ölçüde daha yüksek parametreler (76M) ve FLOP'lar pahasına gerçekleşir.
Tersine, DAMO-YOLOt (Tiny) son derece hafiftir ve yalnızca 8.5M parametre gerektirir, bu da CUDA belleğinin ciddi şekilde kısıtlı olduğu ortamlar için inanılmaz hızlı bir seçenek olmasını sağlar. DAMO-YOLO, genellikle eski nesil kenar cihazlar için hız ve doğruluk arasında uygun bir denge sunar.
Ekosistem, Kullanılabilirlik ve Ultralytics Avantajı
Resmi RT-DETR GitHub ve DAMO-YOLO GitHub gibi bağımsız depolar bu modelleri eğitmek için ham kodu sunsa da, onları üretim hatlarına entegre etmek genellikle kapsamlı şablon kodu ve manuel optimizasyon gerektirir.
İşte Ultralytics ekosistemi geliştirici deneyimini önemli ölçüde basitleştirdiği nokta burasıdır. Ultralytics, RTDETRv2 gibi modelleri doğrudan birleşik API'sine entegre ederek, kullanıcıların tek bir kod satırı ile modelleri eğitmesine, doğrulamasına ve dışa aktarmasına olanak tanır. Ayrıca, Ultralytics modelleri, ağır transformatör tabanlı bağımsız depolara kıyasla eğitim sırasında minimum bellek gereksinimleriyle bilinir.
Kod Örneği: Sorunsuz Entegrasyon
İşte Ultralytics python kütüphanesini çıkarım çalıştırmak için ne kadar kolay kullanabileceğiniz. Bir transformatör modeli veya son teknoloji bir CNN kullanıyor olsanız da API tutarlı kalır.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()
Modelleri Üretim İçin Dışa Aktarma
Ultralytics API'sini kullanarak, sorunsuz bir şekilde eğittiğiniz modelleri dışa aktarabilirsiniz TensorRT, ONNX veya CoreML gibi formatlara basit bir model.export(format="engine") komutla, dağıtım sürtünmesini önemli ölçüde azaltarak.
İdeal Kullanım Senaryoları
Bu mimariler arasında seçim yapmak tamamen özel proje gereksinimlerinize bağlıdır:
- RTDETRv2, VRAM'in bol olduğu sunucu tarafı işlemede üstündür. Küresel bağlam farkındalığı, tıbbi görüntüleme ve tıkanıklıkların sık olduğu yoğun kalabalık analizi için mükemmeldir.
- DAMO-YOLO, düşük parametre sayıları ve yüksek FPS'nin katı gereksinimler olduğu gömülü IoT uygulamaları ve hızlı hareket eden endüstriyel denetim hatları için son derece uygundur.
Gelecek: Ultralytics YOLO26
Hem RTDETRv2 hem de DAMO-YOLO'nun kendi avantajları olsa da, bilgisayar görüşü alanı hızla ilerlemektedir. Yeni projeler için, en yeni Ultralytics YOLO26 hız, doğruluk ve geliştirici deneyiminin nihai sentezini temsil eder.
YOLO26, Uçtan Uca NMS'siz Tasarım benimseyerek, transformatörlerin temel faydasını büyük hesaplama yükü olmadan yakalar. Büyük Dil Modeli eğitiminden esinlenerek istikrarlı, hızlı yakınsama için yenilikçi MuSGD Optimizatörü'nü içerir. Ayrıca, DFL Kaldırma (basitleştirilmiş dışa aktarım ve daha iyi kenar/düşük güçlü cihaz uyumluluğu için Dağıtım Odak Kaybı kaldırıldı) ile YOLO26, yüzde 43'e kadar daha hızlı CPU çıkarımı elde ederek, kenar bilişim için tartışmasız şampiyon olur. Ek olarak, ProgLoss + STAL, IoT, robotik ve hava görüntüleme için kritik olan küçük nesne tanımada dikkate değer iyileştirmelerle geliştirilmiş kayıp fonksiyonları sunar.
Yalnızca sınırlayıcı kutularla sınırlı modellere kıyasla, YOLO26 ailesi, örnek segmentasyon ve poz tahmininden yönlendirilmiş sınırlayıcı kutulara (OBB) kadar uzanan görevleri destekleyerek benzersiz bir çok yönlülük sunar ve hepsi sezgisel Ultralytics Platformu aracılığıyla sorunsuz bir şekilde yönetilir.
Model Detayları ve Referanslar
RTDETRv2
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Deposu
DAMO-YOLO
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş:Alibaba Group
- Tarih: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:DAMO-YOLO Deposu
Diğer karşılaştırmaları keşfetmek isteyen kullanıcılar için, bu modellerin Ultralytics ailesinin önceki nesillerine karşı nasıl performans gösterdiğini görmek üzere RTDETRv2 vs. YOLO11 veya DAMO-YOLO vs. YOLOv8 hakkındaki rehberlerimize göz atın.