DAMO-YOLO - RTDETRv2 Karşılaştırması: Hız ve Transformer Doğruluğunu Dengeleme
Optimum nesne algılama mimarisini seçmek genellikle çıkarım gecikmesi ve algılama hassasiyeti arasındaki ödünleşimde gezinmeyi içerir. Bu teknik karşılaştırma, Alibaba Group tarafından optimize edilmiş yüksek hızlı bir detectör olan DAMO-YOLO ve Baidu'nun ikinci nesil Gerçek Zamanlı Algılama Transformatörü olan RTDETRv2'yi inceler. Bilgisayar görüşü uygulamalarınız için bilinçli kararlar vermenize yardımcı olmak için mimari yeniliklerini, performans kıyaslamalarını ve dağıtım uygunluğunu analiz ediyoruz.
DAMO-YOLO: Düşük Gecikme için Optimizasyon
DAMO-YOLO, doğruluğu ciddi şekilde tehlikeye atmadan hızı en üst düzeye çıkarmaya büyük önem vererek YOLO mimarilerinin evriminde önemli bir adımı temsil eder. Alibaba Group tarafından geliştirilen bu model, ağ yapısını verimlilik için uyarlamak üzere gelişmiş Neural Architecture Search (NAS) teknikleri kullanır.
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş:Alibaba Group
- Tarih: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Belgeler:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Mimari Öne Çıkanlar
DAMO-YOLO, detect hattını kolaylaştırmak için çeşitli yeni teknolojileri entegre eder:
- NAS Destekli Backbone: Model, verimli bir backbone yapısını otomatik olarak keşfetmek için Sinir Ağı Mimarisi Arama'yı (NAS) kullanır (MAE-NAS). Bu yaklaşım, ağ derinliğinin ve genişliğinin belirli donanım kısıtlamaları için optimize edilmesini sağlar.
- RepGFPN Katmanı: RepGFPN olarak bilinen Genelleştirilmiş Özellik Piramidi Ağı'nın (GFPN) verimli bir sürümünü içerir. Bu bileşen, düşük gecikme kontrolünü korurken farklı ölçeklerdeki özellik kaynaştırmayı geliştirir.
- ZeroHead: "ZeroHead" olarak adlandırılan basitleştirilmiş bir başlık tasarımı, sınıflandırma ve regresyon görevlerini ayırarak son tahmin katmanlarının hesaplama yükünü azaltır.
- AlignedOTA: Eğitim kararlılığı için DAMO-YOLO, yakınsamayı iyileştirmek üzere sınıflandırma ve regresyon hedeflerini hizalayan bir etiket atama stratejisi olan AlignedOTA'yı (Optimal Transport Assignment) kullanır.
DAMO-YOLO hakkında daha fazla bilgi edinin
RTDETRv2: Gerçek Zamanlı Transformer'ların Evrimi
RTDETRv2, gerçek zamanlı performans elde eden ilk transformer tabanlı nesne dedektörü olan orijinal RT-DETR'nin başarısı üzerine inşa edilmiştir. Baidu tarafından geliştirilen RTDETRv2, ek çıkarım maliyetlerine yol açmadan eğitim kararlılığını ve doğruluğunu artırmak için bir "bag-of-freebies" sunar.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Belgeler:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Mimari Öne Çıkanlar
RTDETRv2, geleneksel hız darboğazlarını azaltırken vizyon dönüştürücülerinin güçlü yönlerinden yararlanır:
- Hibrit Kodlayıcı: Mimari, hesaplama maliyetlerinden tasarruf etmek için ölçek içi etkileşimi ve ölçekler arası kaynaşmayı ayırarak çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanır.
- IoU-farkındalıklı Sorgu Seçimi: Bu mekanizma, Kesişim Üzerinden Birleşim (IoU) puanlarına dayalı olarak yüksek kaliteli ilk nesne sorguları seçerek daha hızlı eğitim yakınsamasına yol açar.
- Uyarlanabilir Yapılandırma: RTDETRv2, kod çözücü ve sorgu seçimi için esnek yapılandırmalar sunarak kullanıcıların modeli belirli hız/doğruluk gereksinimleri için ayarlamasına olanak tanır.
- Ankraj İçermeyen Tasarım: Selefi gibi, tamamen ankraj içermez, bu da sezgisel ankraj kutusu ayarlaması ve işlem sonrası sırasında Maksimum Olmayan Bastırma (NMS) ihtiyacını ortadan kaldırır.
RTDETRv2 hakkında daha fazla bilgi edinin
Teknik Karşılaştırma: Performans ve Verimlilik
Bu iki model arasındaki temel ayrım, mimari köklerindedir (CNN'ye karşı Transformer) ve bunun performans profillerini nasıl etkilediğidir.
Metrik Analizi
Aşağıdaki tablo, COCO veri kümesindeki temel metrikleri özetlemektedir. RTDETRv2 Ortalama Ortalama Hassasiyet (mAP) açısından baskın olsa da, DAMO-YOLO daha küçük varyantları için üstün verim (FPS) ve daha düşük parametre sayıları göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Ödünleşimleri Analiz Etme
DAMO-YOLO, yüksek frekanslı endüstriyel sıralama gibi her milisaniyenin önemli olduğu ortamlarda öne çıkar. 'Tiny' (t) varyantı son derece hafiftir. Aksine, RTDETRv2 daha yüksek bir doğruluk sınırı sağlar ve bu da onu otonom navigasyon veya ayrıntılı gözetim gibi bir nesneyi kaçırmanın kritik olduğu karmaşık sahneler için tercih edilir kılar.
Mimari - Gerçek Dünya Uygulaması Karşılaştırması
Global Bağlam - Yerel Özellikler Karşılaştırması: RTDETRv2'nin transformer dikkat mekanizması, global bağlamı CNN tabanlı DAMO-YOLO'dan daha iyi anlamasını sağlar. Bu, kalabalık sahnelerde veya nesneler tıkandığında daha iyi performans sağlar. Ancak, bu global dikkat daha yüksek bellek tüketimi ve daha yavaş eğitim süreleri pahasına gelir.
Donanım Optimizasyonu: DAMO-YOLO'nun NAS tabanlı backbone'u, GPU çıkarımı için yüksek düzeyde optimize edilmiştir ve çok düşük gecikme süresi elde eder. RTDETRv2, gerçek zamanlı olmasına rağmen, genellikle YOLO tarzı detectörlerin kare hızlarına ulaşmak için daha güçlü donanım gerektirir.
Ultralytics Avantajı: Neden YOLO11'i Seçmelisiniz?
DAMO-YOLO ve RTDETRv2 özel faydalar sunarken, Ultralytics YOLO11, gerçek dünya uygulamalarının büyük çoğunluğu için en dengeli ve geliştirici dostu çözüm olarak öne çıkıyor.
Üstün Geliştirici Deneyimi ve Ekosistemi
DAMO-YOLO veya RTDETRv2 gibi akademik modellerle ilgili en önemli zorluklardan biri entegrasyondur. Ultralytics, güçlü bir ekosistemle bunu çözer:
- Kullanım Kolaylığı: Birleşik bir Python API ve CLI ile, modelleri yalnızca birkaç satır kodla eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
- İyi Yönetilen Ekosistem: Ultralytics modelleri, aktif geliştirme, kapsamlı dokümantasyon ve geniş bir topluluk tarafından desteklenmektedir. Bu, en son donanım ve yazılım kütüphaneleriyle uyumluluğu sağlar.
- Eğitim Verimliliği: YOLO11 daha hızlı eğitilecek şekilde tasarlanmıştır ve RTDETRv2 gibi transformatör tabanlı modellere göre önemli ölçüde daha az GPU belleği (VRAM) gerektirir. Bu, yüksek performanslı yapay zekayı tüketici sınıfı donanımlarda bile erişilebilir kılar.
Rakipsiz Çok Yönlülük
Öncelikle sınırlayıcı kutu tespiti üzerine odaklanan DAMO-YOLO ve RTDETRv2'nin aksine, YOLO11 çok çeşitli bilgisayar görüşü görevlerini yerel olarak destekler:
Performans Dengesi
YOLO11, YOLO ailesinin çıkarım hızı ve verimlilik karakteristiğini korurken, birçok kıyaslamada RTDETRv2'ye rakip olan veya onu aşan son teknoloji doğruluğu elde eder.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
YOLO11 hakkında daha fazla bilgi edinin
Sonuç
DAMO-YOLO ve RTDETRv2 arasındaki seçim, özel kısıtlamalarınıza bağlıdır:
- Birincil kısıtlamanız gecikme ise ve minimum parametre sayısının kritik olduğu uç cihazlarda dağıtım yapıyorsanız DAMO-YOLO'yu Seçin.
- RTDETRv2'yi Seçin: Karmaşık sahnelerde mümkün olan en yüksek doğruluğa ihtiyacınız varsa ve bir transformer mimarisini destekleyecek hesaplama bütçeniz varsa.
Ancak, yüksek performans, kullanım kolaylığı ve çoklu görev yeteneğini bir araya getiren bütünsel bir çözüm için, Ultralytics YOLO11 önerilen seçenek olmaya devam ediyor. Olgun bir ekosistemle birleşen, eğitim sırasındaki daha düşük bellek ayak izi, prototipten üretime geçişi hızlandırır.
Diğer Modelleri İnceleyin
Nesne algılamanın genel yapısını daha iyi anlamak için, bu karşılaştırmaları inceleyin:
- YOLO11 ve DAMO-YOLO
- YOLO11 - RTDETR Karşılaştırması
- YOLOv8 - DAMO-YOLO
- RTDETR - EfficientDet karşılaştırması
- YOLOX - DAMO-YOLO Karşılaştırması