Teknik Bir Karşılaştırma: Gerçek Zamanlı Nesne Tespiti için DAMO-YOLO ve RTDETRv2
Bilgisayarlı görü dünyasının hızla gelişen ortamı, hız, doğruluk ve hesaplama verimliliğini dengelemek için tasarlanmış etkileyici bir mimari yelpazesi ortaya çıkardı. Bu zorlukları çözmek için benzersiz yaklaşımlar sunan iki öne çıkan model DAMO-YOLO ve RTDETRv2'dir. Her iki model de gerçek zamanlı çıkarım için en son teknoloji çözümler sunmayı amaçlasa da, mimari felsefeleri temelden farklıdır.
Bu kapsamlı rehber, her iki modelin teknik özelliklerini, mimari yeniliklerini ve pratik kullanım alanlarını derinlemesine incelerken, Ultralytics Platform ve son teknoloji YOLO26 gibi modern çözümlerin konuşlandırma ve kullanım kolaylığı açısından endüstri standartlarını nasıl yeniden tanımladığını keşfediyor.
Model Genel Bakışları
DAMO-YOLO'yu Anlamak
Alibaba Group araştırmacıları tarafından geliştirilen DAMO-YOLO, büyük ölçüde Neural Architecture Search (NAS) yöntemine dayanan hızlı ve doğru bir nesne tespiti yöntemi sunar. Geleneksel el yapımı omurgaları, düşük gecikme süresi için tasarlanmış NAS üretimi yapılarla değiştirir. Ek olarak, özellik birleştirmeyi ve BBox tahminlerini kolaylaştırmak için verimli bir RepGFPN (Reparameterized Generalized Feature Pyramid Network) ve ZeroHead tasarımı içerir.
Ana Model Detayları:
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş: Alibaba Group
- Tarih: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- Dokümantasyon: DAMO-YOLO Dokümantasyonu
DAMO-YOLO hakkında daha fazla bilgi edinin
RTDETRv2'yi Anlamak
Baidu'nun RTDETRv2 modeli, Gerçek Zamanlı Tespit Transformer'ları için önemli bir sıçramayı temsil eder. Anchor kutularına ve NMS'e dayanan geleneksel Evrişimli Sinir Ağlarının (CNN) aksine, RTDETRv2 tüm görüntü bağlamını bağlamsal olarak görmek için öz-dikkat (self-attention) mekanizmalarını kullanır. Doğrudan BBox çıktıları verir ve NMS son işleme adımını tamamen atlar. Bu model, çıkarım gecikmesini artırmadan temel doğruluğu iyileştirmek için bir "bag of freebies" eğitim stratejisi sunar.
Ana Model Detayları:
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon: Baidu
- Tarih: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR Deposu
- Dokümantasyon: RTDETRv2 Dokümantasyonu
RTDETRv2 hakkında daha fazla bilgi edinin
Transformer'lar daha yüksek hesaplama kaynakları gerektirse de, küresel bağlamı işleme yetenekleri onları RTDETRv2'nin büyük bir gücü olan karmaşık sahne anlayışı için inanılmaz derecede etkili kılar.
Performans Karşılaştırması
Bu modelleri gerçek dünya uygulamaları için değerlendirirken, mAP, çıkarım hızı ve bellek kullanımı gibi parametreler kritiktir. RTDETRv2 gibi Transformer tabanlı modeller, genellikle DAMO-YOLO gibi hafif CNN'lere kıyasla eğitim ve çıkarım sırasında daha yüksek CUDA bellek gerektirir.
Aşağıda performans metriklerinin ayrıntılı bir karşılaştırması bulunmaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
İdeal Kullanım Durumları
DAMO-YOLO'nun Öne Çıktığı Yerler: NAS ile optimize edilmiş omurgası ve daha küçük varyantlarındaki (DAMO-YOLOt gibi) son derece düşük parametre sayısı nedeniyle, kısıtlı donanımlarda konuşlandırma için oldukça uygundur. ONNX gibi çalışma zamanlarını veya uç bilişim (edge computing) için özelleşmiş TensorRT motorlarını kullanarak gömülü cihazlar için çözümler geliştiriyorsan, DAMO-YOLO son derece duyarlı bir çerçeve sağlar.
RTDETRv2'nin Öne Çıktığı Yerler: RTDETRv2, sunucu sınıfı GPU'ların mevcut olduğu ve küresel görüntü bağlamının her şeyden önemli olduğu senaryolarda parlar. Transformer mimarisi, NMS olmadan çakışan BBox'ları doğal olarak çözmesini sağlar, bu da onu yoğun kalabalık yönetimi veya uzak nesneler arasındaki mekansal ilişkilerin kritik olduğu karmaşık nesne takibi uygulamaları için sağlam bir seçenek haline getirir.
Ultralytics Avantajı: YOLO26 ile Tanışın
DAMO-YOLO ve RTDETRv2 önemli akademik başarıları temsil etse de, bu modelleri ölçeklenebilir, üretime hazır uygulamalara dönüştürmek zor olabilir. Geliştiriciler genellikle parçalı kod tabanları, çok görevli öğrenme desteğinin eksikliği ve karmaşık konuşlandırma hatları ile karşılaşırlar.
İşte Ultralytics ekosistemi tam olarak burada fark yaratıyor. Kullanım kolaylığına, iyi bakılan bir Python API'sine ve benzersiz çok yönlülüğe öncelik veren Ultralytics, geliştiricilerin hata ayıklamaya daha az, geliştirmeye daha fazla zaman harcamasını sağlar.
Yakın zamanda yayınlanan Ultralytics YOLO26 modeli, hem DAMO-YOLO hem de RTDETRv2'yi geride bırakan atılımlar sunarak bu avantajları bir üst seviyeye taşıyor:
- Uçtan Uca NMS'siz Tasarım: İlk olarak YOLOv10 ile öncülük edilen YOLO26, yerel olarak uçtan uca çalışır. Bu, geleneksel CNN'lere göre konuşlandırmayı daha hızlı ve çok daha basit hale getirirken, RTDETRv2'nin doğrudan çıktı avantajlarını da yakalar.
- %43'e Kadar Daha Hızlı CPU Çıkarımı: Harici GPU'su olmayan uç yapay zeka cihazları için yoğun bir şekilde optimize edilmiştir, bu da onu bellek ağırlıklı Transformer'lara kıyasla IoT uygulamaları için çok daha üstün bir seçenek haline getirir.
- MuSGD Optimize Edici: Moonshot AI'nın Kimi K2'sinden esinlenen bu SGD ve Muon melezi, Büyük Dil Modeli (LLM) eğitim yeniliklerini bilgisayarlı görü dünyasına getirerek dikkat çekici derecede kararlı bir eğitim ve daha hızlı yakınsama sağlar.
- ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, modellerin geleneksel olarak zorlandığı küçük nesne tanıma konusunda kayda değer iyileştirmeler sağlar. Bu, hava görüntüleri ve drone uygulamaları için kritiktir.
- DFL Kaldırıldı: Dağılımsal Odak Kaybı (Distribution Focal Loss), basitleştirilmiş dışa aktarma formatları ve düşük güç tüketen uç cihazlarla daha iyi uyumluluk sağlamak amacıyla kaldırıldı.
- Rakipsiz Çok Yönlülük: Sadece tespitle sınırlı olan rakip modellerin aksine YOLO26, Yönlendirilmiş BBox'lar (OBB) için özel açı kaybı, piksel mükemmelliğinde doğruluk için anlamsal segmentasyon kaybı ve Poz tahmini için Residual Log-Likelihood Estimation (RLE) gibi görev bazlı iyileştirmeleri içerir.
YOLO26 hakkında daha fazla bilgi edin
RTDETRv2 gibi Transformer tabanlı modelleri eğitmek, genellikle maliyetli çoklu GPU kurulumları gerektiren devasa CUDA bellek tahsisleri gerektirir. Ultralytics YOLO modelleri, hem eğitim hem de çıkarım sırasında oldukça düşük bellek gereksinimlerini koruyarak yapay zeka geliştirmeyi araştırmacılar ve hobi sahipleri için demokratikleştirir.
Kod Örneği: Birleşik Ultralytics API
Ultralytics ekosisteminin en büyük faydalarından biri birleşik API'sidir. RTDETR'nin bir PyTorch uygulamasını ve en son YOLO modellerini, iş akışını değiştirmeden sorunsuz bir şekilde yükleyebilir, eğitebilir ve doğrulayabilirsin.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()Bu basitlik, özel veri seti eğitimi ve dışa aktarma süreçlerine de uzanır. Ultralytics Python paketi kullanılarak, eğitilmiş ağırlıklar tek bir komutla CoreML veya OpenVINO gibi konuşlandırma platformlarına kolayca aktarılabilir.
Sonuç ve Daha Fazlası
Hem DAMO-YOLO hem de RTDETRv2, gerçek zamanlı nesne tespitinde mümkün olanın sınırlarını inkar edilemez bir şekilde zorladı. DAMO-YOLO, ham verimlilik için yüksek oranda optimize edilmiş, otomatik taranmış ağ yapıları sağlarken, RTDETRv2, NMS gibi geleneksel darboğazları ortadan kaldırarak Transformer'ların gerçek zamanlı alanda rekabet edebileceğini kanıtlıyor.
Ancak, performans, kapsamlı dokümantasyon ve üretime hazır olma dengesini arayan geliştiriciler için Ultralytics YOLO modelleri altın standart olmaya devam ediyor. YOLO26'nın tanıtımıyla kullanıcılar, sezgisel ve sağlam bir ekosistem içine sarılmış, Transformer benzeri uçtan uca tespit, LLM'den esinlenen eğitim verimliliği ve benzersiz CPU hızlarına erişim kazanıyor.
Bir sonraki projen için model değerlendiriyorsan, EfficientDet vs RTDETR karşılaştırmalarımızı okumayı, önceki nesil YOLO11 modelini keşfetmeyi veya YOLOX gibi akademik temelleri incelemeyi faydalı bulabilirsin. Ultralytics hızlı başlangıç rehberini keşfederek bugün geliştirmeye başla.