YOLOv9 ve RTDETRv2: Modern Nesne Algılamaya Teknik Bir Bakış
Gerçek zamanlı nesne algılama dünyası son yıllarda büyük bir paradigma değişimi yaşadı. Bu alana hükmetmek için iki farklı mimari felsefe ortaya çıktı: yüksek düzeyde optimize edilmiş Evrişimli Sinir Ağları (CNN'ler) ve gerçek zamanlı Algılama Transformer'ları (DETR'ler). Bu iki yaklaşımın zirvesini ise YOLOv9 ve RTDETRv2 temsil ediyor.
This comprehensive guide compares these two powerful models, analyzing their architectural innovations, performance metrics, and ideal deployment scenarios to help you choose the right model for your computer vision pipeline.
Yönetici Özeti
Her iki model de en üst düzey sonuçlara ulaşıyor, ancak biraz farklı dağıtım kısıtlamalarına ve geliştirme ekosistemlerine hitap ediyorlar.
- Şu durumda YOLOv9'u seç: Uç cihazlarda yüksek verimli parametre kullanımına ve hızlı çıkarıma ihtiyacın varsa. YOLOv9, CNN verimliliğinin teorik sınırlarını zorlar; bu da onu hesaplama kaynaklarının ciddi şekilde kısıtlı olduğu ortamlar için ideal kılar.
- Şu durumda RTDETRv2'yi seç: Özellikle şiddetli tıkanma veya karmaşık nesne ilişkileri olan sahnelerde Transformer'ların sağladığı incelikli bağlam anlayışına ihtiyacın varsa ve daha ağır bir mimariyi destekleyecek donanıma sahipsen.
- Şu durumda YOLO26'yı (Önerilen) seç: Her iki dünyanın da en iyi özelliklerini istiyorsan. Ultralytics Platformu üzerinde sunulan en yeni nesil olan YOLO26, yerel bir Uçtan Uca NMS'siz Tasarım (DETR modellerine benzer ancak çok daha hızlı) özelliğine sahiptir, son işleme darboğazlarını ortadan kaldırır ve önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sunar.
Teknik Özellikler ve Yazarlık
Bu modellerin kökenlerini ve tasarım amaçlarını anlamak, mimari tercihlerine dair hayati bir bağlam sağlar.
YOLOv9
Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kurum: Institute of Information Science, Academia Sinica
Tarih: 21-02-2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9
YOLOv9 hakkında daha fazla bilgi edin
RTDETRv2
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kurum: Baidu
Tarih: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
RTDETR hakkında daha fazla bilgi edin
Mimari Yenilikler
YOLOv9: Bilgi Darboğazını Çözmek
Ultralytics YOLOv9, veri derin sinir ağlarından geçerken yaşanan bilgi kaybını ele almak için tasarlanmış iki büyük yeniliği beraberinde getiriyor:
- Programlanabilir Gradyan Bilgisi (PGI): Bu yardımcı denetim çerçevesi, ağ ağırlıklarını güncellemek için güvenilir gradyanların oluşturulmasını sağlar ve çok derin ağ katmanlarında bile kritik özellik bilgilerini korur.
- Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN): CSPNet ve ELAN'ın güçlü yönlerini birleştiren yeni bir mimari. GELAN, parametre verimliliğini optimize ederek YOLOv9'un geleneksel CNN'lere kıyasla daha az FLOP ile daha yüksek doğruluk elde etmesini sağlar.
RTDETRv2: Gerçek Zamanlı Transformer'ları Geliştirmek
Orijinal RT-DETR'in başarısının üzerine inşa edilen RTDETRv2, NMS (Non-Maximum Suppression) gereksinimini doğası gereği ortadan kaldıran, Transformer tabanlı bir mimari kullanır. Geliştirmeleri şunları içerir:
- Ücretsiz Eklentiler (Bag-of-Freebies) Stratejisi: v2 sürümü, çıkarım gecikmesine herhangi bir yük getirmeden doğruluğu önemli ölçüde artıran gelişmiş eğitim teknikleri ve veri artırma yöntemlerini içerir.
- Verimli Hibrit Kodlayıcı: Çok ölçekli özellikleri, ölçek içi ve ölçekler arası ayrıştırılmış bir dikkat mekanizması aracılığıyla işleyen RTDETRv2, Vision Transformer'ların geleneksel olarak yüksek olan hesaplama maliyetini verimli bir şekilde yönetir.
RTDETRv2, NMS'siz algılama için Transformer'lardan yararlanırken, yeni YOLO26 mimarisi bunu yüksek düzeyde optimize edilmiş bir CNN yapısı içinde yerel olarak başarır; aynı düzenli dağıtımı sağlar ancak çok daha üstün uç çıkarım hızları sunar.
Performans Karşılaştırması
Modelleri üretim için değerlendirirken, doğruluk ile hesaplama gereksinimleri arasındaki denge kritiktir. Aşağıdaki tablo, standart benchmark'larda çeşitli model boyutlarının performansını özetlemektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analiz
Verilerin gösterdiği gibi, YOLOv9 parametre verimliliğinde net bir avantaja sahiptir. YOLOv9c modeli, sadece 25,3M parametre ile etkileyici bir 53,0 mAP elde ederek onu inanılmaz derecede hafif kılar.
Buna karşılık, RTDETRv2 orta ve büyük ölçekli model kategorilerinde güçlü bir rekabet sunar. Ancak bu, Transformer modellerinin tipik özelliği olan daha yüksek parametre sayıları ve önemli ölçüde daha büyük FLOP'lar pahasına gelir. Bu mimari fark bellek kullanımına da yansır: YOLO modelleri genellikle hem eğitim hem de çıkarım sırasında Transformer muadillerine göre çok daha az CUDA belleği gerektirir.
Ultralytics Avantajı: Ekosistem ve Çok Yönlülük
Saf mimari metrikler önemli olsa da, yazılım ekosistemi genellikle bir yapay zeka projesinin başarısını belirler. Bu gelişmiş modellere Ultralytics Python API aracılığıyla erişmek benzersiz avantajlar sunar.
Düzenli Eğitim ve Dağıtım
Bir Algılama Transformer'ını eğitmek genellikle karmaşık yapılandırma dosyaları ve üst düzey GPU'lar gerektirir. Ultralytics framework'ü kullanarak, geliştiriciler hem YOLOv9 hem de RTDETR modellerini aynı, basit sözdizimiyle eğitebilir, son derece verimli eğitim boru hatlarından ve kolayca erişilebilen önceden eğitilmiş ağırlıklardan faydalanabilirler.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")Benzersiz Görev Çok Yönlülüğü
RTDETRv2 gibi özel modellerin en büyük kısıtlaması, yalnızca sınırlayıcı kutu (bounding box) algılamasına odaklanmalarıdır. Buna karşılık, YOLO11 ve YOLOv8 gibi modelleri kapsayan daha geniş Ultralytics ekosistemi, çok çeşitli bilgisayarlı görü görevlerini destekler. Bu, piksel hassasiyetinde örnek segmentasyonu, iskelet poz tahmini, tüm görüntü sınıflandırması ve hava görüntüleri için Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılamasını içerir.
Gerçek Dünya Uygulamaları
Yüksek Hızlı Uç Analitiği
Uç cihazlarda gerçek zamanlı ürün tanıma gerektiren perakende ortamları veya üretim hatları için YOLOv9 daha üstün bir tercihtir. GELAN mimarisi, NVIDIA Jetson serisi gibi kısıtlı donanımlarda yüksek verim sağlayarak önemli bir gecikme olmaksızın otomatik kalite kontrolünü mümkün kılar.
Karmaşık Sahne Analizi
Nesnelerin birbirini sıkça kapattığı yoğun kalabalık izleme veya karmaşık trafik kavşakları gibi senaryolarda, RTDETRv2'nin küresel dikkat mekanizmaları ön plana çıkar. Modelin tüm görüntü bağlamını yerel olarak anlama yeteneği, nesneler kısmen gizlendiğinde bile sağlam izleme ve algılama sürdürmesine olanak tanır.
Kullanım Durumları ve Öneriler
YOLOv9 ile RT-DETR arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
Ne Zaman YOLOv9 Seçilmeli
YOLOv9 şunlar için güçlü bir tercihtir:
- Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) mimarilerini inceleyen akademik projeler.
- Gradyan Akışı Optimizasyon Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlama ve azaltmaya odaklanan araştırmalar.
- Yüksek Doğruluklu Algılama Kıyaslaması: YOLOv9'un güçlü COCO kıyaslama performansının mimari karşılaştırmalar için referans noktası olarak gerektiği senaryolar.
Ne Zaman RT-DETR Seçilmeli?
RT-DETR şunlar için önerilir:
- Transformer Tabanlı Algılama Araştırmaları: NMS gerektirmeyen uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini araştıran projeler.
- Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük ölçekli nesnelerin bulunduğu sahneler.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Gelecek: YOLO26 ile Tanışın
YOLOv9 ve RTDETRv2 büyük başarıları temsil etse de, bilgisayarlı görü alanı hızla ilerliyor. Yeni projelere başlamak isteyen geliştiriciler için YOLO26 önerilen en güncel teknolojidir.
2026'da piyasaya sürülen YOLO26, hem CNN'lerin hem de DETR'lerin en iyi özelliklerini birleştirir. İlk olarak YOLOv10'da öncülük edilen bir teknik olan, son işleme gecikmesini tamamen ortadan kaldıran Uçtan Uca NMS'siz Tasarım'a sahiptir. Ayrıca YOLO26, daha iyi uç uyumluluğu için Distribution Focal Loss (DFL) özelliğini kaldırır ve devrim niteliğindeki MuSGD Optimize Edici'yi tanıtır. Büyük Dil Modeli eğitiminden (özellikle Moonshot AI'nın Kimi K2'sinden) esinlenen bu hibrit optimize edici, benzersiz bir eğitim kararlılığı ve daha hızlı yakınsama sağlar.
Olağanüstü küçük nesne tanıma için ProgLoss ve STAL gibi geliştirilmiş kayıp fonksiyonları ile birleştirilen YOLO26, %43'e kadar daha hızlı CPU çıkarımı sunarak modern yapay zeka dağıtımları için en iyi model konumunu sağlamlaştırır.