YOLOv9 ve RTDETRv2: Modern Nesne Algılamaya Teknik Bir Derin Dalış
Gerçek zamanlı nesne algılama alanı, son yıllarda bir paradigma değişimi yaşadı. Bu alana hakim olmak üzere iki farklı mimari felsefe ortaya çıkmıştır: yüksek düzeyde optimize edilmiş Evrişimsel Sinir Ağları (CNN'ler) ve gerçek zamanlı Algılama Transformatörleri (DETR'ler). Bu iki yaklaşımın zirvesini YOLOv9 ve RTDETRv2 temsil etmektedir.
Bu kapsamlı rehber, bilgisayar görüşü hattınız için doğru modeli seçmenize yardımcı olmak amacıyla bu iki güçlü modeli karşılaştırıyor; mimari yeniliklerini, performans metriklerini ve ideal dağıtım senaryolarını analiz ediyor.
Yönetici Özeti
Her iki model de son teknoloji sonuçlar elde etmektedir, ancak biraz farklı dağıtım kısıtlamalarına ve geliştirme ekosistemlerine hitap etmektedirler.
- YOLOv9'u seçin eğer: Uç cihazlarda yüksek verimli parametre kullanımı ve hızlı çıkarım ihtiyacınız varsa. YOLOv9, CNN verimliliğinin teorik sınırlarını zorlayarak, hesaplama kaynaklarının kısıtlı olduğu ortamlar için idealdir.
- RTDETRv2'yi seçin eğer: Transformatörlerin sağladığı incelikli bağlam anlayışına, özellikle ciddi tıkanıklık veya karmaşık nesne ilişkileri olan sahnelerde ihtiyacınız varsa ve biraz daha ağır bir mimariyi destekleyecek donanımınız varsa.
- YOLO26'yı seçin (Önerilen) eğer: Her iki dünyanın da mutlak en iyisini istiyorsanız. Ultralytics Platformu'nda bulunan en yeni nesil olarak YOLO26, yerel bir Uçtan Uca NMS-Free Tasarım (DETR modellerine benzer ancak çok daha hızlı) sunar, bu da işlem sonrası darboğazları ortadan kaldırır ve önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sağlar.
Teknik Özellikler ve Yazarlık
Bu modellerin kökenlerini ve tasarım amacını anlamak, mimari seçimleri için kritik bir bağlam sağlar.
YOLOv9
Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kuruluş:Enformasyon Bilimi Enstitüsü, Academia Sinica
Tarih: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9
YOLOv9 hakkında daha fazla bilgi edinin.
RTDETRv2
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş:BaiduTarih: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:lyuwenyu/RT-DETR
RTDETR hakkında daha fazla bilgi edinin
Mimari Yenilikler
YOLOv9: Bilgi Darboğazını Çözme
Ultralytics YOLOv9, derin sinir ağlarından veri geçerken bilgi kaybını ele almak üzere tasarlanmış iki önemli yenilik sunar:
- Programlanabilir Gradyan Bilgisi (PGI): Bu yardımcı denetim çerçevesi, ağ ağırlıklarını güncellemek için güvenilir gradyanlar üretilmesini sağlayarak, çok derin ağ katmanlarında bile kritik özellik bilgisini korur.
- Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN): CSPNet ve ELAN'ın güçlü yönlerini birleştiren yeni bir mimaridir. GELAN, parametre verimliliğini optimize ederek YOLOv9'un geleneksel CNN'lere kıyasla daha az FLOP ile daha yüksek doğruluk elde etmesini sağlar.
RTDETRv2: Gerçek Zamanlı Transformer'ları Geliştirme
Orijinal RT-DETR'nin başarısı üzerine inşa edilen RTDETRv2, Non-Maximum Suppression (NMS) ihtiyacını doğal olarak ortadan kaldıran Transformatör tabanlı bir mimari kullanır. İyileştirmeleri şunları içerir:
- Bag-of-Freebies Stratejisi: v2 iterasyonu, çıkarım gecikmesine herhangi bir ek yük getirmeden doğruluğu önemli ölçüde artıran gelişmiş eğitim teknikleri ve veri artırmaları içerir.
- Verimli Hibrit Kodlayıcı: Çok ölçekli özellikleri ayrıştırılmış ölçek içi ve ölçekler arası dikkat mekanizması aracılığıyla işleyerek, RTDETRv2, Görüntü Transformatörlerinin geleneksel olarak yüksek hesaplama maliyetini verimli bir şekilde yönetir.
Yerel Uçtan Uca Algılama
RTDETRv2, NMS'siz algılama için Transformatörlerden yararlanırken, yeni YOLO26 mimarisi bunu yüksek düzeyde optimize edilmiş bir CNN yapısı içinde yerel olarak başarır; aynı kolaylaştırılmış dağıtımı ancak çok daha üstün uç çıkarım hızları ile sunar.
Performans Karşılaştırması
Üretim için modelleri değerlendirirken, doğruluk ve hesaplama gereksinimleri arasındaki denge kritiktir. Aşağıdaki tablo, çeşitli model boyutlarının standart karşılaştırmalardaki performansını özetlemektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analiz
Verilerin gösterdiği gibi, YOLOv9, parametre verimliliğinde belirgin bir avantaja sahiptir. YOLOv9c modeli, yalnızca 25.3M parametre ile etkileyici bir 53.0 mAP elde ederek onu inanılmaz derecede hafif kılar.
Tersine, RTDETRv2, orta ila büyük model kategorilerinde güçlü bir rekabet sunar. Ancak bu durum, Transformatör modelleri için tipik olan daha yüksek parametre sayıları ve önemli ölçüde daha büyük FLOP'lar pahasına gelir. Bu mimari farkı aynı zamanda bellek kullanımına da yansır: YOLO modelleri, Transformatör muadillerine kıyasla hem eğitim hem de çıkarım sırasında genellikle çok daha az CUDA belleği gerektirir.
Ultralytics Avantajı: Ekosistem ve Çok Yönlülük
Salt mimari metrikler önemli olsa da, yazılım ekosistemi genellikle bir yapay zeka projesinin başarısını belirler. Bu gelişmiş modellere Ultralytics Python API'si aracılığıyla erişmek, eşsiz avantajlar sunar.
Kolaylaştırılmış Eğitim ve Dağıtım
Bir Detection Transformer'ı eğitmek genellikle karmaşık yapılandırma dosyaları ve üst düzey GPU'lar gerektirir. Ultralytics çerçevesini kullanarak geliştiriciler, hem YOLOv9 hem de RTDETR modellerini aynı, basit sözdizimiyle eğitebilir, böylece yüksek verimli eğitim hatlarından ve hazır önceden eğitilmiş ağırlıklardan faydalanabilirler.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")
Benzersiz Görev Çok Yönlülüğü
RTDETRv2 gibi özel modellerin önemli bir sınırlaması, sınırlayıcı kutu algılamaya dar odaklanmalarıdır. Buna karşılık, YOLO11 ve YOLOv8 gibi modelleri kapsayan daha geniş Ultralytics ekosistemi, çok çeşitli bilgisayar görüşü görevlerini destekler. Bu görevler arasında piksel hassasiyetinde örnek segmentasyon, iskelet poz tahmini, tüm görüntü sınıflandırması ve hava görüntüleri için Yönlü Sınırlayıcı Kutu (OBB) algılama bulunur.
Gerçek Dünya Uygulamaları
Yüksek Hızlı Uç Analiz
Perakende ortamları veya kenar cihazlarda gerçek zamanlı ürün tanıma gerektiren üretim hatları için YOLOv9 üstün bir seçimdir. Onun GELAN mimarisi, NVIDIA Jetson serisi gibi kısıtlı donanımlarda yüksek verim sağlayarak, önemli bir gecikme olmaksızın otomatik kalite kontrolü mümkün kılar.
Karmaşık Sahne Analizi
Yoğun kalabalık izleme veya nesnelerin sık sık birbirini engellediği karmaşık trafik kavşakları gibi senaryolarda, RTDETRv2'nin global dikkat mekanizmaları öne çıkar. Modelin tüm görüntü bağlamını doğal olarak yorumlama yeteneği, nesneler kısmen gizlenmiş olsa bile sağlam izleme ve algılamayı sürdürmesini sağlar.
Kullanım Durumları ve Öneriler
YOLOv9 ve RT-DETR arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.
YOLOv9 Ne Zaman Tercih Edilmeli?
YOLOv9, aşağıdaki durumlar için güçlü bir tercihtir:
- Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) mimarilerini inceleyen akademik projeler.
- Gradyan Akışı Optimizasyon Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlama ve azaltmaya odaklanan araştırmalar.
- Yüksek Doğruluklu Algılama Kıyaslaması: YOLOv9'un güçlü COCO kıyaslama performansının mimari karşılaştırmalar için bir referans noktası olarak gerektiği senaryolar.
RT-DETR Ne Zaman Seçilmeli
RT-DETR şunlar için önerilir:
- Transformer Tabanlı Tespit Araştırması: NMS olmadan uçtan uca nesne tespiti için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
- Esnek Gecikmeli Yüksek Doğruluk Senaryoları: Tespit doğruluğunun en yüksek öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Tespiti: Transformer'ların global dikkat mekanizmasının doğal bir avantaj sağladığı, öncelikli olarak orta ila büyük nesnelerin bulunduğu sahneler.
Ultralytics (YOLO26) Ne Zaman Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Gelecek: YOLO26 ile Tanışın
YOLOv9 ve RTDETRv2 büyük başarılara imza atsa da, bilgisayar görüşü alanı hızla ilerlemektedir. Yeni projelere başlamak isteyen geliştiriciler için YOLO26 önerilen en son teknoloji çözümüdür.
2026'da piyasaya sürülen YOLO26, hem CNN'lerin hem de DETR'lerin en iyi özelliklerini bir araya getirir. İlk olarak YOLOv10'da öncülük edilen bir teknik olan, işlem sonrası gecikmeyi tamamen ortadan kaldıran Uçtan Uca NMS-Free Tasarım özelliğine sahiptir. Ayrıca, YOLO26 daha iyi kenar uyumluluğu için Distribution Focal Loss (DFL) özelliğini kaldırır ve devrim niteliğindeki MuSGD Optimizer'ı sunar. Büyük Dil Modeli eğitiminden (özellikle Moonshot AI'nin Kimi K2'sinden) esinlenen bu hibrit optimize edici, eşi benzeri görülmemiş eğitim kararlılığı ve daha hızlı yakınsama sağlar.
Olağanüstü küçük nesne tanıma için ProgLoss ve STAL gibi geliştirilmiş kayıp fonksiyonlarıyla birleştiğinde, YOLO26 %43'e kadar daha hızlı CPU çıkarımı sunarak modern yapay zeka dağıtımları için nihai model konumunu sağlamlaştırır.