YOLOv9 ve RTDETRv2: Modern Nesne Algılamaya Teknik Bir Bakış

Gerçek zamanlı nesne algılama dünyası son yıllarda büyük bir paradigma değişimi yaşadı. Bu alana hükmetmek için iki farklı mimari felsefe ortaya çıktı: yüksek düzeyde optimize edilmiş Evrişimli Sinir Ağları (CNN'ler) ve gerçek zamanlı Algılama Transformer'ları (DETR'ler). Bu iki yaklaşımın zirvesini ise YOLOv9 ve RTDETRv2 temsil ediyor.

This comprehensive guide compares these two powerful models, analyzing their architectural innovations, performance metrics, and ideal deployment scenarios to help you choose the right model for your computer vision pipeline.

Yönetici Özeti

Her iki model de en üst düzey sonuçlara ulaşıyor, ancak biraz farklı dağıtım kısıtlamalarına ve geliştirme ekosistemlerine hitap ediyorlar.

  • Şu durumda YOLOv9'u seç: Uç cihazlarda yüksek verimli parametre kullanımına ve hızlı çıkarıma ihtiyacın varsa. YOLOv9, CNN verimliliğinin teorik sınırlarını zorlar; bu da onu hesaplama kaynaklarının ciddi şekilde kısıtlı olduğu ortamlar için ideal kılar.
  • Şu durumda RTDETRv2'yi seç: Özellikle şiddetli tıkanma veya karmaşık nesne ilişkileri olan sahnelerde Transformer'ların sağladığı incelikli bağlam anlayışına ihtiyacın varsa ve daha ağır bir mimariyi destekleyecek donanıma sahipsen.
  • Şu durumda YOLO26'yı (Önerilen) seç: Her iki dünyanın da en iyi özelliklerini istiyorsan. Ultralytics Platformu üzerinde sunulan en yeni nesil olan YOLO26, yerel bir Uçtan Uca NMS'siz Tasarım (DETR modellerine benzer ancak çok daha hızlı) özelliğine sahiptir, son işleme darboğazlarını ortadan kaldırır ve önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sunar.

Teknik Özellikler ve Yazarlık

Bu modellerin kökenlerini ve tasarım amaçlarını anlamak, mimari tercihlerine dair hayati bir bağlam sağlar.

YOLOv9

Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kurum: Institute of Information Science, Academia Sinica
Tarih: 21-02-2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

YOLOv9 hakkında daha fazla bilgi edin

RTDETRv2

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kurum: Baidu Tarih: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

RTDETR hakkında daha fazla bilgi edin

Mimari Yenilikler

YOLOv9: Bilgi Darboğazını Çözmek

Ultralytics YOLOv9, veri derin sinir ağlarından geçerken yaşanan bilgi kaybını ele almak için tasarlanmış iki büyük yeniliği beraberinde getiriyor:

  1. Programlanabilir Gradyan Bilgisi (PGI): Bu yardımcı denetim çerçevesi, ağ ağırlıklarını güncellemek için güvenilir gradyanların oluşturulmasını sağlar ve çok derin ağ katmanlarında bile kritik özellik bilgilerini korur.
  2. Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN): CSPNet ve ELAN'ın güçlü yönlerini birleştiren yeni bir mimari. GELAN, parametre verimliliğini optimize ederek YOLOv9'un geleneksel CNN'lere kıyasla daha az FLOP ile daha yüksek doğruluk elde etmesini sağlar.

RTDETRv2: Gerçek Zamanlı Transformer'ları Geliştirmek

Orijinal RT-DETR'in başarısının üzerine inşa edilen RTDETRv2, NMS (Non-Maximum Suppression) gereksinimini doğası gereği ortadan kaldıran, Transformer tabanlı bir mimari kullanır. Geliştirmeleri şunları içerir:

  1. Ücretsiz Eklentiler (Bag-of-Freebies) Stratejisi: v2 sürümü, çıkarım gecikmesine herhangi bir yük getirmeden doğruluğu önemli ölçüde artıran gelişmiş eğitim teknikleri ve veri artırma yöntemlerini içerir.
  2. Verimli Hibrit Kodlayıcı: Çok ölçekli özellikleri, ölçek içi ve ölçekler arası ayrıştırılmış bir dikkat mekanizması aracılığıyla işleyen RTDETRv2, Vision Transformer'ların geleneksel olarak yüksek olan hesaplama maliyetini verimli bir şekilde yönetir.
Yerel Uçtan Uca Algılama

RTDETRv2, NMS'siz algılama için Transformer'lardan yararlanırken, yeni YOLO26 mimarisi bunu yüksek düzeyde optimize edilmiş bir CNN yapısı içinde yerel olarak başarır; aynı düzenli dağıtımı sağlar ancak çok daha üstün uç çıkarım hızları sunar.

Performans Karşılaştırması

Modelleri üretim için değerlendirirken, doğruluk ile hesaplama gereksinimleri arasındaki denge kritiktir. Aşağıdaki tablo, standart benchmark'larda çeşitli model boyutlarının performansını özetlemektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analiz

Verilerin gösterdiği gibi, YOLOv9 parametre verimliliğinde net bir avantaja sahiptir. YOLOv9c modeli, sadece 25,3M parametre ile etkileyici bir 53,0 mAP elde ederek onu inanılmaz derecede hafif kılar.

Buna karşılık, RTDETRv2 orta ve büyük ölçekli model kategorilerinde güçlü bir rekabet sunar. Ancak bu, Transformer modellerinin tipik özelliği olan daha yüksek parametre sayıları ve önemli ölçüde daha büyük FLOP'lar pahasına gelir. Bu mimari fark bellek kullanımına da yansır: YOLO modelleri genellikle hem eğitim hem de çıkarım sırasında Transformer muadillerine göre çok daha az CUDA belleği gerektirir.

Ultralytics Avantajı: Ekosistem ve Çok Yönlülük

Saf mimari metrikler önemli olsa da, yazılım ekosistemi genellikle bir yapay zeka projesinin başarısını belirler. Bu gelişmiş modellere Ultralytics Python API aracılığıyla erişmek benzersiz avantajlar sunar.

Düzenli Eğitim ve Dağıtım

Bir Algılama Transformer'ını eğitmek genellikle karmaşık yapılandırma dosyaları ve üst düzey GPU'lar gerektirir. Ultralytics framework'ü kullanarak, geliştiriciler hem YOLOv9 hem de RTDETR modellerini aynı, basit sözdizimiyle eğitebilir, son derece verimli eğitim boru hatlarından ve kolayca erişilebilen önceden eğitilmiş ağırlıklardan faydalanabilirler.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Benzersiz Görev Çok Yönlülüğü

RTDETRv2 gibi özel modellerin en büyük kısıtlaması, yalnızca sınırlayıcı kutu (bounding box) algılamasına odaklanmalarıdır. Buna karşılık, YOLO11 ve YOLOv8 gibi modelleri kapsayan daha geniş Ultralytics ekosistemi, çok çeşitli bilgisayarlı görü görevlerini destekler. Bu, piksel hassasiyetinde örnek segmentasyonu, iskelet poz tahmini, tüm görüntü sınıflandırması ve hava görüntüleri için Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılamasını içerir.

Gerçek Dünya Uygulamaları

Yüksek Hızlı Uç Analitiği

Uç cihazlarda gerçek zamanlı ürün tanıma gerektiren perakende ortamları veya üretim hatları için YOLOv9 daha üstün bir tercihtir. GELAN mimarisi, NVIDIA Jetson serisi gibi kısıtlı donanımlarda yüksek verim sağlayarak önemli bir gecikme olmaksızın otomatik kalite kontrolünü mümkün kılar.

Karmaşık Sahne Analizi

Nesnelerin birbirini sıkça kapattığı yoğun kalabalık izleme veya karmaşık trafik kavşakları gibi senaryolarda, RTDETRv2'nin küresel dikkat mekanizmaları ön plana çıkar. Modelin tüm görüntü bağlamını yerel olarak anlama yeteneği, nesneler kısmen gizlendiğinde bile sağlam izleme ve algılama sürdürmesine olanak tanır.

Kullanım Durumları ve Öneriler

YOLOv9 ile RT-DETR arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

Ne Zaman YOLOv9 Seçilmeli

YOLOv9 şunlar için güçlü bir tercihtir:

  • Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) mimarilerini inceleyen akademik projeler.
  • Gradyan Akışı Optimizasyon Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlama ve azaltmaya odaklanan araştırmalar.
  • Yüksek Doğruluklu Algılama Kıyaslaması: YOLOv9'un güçlü COCO kıyaslama performansının mimari karşılaştırmalar için referans noktası olarak gerektiği senaryolar.

Ne Zaman RT-DETR Seçilmeli?

RT-DETR şunlar için önerilir:

  • Transformer Tabanlı Algılama Araştırmaları: NMS gerektirmeyen uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini araştıran projeler.
  • Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
  • Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük ölçekli nesnelerin bulunduğu sahneler.

Ne Zaman Ultralytics (YOLO26) Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Gelecek: YOLO26 ile Tanışın

YOLOv9 ve RTDETRv2 büyük başarıları temsil etse de, bilgisayarlı görü alanı hızla ilerliyor. Yeni projelere başlamak isteyen geliştiriciler için YOLO26 önerilen en güncel teknolojidir.

2026'da piyasaya sürülen YOLO26, hem CNN'lerin hem de DETR'lerin en iyi özelliklerini birleştirir. İlk olarak YOLOv10'da öncülük edilen bir teknik olan, son işleme gecikmesini tamamen ortadan kaldıran Uçtan Uca NMS'siz Tasarım'a sahiptir. Ayrıca YOLO26, daha iyi uç uyumluluğu için Distribution Focal Loss (DFL) özelliğini kaldırır ve devrim niteliğindeki MuSGD Optimize Edici'yi tanıtır. Büyük Dil Modeli eğitiminden (özellikle Moonshot AI'nın Kimi K2'sinden) esinlenen bu hibrit optimize edici, benzersiz bir eğitim kararlılığı ve daha hızlı yakınsama sağlar.

Olağanüstü küçük nesne tanıma için ProgLoss ve STAL gibi geliştirilmiş kayıp fonksiyonları ile birleştirilen YOLO26, %43'e kadar daha hızlı CPU çıkarımı sunarak modern yapay zeka dağıtımları için en iyi model konumunu sağlamlaştırır.

Yorumlar