Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 ve RTDETRv2: Modern Nesne Algılamaya Teknik Bir Bakış#

Gerçek zamanlı nesne algılama dünyası, son yıllarda büyük bir değişim yaşadı. Alanı domine etmek için iki farklı mimari felsefe ortaya çıktı: yüksek oranda optimize edilmiş Evrişimli Sinir Ağları (CNN'ler) ve gerçek zamanlı Algılama Transformer'ları (DETR'ler). Bu iki yaklaşımın zirvesini YOLOv9 ve RTDETRv2 temsil ediyor.

This comprehensive guide compares these two powerful models, analyzing their architectural innovations, performance metrics, and ideal deployment scenarios to help you choose the right model for your computer vision pipeline.

Link to this sectionYönetici Özeti#

Her iki model de en üst düzey sonuçlar elde ediyor ancak biraz farklı dağıtım kısıtlamalarına ve geliştirme ekosistemlerine hitap ediyorlar.

  • YOLOv9'u şu durumlarda seç: Yüksek verimli parametre kullanımına ve uç cihazlarda hızlı çıkarıma ihtiyacın varsa. YOLOv9, CNN verimliliğinin teorik sınırlarını zorlar ve bu da onu hesaplama kaynaklarının kesin olarak sınırlı olduğu ortamlar için ideal hale getirir.
  • RTDETRv2'yi şu durumlarda seç: Transformer'ların sağladığı incelikli bağlam anlayışına, özellikle şiddetli tıkanıklık veya karmaşık nesne ilişkilerinin olduğu sahnelerde ihtiyacın varsa ve biraz daha ağır bir mimariyi destekleyecek donanıma sahipsen.
  • YOLO26'yı (Önerilen) şu durumlarda seç: Her iki dünyanın da en iyisini istiyorsan. Ultralytics Platform üzerinde mevcut olan en yeni nesil olarak YOLO26, yerel bir Uçtan Uca NMS-Free Tasarım (DETR modellerine benzer ancak çok daha hızlı) özelliğine sahiptir, bu da işlem sonrası darboğazlarını ortadan kaldırır ve önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sunar.

Link to this sectionTeknik Özellikler ve Yazarlık#

Bu modellerin kökenlerini ve tasarım amaçlarını anlamak, mimari seçimleri için hayati bir bağlam sağlar.

Link to this sectionYOLOv9#

Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kurum: Institute of Information Science, Academia Sinica
Tarih: 21.02.2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

YOLOv9 hakkında daha fazla bilgi edin

Link to this sectionRTDETRv2#

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kurum: Baidu
Tarih: 24.07.2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

RTDETR hakkında daha fazla bilgi edinin

Link to this sectionMimari Yenilikler#

Link to this sectionYOLOv9: Bilgi Darboğazını Çözmek#

Ultralytics YOLOv9, veriler derin sinir ağlarından geçerken oluşan bilgi kaybını gidermek için tasarlanmış iki ana yenilik sunar:

  1. Programlanabilir Gradyan Bilgisi (PGI): Bu yardımcı denetim çerçevesi, ağ ağırlıklarını güncellemek için güvenilir gradyanların üretilmesini sağlar ve çok derin ağ katmanlarında bile kritik özellik bilgilerini korur.
  2. Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN): CSPNet ve ELAN'ın güçlü yanlarını birleştiren yeni bir mimari. GELAN, parametre verimliliğini optimize ederek YOLOv9'un geleneksel CNN'lere kıyasla daha az FLOP ile daha yüksek doğruluk elde etmesini sağlar.

Link to this sectionRTDETRv2: Gerçek Zamanlı Transformer'ları Geliştirmek#

Orijinal RT-DETR'in başarısının üzerine inşa edilen RTDETRv2, doğası gereği Non-Maximum Suppression (NMS) ihtiyacını ortadan kaldıran, Transformer tabanlı bir mimari kullanır. İyileştirmeleri şunları içerir:

  1. Bag-of-Freebies Stratejisi: v2 yinelemesi, çıkarım gecikmesine herhangi bir yük eklemeden doğruluğu önemli ölçüde artıran gelişmiş eğitim tekniklerini ve veri artırma yöntemlerini içerir.
  2. Verimli Hibrit Kodlayıcı: Çok ölçekli özellikleri, ölçek içi ve ölçekler arası ayrıştırılmış bir dikkat mekanizması aracılığıyla işleyerek, RTDETRv2, Vision Transformer'ların geleneksel olarak yüksek olan hesaplama maliyetini verimli bir şekilde yönetir.
Yerel Uçtan Uca Algılama

RTDETRv2, NMS içermeyen algılama için Transformer'lardan yararlanırken, yeni YOLO26 mimarisi bunu oldukça optimize edilmiş bir CNN yapısı içinde yerel olarak başarır, aynı kolaylaştırılmış dağıtımı sağlar ancak çok daha üstün uç cihaz çıkarım hızları sunar.

Link to this sectionPerformans Karşılaştırması#

Üretim için modelleri değerlendirirken, doğruluk ile hesaplama gereksinimleri arasındaki denge kritiktir. Aşağıdaki tablo, çeşitli model boyutlarının standart karşılaştırmalardaki performansını özetlemektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionAnaliz#

Verilerin gösterdiği gibi, YOLOv9 parametre verimliliğinde katı bir avantaja sahiptir. YOLOv9c modeli, sadece 25.3M parametre ile etkileyici bir 53.0 mAP elde ederek onu inanılmaz derecede hafif kılar.

Buna karşılık, RTDETRv2 orta ve büyük model kategorilerinde güçlü bir rekabet sağlar. Ancak bu, Transformer modelleri için tipik olan daha yüksek parametre sayısı ve önemli ölçüde daha büyük FLOP maliyetiyle gelir. Bu mimari fark, bellek kullanımına da yansır: YOLO modelleri genellikle hem eğitim hem de çıkarım sırasında Transformer emsallerine göre çok daha az CUDA belleğine ihtiyaç duyar.

Link to this sectionUltralytics Avantajı: Ekosistem ve Çok Yönlülük#

Saf mimari metrikler önemli olsa da, yazılım ekosistemi genellikle bir yapay zeka projesinin başarısını belirler. Bu gelişmiş modellere Ultralytics Python API aracılığıyla erişmek benzersiz avantajlar sunar.

Link to this sectionKolaylaştırılmış Eğitim ve Dağıtım#

Bir Algılama Transformer'ını eğitmek genellikle karmaşık yapılandırma dosyaları ve üst düzey GPU'lar gerektirir. Ultralytics framework kullanarak, geliştiriciler hem YOLOv9 hem de RTDETR modellerini aynı, basit sözdizimi ile eğitebilir, yüksek verimli eğitim hatlarından ve kolayca erişilebilen önceden eğitilmiş ağırlıklardan yararlanabilirler.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this sectionBenzersiz Görev Çok Yönlülüğü#

RTDETRv2 gibi özel modellerin en büyük sınırlaması, sınırlayıcı kutu algılamasına olan dar odaklarıdır. Buna karşılık, YOLO11 ve YOLOv8 gibi modelleri kapsayan daha geniş Ultralytics ekosistemi, çok çeşitli bilgisayarlı görü görevlerini destekler. Buna piksel hassasiyetinde örnek segmentasyonu, iskelet poz tahmini, tüm görüntü sınıflandırması ve hava görüntüleri için Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılaması dahildir.

Link to this sectionGerçek Dünya Uygulamaları#

Link to this sectionYüksek Hızlı Uç Analitiği#

Uç cihazlarda gerçek zamanlı ürün tanıma gerektiren perakende ortamları veya üretim hatları için YOLOv9 üstün seçimdir. GELAN mimarisi, NVIDIA Jetson serisi gibi kısıtlı donanımlarda yüksek verim sağlayarak önemli bir gecikme olmaksızın otomatik kalite kontrolü sağlar.

Link to this sectionKarmaşık Sahne Analizi#

Nesnelerin birbirini sık sık kapattığı yoğun kalabalık izleme veya karmaşık trafik kavşakları gibi senaryolarda, RTDETRv2'nin küresel dikkat mekanizmaları parlar. Modelin tüm görüntü bağlamı hakkında yerel olarak mantık yürütme yeteneği, nesneler kısmen gizlendiğinde bile sağlam takip ve algılamayı sürdürmesine olanak tanır.

Link to this sectionKullanım Durumları ve Öneriler#

YOLOv9 ve RT-DETR arasında seçim yapmak; projenin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

Link to this sectionNe Zaman YOLOv9 Seçilmeli#

YOLOv9 şunlar için güçlü bir seçimdir:

  • Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) mimarilerini inceleyen akademik projeler.
  • Gradyan Akışı Optimizasyonu Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlamaya ve azaltmaya odaklanan araştırmalar.
  • Yüksek Doğrulukta Algılama Kıyaslaması: YOLOv9'un güçlü COCO karşılaştırma performansının mimari karşılaştırmalar için referans noktası olarak gerektiği senaryolar.

Link to this sectionRT-DETR Ne Zaman Seçilmeli#

RT-DETR şunlar için önerilir:

  • Transformer Tabanlı Algılama Araştırması: NMS olmadan uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
  • Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
  • Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük nesnelerin olduğu sahneler.

Link to this sectionUltralytics (YOLO26) Ne Zaman Seçilmeli#

Çoğu yeni proje için, Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı, özel GPU hızlandırması olmayan cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Link to this sectionGelecek: YOLO26 ile Tanış#

YOLOv9 ve RTDETRv2 muazzam başarıları temsil etse de, bilgisayarlı görü alanı hızla ilerlemektedir. Yeni projelere başlamak isteyen geliştiriciler için, YOLO26 önerilen en güncel çözümdür.

2026'da yayınlanan YOLO26, hem CNN'lerin hem de DETR'lerin en iyi özelliklerini bünyesinde barındırır. İlk olarak YOLOv10'da öncülük edilen bir teknik olan, işlem sonrası gecikmeyi tamamen ortadan kaldıran bir Uçtan Uca NMS-Free Tasarım özelliğine sahiptir. Ayrıca YOLO26, daha iyi uç uyumluluğu için Distribution Focal Loss (DFL) özelliğini kaldırır ve devrim niteliğindeki MuSGD Optimizer'ı tanıtır. Büyük Dil Modeli eğitiminden (özellikle Moonshot AI'ın Kimi K2'sinden) esinlenen bu hibrit optimize edici, benzersiz eğitim kararlılığı ve daha hızlı yakınsama sağlar.

Olağanüstü küçük nesne algılama için ProgLoss ve STAL gibi geliştirilmiş kayıp fonksiyonlarıyla birleştirilen YOLO26, %43'e kadar daha hızlı CPU çıkarımı sunarak modern yapay zeka dağıtımları için nihai model olarak konumunu sağlamlaştırır.

Yorumlar