YOLOv9 RTDETRv2: Gerçek Zamanlı Algılama Mimarilerine Derinlemesine Bakış

Hızla gelişen bilgisayar görme alanında, doğru nesne algılama modelini seçmek hız, doğruluk ve dağıtım kısıtlamaları arasında denge sağlamak için çok önemlidir. Bu kılavuz, YOLOv9 ve YOLOv8 arasında kapsamlı bir teknik karşılaştırma sunar. YOLOv9, programlanabilir gradyan bilgisi ve verimliliği ile tanınan YOLOv9 ile önde gelen gerçek zamanlı transformatör tabanlı algılayıcı RTDETRv2 arasında kapsamlı bir teknik karşılaştırma sunar. Mimari yapılarını, performans ölçütlerini ve kullanım örneklerini analiz ederek, geliştiriciler kendi özel uygulamaları için bilinçli kararlar alabilirler.

Performans Kıyaslaması

Aşağıdaki tablo, temel ölçütlerin doğrudan karşılaştırmasını göstermektedir. Kalın yazılmış değerler, her kategoride en iyi performansı göstermektedir.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9 , You Only Look Once serisinde önemli bir sıçrama niteliğinde olup, derin ağlardaki bilgi darboğazlarını çözmeye odaklanmaktadır. Ağın derin katmanları boyunca önemli veri özelliklerini korumak için GELAN (Genelleştirilmiş Verimli Katman Toplama Ağı) ve PGI (Programlanabilir Gradyan Bilgisi) teknolojilerini kullanmaktadır.

YOLOv9 hakkında daha fazla bilgi edinin.

Temel Mimari Yenilikler

GELAN Mimarisi: Bu yeni mimari, CSPNet ve ELAN'ın avantajlarını birleştirerek gradyan yol planlamasını optimize eder. Farklı ölçeklerdeki özellikleri etkili bir şekilde bir araya getirirken yüksek çıkarım hızını koruyan hafif bir yapı sağlar.
Programlanabilir Gradyan Bilgisi (PGI): Derin ağlar, veriler katmanlardan geçerken genellikle bilgi kaybına maruz kalır. PGI, gradyan güncellemelerini yönlendirmek için yardımcı bir denetim dalı ekler ve ana dalın, çıkarım sırasında ekstra maliyet olmadan sağlam özellikleri öğrenmesini sağlar.
Verimlilik: "t" (küçük) ve "s" (küçük) varyantları, son derece düşük parametre sayıları (2,0M'den başlayan) ile özellikle dikkat çekicidir ve bu da onları bellek kısıtlı olan uç AI dağıtımları için son derece uygun hale getirir.

Teknik Özellikler

Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica
Tarih: 21 Şubat 2024
Referans:arXiv:2402.13616
Depo:GitHub

Neden YOLOv9'u Seçmelisiniz?

YOLOv9 , hesaplama kaynaklarının sınırlı olduğu ancak yüksek doğruluk gerektiren senaryolarda YOLOv9 . Yenilikçi PGI kaybı, daha küçük modellerin bile etkili bir şekilde öğrenmesini sağlar ve birçok öncüle kıyasla üstün bir parametre-doğruluk oranı sunar.

RTDETRv2: Gerçek Zamanlı Dönüştürücüler

RTDETRv2, orijinal RT-DETR başarısını temel alarak, gerçek zamanlı algılama dönüştürücüleri için "Bag-of-Freebies"i daha da geliştirmiştir. Dönüştürücülerin küresel bağlam yeteneklerinden yararlanarak YOLO geride bırakmayı ve aynı zamanda yüksek hesaplama maliyetlerini azaltmayı amaçlamaktadır.

RT-DETR hakkında daha fazla bilgi edinin

Temel Mimari Yenilikler

Hibrit Kodlayıcı: RTDETRv2, ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayırarak çok ölçekli özellikleri verimli bir şekilde işler ve transformatör kodlayıcıların genellikle yüksek maliyetini azaltır.
IoU sorgu seçimi: Bu mekanizma, yüksek kaliteli kodlayıcı özelliklerini nesne sorguları olarak seçerek başlatmayı iyileştirir ve bu da kod çözücünün daha hızlı yakınsama sağlamasına yardımcı olur.
Dinamik Örnekleme: Geliştirilmiş temel, eğitim sırasında esnek örnekleme stratejilerini içerir, bu da çıkarım gecikmesini artırmadan yakınsama hızını ve nihai doğruluğu artırır.
Anchor-Free Tasarım: Önceki versiyonu gibi, anchor-free olup, anchor box ayarlaması ihtiyacını ortadan kaldırarak veri anotasyonu ve eğitim sürecini basitleştirir.

Teknik Özellikler

Yazarlar: Wenyu Lv, Yian Zhao ve diğerleri.
Kuruluş: Baidu
Tarih: 17 Nisan 2023 (v1), Temmuz 2024 (v2)
Referans:arXiv:2304.08069
Depo:GitHub

Eleştirel Karşılaştırma: Hız, Doğruluk ve Verimlilik

Bu iki mimari arasında karar verirken, birkaç ödünleşme ortaya çıkmaktadır.

Çıkarım Hızı ve Gecikme Süresi

YOLOv9 , özellikle GPU ham çıkarım hızında YOLOv9 liderliğini korumaktadır. Sadece 2,0 milyon parametreye sahip YOLOv9t modeli, son derece düşük gecikme süresi ( TensorRT 2,3 ms) sağlar ve bu da onu yaklaşık 5,03 ms'lik en küçük RTDETRv2-s varyantından daha hızlı hale getirir. Otonom araçlar veya yüksek hızlı üretim gibi her milisaniyenin önemli olduğu gerçek zamanlı video işleme için YOLOv9 , belirgin bir verim avantajı YOLOv9 .

Doğruluk ve Küçük Nesne Algılama

YOLOv9 %55,6 gibi muazzam bir mAP ulaşırken, RTDETRv2 orta ve büyük ölçekli model aralığında oldukça rekabetçi bir performans sergiliyor. RTDETRv2-x, %54,3 mAP ulaşarak YOLOv9 biraz daha düşük bir performans gösteriyor, ancak transformatörlerin global alıcı alanı sayesinde karmaşık sahnelerde genellikle daha iyi bir stabilite sergiliyor. Transformatörler, nesneler arasındaki bağlamı anlamada doğal olarak mükemmeldir ve bu da perakende analitiği gibi kalabalık ortamlarda yanlış pozitifleri azaltabilir. Bununla birlikte, YOLOv9 GELAN mimarisi, ince ayrıntıları korumak için özel olarak ayarlanmıştır ve genellikle daha küçük, görülmesi zor nesneleri algılamada avantaj sağlar.

Kaynak ve Bellek Gereksinimleri

Bu önemli bir farktır. RTDETRv2'nin transformatör tabanlı mimarisi, CNN tabanlı YOLOv9 kıyasla eğitim ve çıkarım sırasında genellikle daha fazla CUDA gerektirir.

YOLOv9: Son derece verimli bellek ayak izi. Küçük ve minik modeller, Raspberry Pi veya cep telefonları gibi uç cihazlarda kolayca çalıştırılabilir.
RTDETRv2: Gerçek zamanlı hız için optimize edilmiş olsa da, dikkat mekanizmaları hala daha yüksek bellek maliyeti gerektirir ve bu nedenle genellikle sunucu tarafında dağıtım veya NVIDIA Orin gibi güçlü kenar GPU'lar için daha uygundur.

Ultralytics ile entegrasyon

Her iki model de, karmaşık kurulum prosedürlerini ortadan kaldıran Ultralytics Python kullanılarak iş akışlarına sorunsuz bir şekilde entegre edilebilir.

Kullanım Kolaylığı ve Ekosistem

Ultralytics , eğitim, doğrulama ve dağıtım için birleşik bir arayüz sunar. YOLOv9 CNN verimliliğini YOLOv9 RTDETRv2'nin ( RT-DETR aracılığıyla) dönüştürücü gücünü seçin, API tutarlı kalır. Bu, geliştiricilerin tek bir kod satırı ile modelleri değiştirerek veri setlerine en uygun mimariyi test etmelerini sağlar.

from ultralytics import RTDETR, YOLO

# Load YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=100)

# Load RT-DETR model (RTDETRv2 architecture compatible)
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr.train(data="coco8.yaml", epochs=100)

Eğitim Verimliliği

Ultralytics , eğitim verimlilikleriyle ünlüdür. Çerçeve, hiperparametreler, otomatik veri artırma ve verimli bellek yönetimi için akıllı varsayılanlar uygular. Bu, YOLOv9 ile çalışırken özellikle faydalıdır, çünkü kullanıcılar önceden eğitilmiş ağırlıklardan yararlanarak, sıfırdan dönüştürücüleri eğitmeye kıyasla eğitim süresini ve hesaplama maliyetini önemli ölçüde azaltabilirler.

Geleceğe Hazırlık: YOLO26 Örneği

YOLOv9 RTDETRv2 mükemmel seçenekler olsa da, yapay zeka inovasyonu alanında gelişmeler hiç durmuyor. En üst düzey performans ve kolay kurulum arayan geliştiriciler için YOLO26, önerilen yeni nesil model.

YOLO26 hakkında daha fazla bilgi edinin

YOLO26, önceki nesillerin sınırlamalarını ortadan kaldıran birkaç çığır açan özellik sunar:

Uçtan uca NMS: Non-Maximum Suppression (NMS) son işlem YOLOv9 farklı olarak ve RTDETRv2'nin uçtan uca yapısına benzer şekilde, YOLO26 doğal olarak NMS. Bu, dışa aktarımı basitleştirir. ONNX ve TensorRT dağıtım gecikmesini azaltır.
MuSGD Optimizer: LLM eğitiminden esinlenen bu optimizer, daha hızlı yakınsama ve kararlılık için SGD Muon'u birleştirerek, karmaşık mimarilerde sıklıkla görülen bazı eğitim istikrarsızlıklarını çözmektedir.
Üstün Hız: CPU uç çıkarım için özel olarak optimize edilmiş YOLO26, önceki sürümlerden %43'e kadar daha hızlı CPU sunarak sunucu düzeyinde doğruluk ile uç cihaz kısıtlamaları arasındaki boşluğu doldurur.
Görev Çok Yönlülüğü: RTDETRv2 öncelikle algılama üzerine odaklanırken, YOLO26 segmentasyon, poz tahmini ve OBB alanlarında en son teknolojiye sahip performans sunarak çeşitli görme görevleri için evrensel bir araç haline gelmektedir.

Sonuç

Hem YOLOv9 RTDETRv2 cazip avantajlar sunar. YOLOv9 verimlilikte şampiyon olup, uç dağıtım ve sınırlı kaynaklı ortamlar için rakipsiz hız-doğruluk oranları sunar. RTDETRv2, özellikle güçlü donanımlarda, küresel bağlam ve dönüştürücü mimarilerinden yararlanan senaryolar için güçlü bir alternatif sunar.

Ancak, en akıcı deneyim, en düşük gecikme süresi ve en geniş görev desteği için Ultralytics , özellikle de yeni YOLO26 modeli, modern bilgisayar görme uygulamaları için en sağlam ve "geleceğe dönük" çözümü sunar.

Daha Fazla Okuma

Bu modellerin rakiplerine kıyasla nasıl bir konumda olduğunu görmek için diğer karşılaştırmaları inceleyin:

YOLOv9 RTDETRv2: Gerçek Zamanlı Algılama Mimarilerine Derinlemesine Bakış

Performans Kıyaslaması

YOLOv9: Programlanabilir Gradyan Bilgisi

Temel Mimari Yenilikler

Teknik Özellikler

RTDETRv2: Gerçek Zamanlı Dönüştürücüler

Temel Mimari Yenilikler

Teknik Özellikler

Eleştirel Karşılaştırma: Hız, Doğruluk ve Verimlilik

Çıkarım Hızı ve Gecikme Süresi

Doğruluk ve Küçük Nesne Algılama

Kaynak ve Bellek Gereksinimleri

Ultralytics ile entegrasyon

Kullanım Kolaylığı ve Ekosistem

Eğitim Verimliliği

Geleceğe Hazırlık: YOLO26 Örneği

Sonuç

Yorumlar