RTDETRv2 ile YOLOv9: Gerçek Zamanlı Algılama Dönüştürücüleri ve CNN'lerin Karşılaştırılması

Nesne algılama alanı hızlı bir evrim geçirmiş ve gerçek zamanlı uygulamalar için iki farklı mimari ön plana çıkmıştır: dönüştürücü tabanlı modeller ve CNN tabanlı modeller. RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), görme dönüştürücülerinin en son teknolojisini temsil eder ve sonradan işleme gerektirmeden uçtan uca algılama sunar. YOLOv9ise, bilgi kaybını azaltmak için programlanabilir gradyan bilgisi (PGI) ile geleneksel CNN mimarisini geliştirmiştir.

Bu karşılaştırma, her iki modelin teknik özelliklerini, performans ölçütlerini ve ideal kullanım örneklerini inceleyerek, geliştiricilerin kendi bilgisayar görme ihtiyaçlarına uygun doğru aracı seçmelerine yardımcı olur.

Yönetici Özeti

RTDETRv2, karmaşık ortamlarda, özellikle tıkanıklığın yaygın olduğu durumlarda yüksek doğruluk gerektiren senaryolarda mükemmeldir. Dikkat mekanizmaları, genel bağlamın anlaşılmasını sağlar, ancak bunun bedeli olarak daha yüksek hesaplama gereksinimleri ve daha yavaş eğitim hızları söz konusudur. Araştırma ve üst düzey GPU için mükemmel bir seçimdir.

YOLOv9Ultralytics , YOLO verimlilik özelliğini koruyarak hız ve doğruluk arasında mükemmel bir denge sunar. Genel amaçlı algılama görevleri için oldukça etkilidir, ancak son zamanlarda YOLO26gibi daha yeni Ultralytics modelleri tarafından yerini almıştır. Bu modeller, her iki dünyanın en iyi özelliklerini bir araya getirir: uçtan uca NMS algılama ile optimize edilmiş CNN'lerin hızı.

Çoğu geliştirici için, Ultralytics , kesintisiz entegrasyon, kapsamlı dokümantasyon ve en son teknolojiye sahip modeller için destek sunarak üretime giden en sağlam yolu sağlar.

Detaylı Performans Karşılaştırması

Aşağıdaki tablo, temel ölçütlerin yan yana karşılaştırmasını göstermektedir. RTDETRv2 yüksek doğruluk elde ederken, YOLOv9 daha yeni YOLO26 gibi CNN tabanlı modeller genellikle standart donanımda daha hızlı çıkarım hızları sağlar.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2: Vizyon Dönüştürücü Yarışmacısı

RTDETRv2, orijinal RT-DETRnin başarısını temel alarak, hız ve doğruluğu artırmak için hibrit kodlayıcıyı ve belirsizliği en aza indiren sorgu seçimini optimize eder.

Temel Özellikler:

Yazar: Wenyu Lv, Yian Zhao, ve diğerleri.
Kuruluş:Baidu
Tarih: Nisan 2023 (Orijinal), Temmuz 2024 (v2)
Bağlantılar:Arxiv, GitHub

Mimari ve Güçlü Yönler

RTDETRv2, görüntüleri global dikkatle işleyen bir transformatör mimarisinden yararlanır. Bu, modelin bir görüntünün uzak kısımları arasındaki ilişkileri "görmesini" sağlar ve bu da onu örtülme ve kalabalık sahnelere karşı özellikle dayanıklı hale getirir. Önemli bir avantajı, NMS tasarımıdır. Bu tasarım, maksimum olmayan bastırma son işlemine olan ihtiyacı ortadan kaldırarak dağıtım sürecini basitleştirir.

Sınırlamalar

RTDETRv2 güçlü olmakla birlikte, CNN'lere kıyasla eğitim için genellikle çok daha fazla GPU gerektirir. Dikkat mekanizmalarının ikinci dereceden karmaşıklığı, yüksek çözünürlüklü girdiler için bir darboğaz oluşturabilir. Ayrıca, ekosistem öncelikle araştırma odaklıdır ve Ultralytics bulunan kapsamlı dağıtım araçlarından yoksundur.

RT-DETR hakkında daha fazla bilgi edinin

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9 , Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) kavramlarını YOLOv9 . Bu yenilikler, derin sinir ağlarındaki bilgi darboğazı sorununu ele almaktadır.

Temel Özellikler:

Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica
Tarih: 21 Şubat 2024
Bağlantılar:Arxiv, GitHub

Mimari ve Güçlü Yönler

YOLOv9 GELAN mimarisi, parametre verimliliğini en üst düzeye çıkararak önceki sürümlerden daha az FLOP ile yüksek doğruluk elde etmesini sağlar. İleri besleme sürecinde önemli bilgileri saklayarak, ağırlıkları güncellemek için kullanılan gradyanların doğru ve güvenilir olmasını sağlar. Bu, hem hafif hem de yüksek doğrulukta bir model ile sonuçlanır.

Sınırlamalar

Gelişmiş olmasına rağmen, YOLOv9 son işlem NMS geleneksel NMS dayanmaktadır ve bu da dağıtım sırasında gecikme ve karmaşıklığa neden olabilir. Büyük ölçekli dağıtımları yöneten kullanıcılar, genellikle bu karmaşıklıkları yerel olarak ele alan yeni Ultralytics kolaylaştırılmış deneyimini tercih ederler.

YOLOv9 hakkında daha fazla bilgi edinin.

Ultralytics : Modelin Ötesinde

Belirli bir mimari seçmek önemli olmakla birlikte, onu çevreleyen yazılım ekosistemi genellikle projelerin başarısında belirleyici faktördür. YOLOv8 dahil olmak üzere Ultralytics , YOLO11ve en son teknoloji ürünü YOLO26 dahil olmak üzere Ultralytics modelleri, belirgin avantajlar sunar:

1. Kullanım Kolaylığı ve Eğitim Verimliliği

Bir modeli eğitmek için derin öğrenme alanında doktora derecesine sahip olmak gerekmemelidir. Ultralytics Python , veri yükleme, artırma ve dağıtılmış eğitimin karmaşıklıklarını ortadan kaldırır.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your data with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

2. Görevler Arasında Çok Yönlülük

Birçok özel modelden farklı olarak, Ultralytics genel amaçlı görsel yapay zeka araçları olarak tasarlanmıştır. Tek bir çerçeve şunları destekler:

Nesne Algılama: Nesneleri ve konumlarını tanımlama.
Örnek Segmentasyonu: Piksel düzeyinde nesne sınırları belirleme.
Poz Tahmini: İskeletin kilit noktalarının izlenmesi.
Sınıflandırma: Görüntülerin tamamını kategorilere ayırma.
OBB: Gemiler veya metin gibi yönlendirilmiş nesneleri algılama.

3. Dağıtım ve İhracat

Eğitimli bir modelden üretim uygulamasına geçiş sorunsuz bir şekilde gerçekleşir. Ultralytics , tek tıklamayla aşağıdaki formatlara aktarım olanağı Ultralytics ONNX, TensorRT, CoreML ve TFLite gibi formatlara tek tıklamayla dışa aktarım olanağı sunarak, modelinizin uç cihazlardan bulut sunucularına kadar her türlü donanımda verimli bir şekilde çalışmasını sağlar.

İleriye Bakış: YOLO26'nın Gücü

En iyi performansı arayan geliştiriciler için, YOLO26 bir sonraki adımdır. RTDETRv2 ve YOLOv9 sınırlamalarını, bunların güçlü yönlerini tek bir mimaride YOLOv9 ortadan kaldırır.

Neden YOLO26'ya yükseltmelisiniz?

YOLO26, uçtan uca NMS algılama özelliğini doğal olarak sunarak önceki karşılaştırmaları geçersiz kılar. YOLOv9 son işlem darboğazlarını ortadan YOLOv9 CNN'lerin hız avantajlarını korur YOLOv9 RTDETRv2 gibi dönüştürücülerin ağır hesaplama maliyetinden kaçınır.

YOLO26'nın Önemli Atılımları:

Yerel olarak uçtan uca: Daha hızlı ve daha basit dağıtım süreçleri NMS ortadan kaldırır.
MuSGD Optimizer: LLM eğitimi (Moonshot AI'nın Kimi K2 gibi) esinlenerek geliştirilen bu hibrit optimizer, istikrarlı yakınsama ve sağlam eğitim sağlar.
Geliştirilmiş Hız: CPU için optimize edilmiş olup, önceki nesillere göre %43'e varan hız artışı sağlayarak uç AI uygulamaları için ideal hale getirilmiştir.
ProgLoss + STAL: Gelişmiş kayıp fonksiyonları, drone görüntüleri ve IoT için kritik bir özellik olan küçük nesne algılamayı iyileştirir.

YOLO26 hakkında daha fazla bilgi edinin

Sonuç

Hem RTDETRv2 hem de YOLOv9 , bilgisayar görme alanına etkileyici katkılar YOLOv9 . RTDETRv2, dönüştürücü tabanlı doğruluğun sınırlarını zorlarken, YOLOv9 ise CNN'lerin verimliliğini YOLOv9 . Ancak, pratik ve gerçek dünya uygulamaları için Ultralytics YOLO üstün bir seçenek olmaya devam etmektedir. YOLO26'nın piyasaya sürülmesiyle, geliştiriciler artık uçtan uca algılamanın basitliği ile CNN'lerin hızı arasında seçim yapmak zorunda kalmıyor; her ikisini de tek bir, iyi desteklenen pakette bulabiliyorlar.

Ultralytics keşfederek modellerinizi bugün eğitmeye başlayın veya kapsamlı belgelerimizi inceleyerek görsel yapay zeka iş akışınızı optimize etme hakkında daha fazla bilgi edinin.

RTDETRv2 ile YOLOv9: Gerçek Zamanlı Algılama Dönüştürücüleri ve CNN'lerin Karşılaştırılması

Yönetici Özeti

Detaylı Performans Karşılaştırması

RTDETRv2: Vizyon Dönüştürücü Yarışmacısı

Mimari ve Güçlü Yönler

Sınırlamalar

YOLOv9: Programlanabilir Gradyan Bilgisi

Mimari ve Güçlü Yönler

Sınırlamalar

Ultralytics : Modelin Ötesinde

1. Kullanım Kolaylığı ve Eğitim Verimliliği

2. Görevler Arasında Çok Yönlülük

3. Dağıtım ve İhracat

İleriye Bakış: YOLO26'nın Gücü

Sonuç

Yorumlar