YOLOv7 RTDETRv2: Eski Hız ile Dönüştürücü Hassasiyeti Arasında Denge Kurma

Nesne algılama alanı son birkaç yılda önemli ölçüde gelişerek, saf Convolutional Neural Networks (CNN) ağlarından sofistike hibrit mimarilere doğru kaymıştır. Bu alanda iki önemli model şunlardır YOLOv7, 2022'den itibaren ünlenen "bag-of-freebies" CNN gücü ve RTDETRv2, Baidu tarafından 2023/2024'te YOLO meydan okumak için piyasaya sürülen Gerçek Zamanlı Algılama Dönüştürücüsü.

YOLOv7 , klasik çapa tabanlı yaklaşımı sınırlarına kadar YOLOv7 , RTDETRv2, Non-Maximum Suppression (NMS) gibi son işlem adımlarını ortadan kaldırmak için görsel dönüştürücülerin (ViT) gücünden yararlandı. Bu kılavuz, mimarilerini, performanslarını ve modern bilgisayar görme projeleri için uygunluklarını karşılaştırırken, Ultralytics gibi yeni nesil modellerin neden üretim dağıtımı için giderek daha fazla standart hale geldiğini araştırıyor.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv7: Çapa Tabanlı Algılamanın Zirvesi

Temmuz 2022'de piyasaya sürülen YOLOv7 , ImageNet kullanmadan mimari verimliliğe odaklanarak YOLO büyük bir sıçrama gerçekleştirdi. Bu sürüm, "eğitilebilir bag-of-freebies" kavramını ortaya attı. Bu kavram, çıkarım gecikmesini artırmadan eğitim sırasında doğruluğu artıran optimizasyon yöntemlerini ifade ediyor.

Önemli Teknik Detaylar:

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica, Tayvan
Tarih: 2022-07-06
Bağlantılar:ArXiv Makalesi | GitHub Deposu

YOLOv7 temel yeniliği YOLOv7 Genişletilmiş Verimli Katman Toplama Ağı (E-ELAN) YOLOv7 . Bu mimari, gradyan yol uzunluklarını kontrol ederek ağın daha çeşitli özellikleri öğrenmesini sağlar ve daha derin ağlarda etkili öğrenmeyi garanti eder. YOLOv7 , son derece etkili olmakla birlikte, çapa tabanlı bir YOLOv7 , yani nesne konumlarını tahmin etmek için önceden tanımlanmış çapa kutularına dayanır. Bu bağımlılık, genellikle özel veri kümeleri için dikkatli hiperparametre ayarlaması gerektirir, ancak bu karmaşıklık, YOLO11 gibi modern çapa içermeyen dedektörlerde ortadan kaldırılmıştır. YOLO11gibi modern çapa içermeyen dedektörlerde ortadan kaldırılmıştır.

YOLOv7 hakkında daha fazla bilgi edinin.

RTDETRv2: Gerçek Zamanlı Hız için Dönüştürücüler

RTDETRv2 (Real-Time Detection Transformer v2), orijinal RT-DETR başarısını temel alarak, DETR gibi geleneksel transformatör tabanlı dedektörlerle ilişkili yüksek hesaplama maliyetini çözmeyi amaçlamaktadır. Baidu tarafından geliştirilen bu teknoloji, transformatör mimarilerinin GPU gerçek zamanlı hızlara ulaşabileceğini kanıtlamaktadır.

Önemli Teknik Detaylar:

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
Kuruluş:Baidu
Tarih: 17.04.2023 (v1), 2024 (v2 güncellemeleri)
Bağlantılar:ArXiv Makalesi | GitHub Deposu

RTDETRv2, çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanır. Tanımlayıcı özelliği, modelin bir görüntünün en alakalı kısımlarına odaklanmasına yardımcı olan IoU Sorgu Seçimi'dir. En önemlisi, RTDETRv2 uçtan uca bir dedektördür. Non-Maximum Suppression (NMS) son işleme gerektirmez, bu da dağıtım süreçlerini basitleştirir ve kalabalık sahnelerde gecikme varyansını azaltır. Ancak bunun bedeli, CNN tabanlı modellere kıyasla eğitim sırasında daha yüksek bellek tüketimi olmasıdır.

RT-DETR hakkında daha fazla bilgi edinin

Teknik Karşılaştırma: Mimari ve Kullanım Örnekleri

Bu mimariler arasındaki temel farkları anlamak, belirli bilgisayar görme uygulamaları için doğru aracı seçmeye yardımcı olur.

1. Mimari: CNN ve Hibrit Dönüştürücü

YOLOv7 tamamen konvolüsyonlara YOLOv7 . Bu, CNN'lerin doğal olarak çeviri değişmez olması nedeniyle, sınırlı belleğe sahip ancak yeterli hesaplama gücüne sahip uç cihazlarda son derece verimli olmasını sağlar. RTDETRv2, CNN omurgalarını Transformer kodlayıcılarla birleştirir. Bu, küresel bağlamı daha iyi yakalamasına olanak sağlarken (karmaşık sahnelerde doğruluğu artırır), CUDA gereksinimlerini önemli ölçüde artırır. Örneğin, bir dönüştürücü modelini eğitmek genellikle makul parti boyutlarını işlemek için yüksek kaliteli GPU'lar (ör. A100 veya H100) gerektirirken, YOLOv7 genellikle tüketici donanımında YOLOv7 .

2. Sonuç: NMS

YOLOv7 , NMS kullanılarak filtrelenmesi gereken binlerce aday sınırlayıcı kutu YOLOv7 . Yoğun nesnelerin bulunduğu senaryolarda ( perakende envanter sayımı gibi), NMS hız açısından bir darboğaz haline NMS . RTDETRv2 bu adımı tamamen ortadan kaldırarak tam olarak gerekli sayıda kutu çıktısı verir.

İki Dünyanın En İyisi

YOLO26 gibi modern Ultralytics artık RTDETRv2'ye benzer, ancak yüksek düzeyde optimize edilmiş bir CNN mimarisi üzerine inşa edilmiş Uçtan Uca NMS Tasarım özelliğine sahiptir. Bu, YOLO eğitim verimliliği ve hızıyla birlikte transformatörlerin dağıtım kolaylığını sağlar.

3. Dağıtım ve Ekosistem

Her iki model de güçlü araştırma desteğine sahip olsa da, Ultralytics bakım kolaylığı açısından belirgin bir avantaj sunar. YOLOv7 resmi deposu büyük ölçüde statiktir, oysa Ultralytics sık sık güncellenir ve en son sürümlerle uyumluluk sağlanır. PyTorch, ONNX ve TensorRT ile uyumluluğu garanti altına alır.

Modern Alternatif: Ultralytics

CNN'lerin hızıyla transformatörlerin doğruluğunu arayan geliştiriciler için Ultralytics , üstün bir seçenek olarak öne çıkıyor. 2026 yılında piyasaya sürülen bu ürün, RTDETRv2'nin "uçtan uca" avantajlarını bünyesinde barındırırken, kaynak kullanımındaki zayıflıklarını da gideriyor.

Neden YOLO26'yı Seçmelisiniz?

Yerel olarak uçtan uca: RTDETRv2 gibi, YOLO26 da NMS ortadan kaldırarak dışa aktarımı basitleştirir TensorRT ve CoreML dışa aktarımı basitleştirir.
MuSGD Optimizer: LLM eğitiminden esinlenerek geliştirilen bu optimizer, YOLOv7 gibi eski modellerin eğitiminde sıklıkla ihtiyaç duyulan "deneme yanılma" sürecini azaltarak istikrarlı bir yakınsama sağlar.
Kenar Optimizasyonu: YOLO26, Dağıtım Odak Kaybını (DFL) ortadan kaldırarak önemli ölçüde daha hafif hale getirir. RTDETRv2'nin ağır transformatör hesaplamaları nedeniyle sıklıkla zorlandığı kenar cihazları için kritik bir ölçüt olan CPU %43'e kadar daha hızlı hale getirir.
Çok yönlülük: Öncelikle algılamaya odaklanan YOLOv7 RTDETRv2'den farklı olarak, YOLO26 segmentasyon, poz tahmini ve yönlendirilmiş sınırlayıcı kutuları (OBB) doğal olarak destekler.

Performans Dengesi

YOLO26, ProgLoss ve STAL (Soft-Target Anchor Loss) teknolojilerini kullanarak küçük nesnelerin algılanmasını iyileştirir. Bu, eski YOLO tarihsel olarak transformatörlerin gerisinde kaldığı bir alandır. Bu özelliği, hava görüntüsü analizi veya tıbbi hücre sayımı gibi uygulamalar için ideal hale getirir.

Kod Örneği: Sorunsuz Entegrasyon

Eski modellerden en yeni Ultralytics geçiş yapmak çok kolaydır. Ultralytics Python , mimari farklılıklarının karmaşıklığını ortadan kaldırır.

from ultralytics import YOLO

# Load the latest YOLO26 model (recommended)
model = YOLO("yolo26n.pt")

# Alternatively, load RT-DETR or YOLOv7 within the same ecosystem
# model = YOLO("rtdetr-l.pt")
# model = YOLO("yolov7.pt")

# Train on a dataset like COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with NMS-free speed (native in YOLO26)
results = model("https://ultralytics.com/images/bus.jpg")

YOLO26 hakkında daha fazla bilgi edinin

Özet

Eski sistemleri kullanıyorsanız ve kanıtlanmış, tamamen CNN tabanlı bir dedektöre ihtiyacınız varsa ve bağlantıları ayarlamak için zamanınız varsa YOLOv7 kullanın.
Yüksek kaliteli GPU'larda uçtan uca çıkarım gerektiriyorsa ve eğitim sırasında daha yüksek VRAM maliyetini karşılayabiliyorsanız RTDETRv2 kullanın.
En iyi dengeyi elde etmek için Ultralytics kullanın. RTDETR'nin uçtan uca NMS avantajlarını, YOLO hızını ve düşük bellek ayak izini ve Ultralytics sağlam desteğini sunar.

2026 yılında başlatılacak çoğu yeni proje için, YOLO26' nın kullanım kolaylığı, belgelendirme ve performans/verimlilik oranı onu önerilen başlangıç noktası haline getirmektedir.