İçeriğe geç

YOLOv7 ve RTDETRv2: Gerçek Zamanlı Nesne detect'i için Teknik Bir Karşılaştırma

Bilgisayar görüşü alanı, Evrişimsel Sinir Ağları (CNN'ler) ve Vision Transformer'lar (ViT'ler) arasındaki rekabetten büyük ölçüde etkilenerek hızla gelişmeye devam ediyor. Bu teknik karşılaştırma, iki önemli mimariyi inceliyor: yüksek düzeyde optimize edilmiş CNN tabanlı bir nesne detect'örü olan YOLOv7 ve son teknoloji bir Gerçek Zamanlı detect Transformer'ı olan RTDETRv2.

Mimari farklılıklarını, performans metriklerini ve ideal dağıtım senaryolarını analiz ederek, geliştiriciler bu görüş yapay zekası modellerini üretim hatlarına entegre ederken bilinçli kararlar verebilir.

YOLOv7: Bag-of-Freebies CNN Mimarisi

YOLOv7, geleneksel YOLO ailesine paradigma değiştiren birçok yapısal optimizasyon getirerek, bir dizi "eğitilebilir bag-of-freebies" aracılığıyla gerçek zamanlı nesne detect'inin sınırlarını zorladı.

Temel Özellikler: Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica
Tarih: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Mimari ve Güçlü Yönler

YOLOv7, Genişletilmiş Verimli Katman Birleştirme Ağı (E-ELAN) mimarisiyle öne çıkar. Bu yapısal tasarım, modelin orijinal gradyan yolunu bozmadan daha çeşitli özellikler öğrenmesini sağlar. Ayrıca, doğruluğu düşürmeden çıkarım hızını optimize eden planlı yeniden parametrelendirilmiş evrişimler içerir. Ayrık başlık yapısı, hız ve doğruluk arasında etkileyici dengeler kurmasına olanak tanıyarak, sunucu sınıfı GPU'larda gerçek zamanlı nesne algılama görevleri için son derece uygun hale getirir.

YOLOv7 aynı zamanda son derece çok yönlüdür. Standart sınırlayıcı kutu algılamanın ötesinde, depo poz tahmini ve örnek segmentasyonu için dallar sunarak uyarlanabilirliğini gösterir.

Sınırlamalar

Birçok eski CNN modeli gibi, YOLOv7 de işlem sonrası için Non-Maximum Suppression (NMS) kullanır. NMS, özellikle kalabalık sahnelerde değişken gecikme süresi getirir, bu da uç cihazlarda katı gerçek zamanlı garantileri zorlaştırabilir.

YOLOv7 hakkında daha fazla bilgi edinin.

RTDETRv2: Gerçek Zamanlı Transformer'ları Geliştirmek

RTDETRv2, orijinal RT-DETR çerçevesi üzerine inşa edilmiştir ve transformatörlerin yüksek uzamsal doğruluğu korurken gerçek zamanlı gecikmede YOLO mimarileriyle rekabet edebileceğini daha da kanıtlar.

Temel Özellikler: Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Kuruluş: Baidu
Tarih: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Mimari ve Güçlü Yönler

RTDETRv2, Görsel Transformatörler için önemli bir adımı temsil eder. Çok ölçekli özellikleri hızla işlemek için esnek bir sorgu seçim süreci ve verimli bir hibrit kodlayıcıdan yararlanır. Algılama Transformatörleri (DETR'ler) için özel olarak tasarlanmış yeni bir "ücretsiz özellikler paketi" sunarak uzamsal akıl yürütmeyi sınırlarına kadar zorlar. Doğal olarak NMS içermediği için, titiz akıllı şehir uygulamaları ve otonom sürüş için kritik bir özellik olan deterministik çıkarım süreleri sağlar.

Sınırlamalar

Gelişmelerine rağmen, RTDETRv2 transformatör tabanlı mimarilerin geleneksel yüklerini taşır. Hem eğitim hem de çıkarım sırasında CNN'lere kıyasla önemli ölçüde daha yüksek CUDA belleği gerektirir. Ayrıca, eğitim yakınsama süreleri gözle görülür şekilde daha uzundur, bu da büyük miktarda yüksek kaliteli etiketli veri (örneğin COCO veri kümesi) ve yoğun hesaplama kaynakları gerektirir.

RTDETRv2 hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Bu modelleri kıyaslarken, hassasiyet, ham çıkarım hızı ve hesaplama ayak izini kapsayan bütünsel bir tabloya bakmalıyız. Aşağıda doğrudan bir karşılaştırma tablosu bulunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Kıyaslamaları Yorumlama

RTDETRv2-x, %54,3 ile mutlak en yüksek mAPval değerini iddia etse de, muazzam 259 milyar FLOP gerektirir. Tersine, YOLOv7 mimarileri mükemmel bir temel sağlar ancak saf ağ gecikme metriklerinde tam olarak yakalanamayan eski NMS yükünden muzdariptir.

Ultralytics Avantajı: Ekosistem ve Evrim

YOLOv7 ve RTDETRv2 sağlam yetenekler sunsa da, bunları üretim ortamlarında dağıtmak genellikle lojistik sürtünmeleri ortaya çıkarır. İşte bu noktada Ultralytics ekosistemi öne çıkar. Sorunsuz uçtan uca entegrasyon için tasarlanan Ultralytics çerçevesi, geliştiricilere bilgisayar görüşü işlem hatlarının tipik karmaşıklıklarını soyutlayan birleşik bir API sağlar.

Rakipsiz Çok Yönlülük ve Bellek Verimliliği

Büyük miktarda VRAM tüketen katı transformatör modellerinin aksine, Ultralytics YOLO modelleri katı bellek verimliliğini korur. Bu, erişilebilir donanım üzerinde hızlı model eğitimi sağlar. Ekosistem, görüntü sınıflandırma ve yönlendirilmiş sınırlayıcı kutu (OBB) algılama dahil olmak üzere tek bir kod tabanından birden fazla bilgisayar görüşü görevini doğal olarak destekleyerek, RTDETRv2'nin şu anda sahip olmadığı bir esneklik sunar.

Sorunsuz Dağıtım

Araştırmadan üretime geçiş, sağlam dağıtım seçenekleri gerektirir. Ultralytics API'si, endüstri standardı formatlara tek tıklamayla model dışa aktarımını doğal olarak yönetir. İster çapraz platform uyumluluğu için ONNX'i, ister maksimum GPU hızlandırması için TensorRT'yi hedefliyor olun, işlem hattı tamamen otomatik ve güvenilirdir.

Nihai Yükseltme: Ultralytics YOLO26

YOLOv7 ve RTDETRv2 arasında kararsız kalan geliştiriciler için ileriye dönük en uygun yol, aslında görsel yapay zekadaki yeni standarttır: Ultralytics YOLO26. Ocak 2026'da piyasaya sürülen YOLO26, CNN'lerin hızı ile transformatörlerin sofistike akıl yürütmesi arasındaki boşluğu kapatırken, kendi zayıf yönlerini tamamen ortadan kaldırır.

YOLO26 hakkında daha fazla bilgi edinin

YOLO26, hem sunucu hem de uç dağıtımlar için özel olarak tasarlanmış çığır açan yenilikler sunar:

  • Uçtan Uca NMS İçermeyen Tasarım: İlk olarak YOLOv10'da öncülük edilen YOLO26, NMS işlem sonrasını doğal olarak ortadan kaldırır. Bu, bir transformatörün külfetli hesaplama yükü olmadan RTDETRv2'nin deterministik gecikmesini sağlar.
  • MuSGD Optimizatörü: Büyük dil modeli eğitim tekniklerinden (Moonshot AI'nin Kimi K2'si gibi) esinlenilen YOLO26, SGD ve Muon'un bir hibritini kullanır. Bu, ViT'ler tarafından kullanılan standart AdamW uygulamalarına kıyasla benzeri görülmemiş eğitim kararlılığı ve önemli ölçüde daha hızlı yakınsama süreleri sunar.
  • ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, küçük nesne tanımada kayda değer iyileştirmeler sağlayarak, robotik otomasyon için kritik öneme sahip olan RTDETRv2'nin çok ölçekli özellik avantajlarıyla doğrudan rekabet eder.
  • Uç Optimizasyonu ve DFL Kaldırma: Dağıtım Odak Kaybı (DFL) kaldırılarak, YOLO26 çıktı başlığını optimize eder ve bu da %43'e kadar daha hızlı CPU çıkarımı sağlar; böylece ağır transformatör modellerine göre uç cihazlarda sonsuz derecede daha fazla dağıtılabilir hale gelir.

Ultralytics ile Eğitim Örneği

Ultralytics Python API'sinin basitliği, son teknoloji YOLO26 modelini yalnızca birkaç satır kodla eğitmenizi sağlar:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

İdeal Kullanım Senaryoları

Doğru mimariyi seçmek, dağıtım kısıtlamalarına ve donanım kullanılabilirliğine büyük ölçüde bağlıdır:

YOLOv7 ne zaman düşünülmeli:

  • YOLOv7'nin yerleşik bir temel olduğu eski araştırma projeleri.
  • Ham GPU hızlandırmasının bol olduğu ve NMS gecikme titremesinin kabul edilebilir olduğu ortamlar.

RTDETRv2 ne zaman düşünülmeli:

  • Mutlak maksimum mAP gerektiren üst düzey sunucu dağıtımları.
  • Transformatör backbone'unu desteklemek için VRAM'iniz varsa, deterministik çıkarım gecikmesinin (NMS içermeyen) kesinlikle gerekli olduğu senaryolar.

Ultralytics YOLO26 ne zaman seçilmeli:

  • Neredeyse her zaman. RTDETRv2'nin NMS içermeyen determinizmini sunar, YOLOv7'nin hızını ve doğruluğunu aşar, önemli ölçüde daha az VRAM kullanır ve zahmetsiz veri kümesi yönetimi, eğitim ve dağıtım için Ultralytics Platformu'na tamamen entegredir.

Daha Fazla Model Keşfedin

Diğer mimarilerin nasıl karşılaştırıldığını merak mı ediyorsunuz? YOLO11 ve YOLOv8 gibi önceki nesillere ilişkin derinlemesine incelemelerimizi keşfedin veya projenizin doğruluğunu en üst düzeye çıkarmak için hiperparametre ayarlamasını nasıl kullanacağınızı öğrenin.


Yorumlar