YOLOv8 ve RTDETRv2: Derinlemesine Teknik Karşılaştırma
Bilgisayar görüşü alanı sürekli gelişmekte, yeni mimariler gerçek zamanlı nesne tespitinde nelerin mümkün olduğunun sınırlarını zorlamaktadır. Önemli ilgi gören iki önde gelen model Ultralytics YOLOv8 ve Baidu'nun RTDETRv2'sidir. Bu kılavuz, bu iki güçlü model arasında mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını inceleyen kapsamlı bir teknik karşılaştırma sunmaktadır.
YOLOv8'e Genel Bakış
Ultralytics YOLOv8, YOLO (You Only Look Once) model ailesinde önemli bir kilometre taşını temsil etmektedir. Çok çeşitli görevler için olağanüstü hız, doğruluk ve kullanım kolaylığı sunmak üzere yıllarca süren temel araştırmalara dayanmaktadır.
Temel Özellikler:
- Yazarlar: Glenn Jocher, Ayush Chaurasia ve Jing Qiu
- Organizasyon: Ultralytics
- Tarih: 10 Ocak 2023
- GitHub: Ultralytics Deposu
- Belgeler: YOLOv8 Belgeleri
Mimari ve Güçlü Yönler
YOLOv8, hem özellik çıkarımını hem de sınırlayıcı kutu regresyonunu optimize eden modern bir mimari sunar. Tahmin başlığını basitleştiren ve eğitim sırasında gereken hiperparametre ayarlamalarının sayısını azaltan, çıpa içermeyen bir detectördür. Bu mimari, çıkarım hızı ile ortalama hassasiyet (mAP) arasında harika bir performans dengesi sağlayarak, onu hem uç cihazlarda hem de bulut sunucularında gerçek dünya dağıtımları için son derece uygun hale getirir.
Ayrıca, YOLOv8, transformatör tabanlı mimarilere kıyasla eğitim sırasında önemli ölçüde daha düşük bellek gereksinimlerine sahiptir. Bu, geliştiricilerin standart tüketici GPU'larında bellek yetersizliği hatalarıyla karşılaşmadan modelleri eğitmesine olanak tanır.
Çok Yönlülük
YOLOv8'in belirleyici güçlerinden biri, doğal çok yönlülüğüdür. Birçok model yalnızca sınırlayıcı kutulara odaklanırken, YOLOv8, nesne detect, örnek segment, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (obb) detect için kullanıma hazır destek sağlar.
YOLOv8 hakkında daha fazla bilgi edinin.
RTDETRv2'ye Genel Bakış
RTDETRv2 (Gerçek Zamanlı detect Transformatörü sürüm 2), orijinal RT-DETR üzerine inşa edilmiştir ve Vision Transformatörlerinin güçlü dikkat mekanizmalarını gerçek zamanlı nesne detect uygulamalarına getirmeyi hedeflemektedir.
Temel Özellikler:
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş: Baidu
- Tarih: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR Deposu
- Belgeler: RTDETRv2 README
Mimari ve Güçlü Yönler
RTDETRv2, bir Evrişimsel Sinir Ağı (CNN) backbone'unu bir transformatör kodlayıcı-kod çözücü yapısıyla birleştiren hibrit bir mimariden yararlanır. Bu, modelin öz dikkat mekanizmaları aracılığıyla karmaşık uzamsal ilişkileri ve küresel bağlamı yakalamasına olanak tanır. Bir dizi "bag-of-freebies" eğitim stratejisi kullanarak, RTDETRv2, COCO veri kümesi gibi standart kıyaslama veri kümelerinde rekabetçi mAP skorları elde eder.
Zayıflıklar
Yüksek doğruluğuna rağmen, RTDETRv2'nin transformatör tabanlı yapısı, saf CNN mimarilerine kıyasla daha yüksek bellek tüketimi ve daha yavaş eğitim süreleri getirir. Transformatörler doğası gereği daha fazla VRAM gerektirir, bu da onları kaynak kısıtlı donanımlarda eğitmeyi zorlaştırır. Ek olarak, RTDETRv2 detect konusunda güçlü olsa da, Ultralytics ekosistemine özgü çoklu görev çok yönlülüğünden (poz ve segment gibi) yoksundur.
RTDETRv2 hakkında daha fazla bilgi edinin
Performans Karşılaştırması
Üretim için modelleri değerlendirirken, model boyutu, çıkarım hızı ve doğruluk arasındaki denge çok önemlidir. Aşağıdaki tablo, YOLOv8 ve RTDETRv2 varyantlarının doğrudan bir karşılaştırmasını sunmaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Donanım ve Metrikler
Hızlar, bir Amazon EC2 P4d örneği kullanılarak ölçülmüştür. CPU çıkarımı ONNX kullanılarak yapılmış, GPU hızları ise TensorRT ile test edilmiştir.
Kullanım Durumları ve Öneriler
YOLOv8 ve RT-DETR arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.
YOLOv8 Ne Zaman Tercih Edilmeli?
YOLOv8 şunlar için güçlü bir seçenektir:
- Çok Yönlü Çok Görevli Dağıtım: Ultralytics ekosistemi içinde detect, segment, sınıflandırma ve poz tahmini için kanıtlanmış bir model gerektiren projeler.
- Yerleşik Üretim Sistemleri: YOLOv8 mimarisi üzerine kurulu, kararlı ve iyi test edilmiş dağıtım hatlarına sahip mevcut üretim ortamları.
- Geniş Topluluk ve Ekosistem Desteği: YOLOv8'in kapsamlı eğitimlerinden, üçüncü taraf entegrasyonlarından ve aktif topluluk kaynaklarından faydalanan uygulamalar.
RT-DETR Ne Zaman Seçilmeli
RT-DETR şunlar için önerilir:
- Transformer Tabanlı Tespit Araştırması: NMS olmadan uçtan uca nesne tespiti için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
- Esnek Gecikmeli Yüksek Doğruluk Senaryoları: Tespit doğruluğunun en yüksek öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Tespiti: Transformer'ların global dikkat mekanizmasının doğal bir avantaj sağladığı, öncelikli olarak orta ila büyük nesnelerin bulunduğu sahneler.
Ultralytics (YOLO26) Ne Zaman Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics'in Avantajı
Bir model seçimi, ham metriklerin ötesine geçer; çevreleyen yazılım ekosistemi geliştirici verimliliği için çok önemlidir. Ultralytics ekosistemi, kullanım kolaylığıyla tanınır ve tüm makine öğrenimi yaşam döngüsünü basitleştiren birleşik bir Python API'si sunar.
Veri kümesi yönetiminden dağıtılmış eğitime kadar, Ultralytics karmaşık şablon kodları soyutlar. Geliştiriciler, hazır önceden eğitilmiş ağırlıklardan ve Hugging Face gibi platformlarla ve izleme araçlarıyla sorunsuz entegrasyondan faydalanır. Bu iyi yönetilen ekosistem, aktif geliştirme, sık güncellemeler ve güçlü topluluk desteği garanti eder.
Ayrıca, eğitim verimliliği, Ultralytics YOLO modellerinin bir özelliğidir. Hızlı yakınsama ve eğitim süreci sırasında daha düşük bellek ayak izleri için yüksek düzeyde optimize edilmişlerdir, bu da RTDETRv2 gibi transformatör tabanlı detectörlere kıyasla deney döngülerini önemli ölçüde hızlandırır.
İleriye Bakış: YOLO26'nın Gücü
YOLOv8 güçlü bir model olmaya devam etse de, en son teknolojiyi arayan geliştiriciler, Ocak 2026'da piyasaya sürülen merakla beklenen YOLO26'ya yükseltmeyi düşünmelidir. YOLO26, çığır açan çeşitli yeniliklerle en son teknolojiyi yeniden tanımlıyor:
- Uçtan Uca NMS-Serbest Tasarım: YOLO26, Maksimum Olmayan Bastırma (NMS) sonrası işlemeyi ortadan kaldırarak daha hızlı ve daha deterministik dağıtım iş akışları sağlar.
- DFL Kaldırma: Dağıtım Odak Kaybının kaldırılması, gelişmiş uç ve düşük güç tüketimli cihaz uyumluluğu için modeli optimize eder.
- MuSGD Optimize Edici: LLM eğitim yeniliklerini entegre eden MuSGD optimize edici, daha kararlı eğitim çalışmaları ve daha hızlı yakınsama sağlar.
- %43'e Kadar Daha Hızlı CPU Çıkarımı: Özel GPU'ları olmayan ortamlar için yoğun bir şekilde optimize edilmiştir.
- ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, küçük nesne tanımada dikkate değer iyileşmeler sağlar; bu da hava görüntüleme ve robotik için kritik öneme sahiptir.
Ultralytics paketinde keşfedilmeye değer diğer modern alternatifler arasında, eski projeler için sağlam performans sunan YOLO11 bulunmaktadır; ancak tüm yeni dağıtımlar için YOLO26 önerilir.
Kod Örneği: Eğitim ve Çıkarım
Ultralytics API'sinin basitliği, modelleri yalnızca birkaç satır Python koduyla yükleyebileceğiniz, eğitebileceğiniz ve dağıtabileceğiniz anlamına gelir. Aşağıdaki örneği çalıştırmadan önce PyTorch'un kurulu olduğundan emin olun.
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
Dağıtıma Hazır
Ultralytics, ONNX, TensorRT ve CoreML dahil olmak üzere çok sayıda formata tek tıklamayla dışa aktarımı destekleyerek farklı donanım mimarileri genelinde model dağıtım seçeneklerini basitleştirir.
Sonuç
Hem YOLOv8 hem de RTDETRv2, gerçek zamanlı nesne algılama için etkileyici yetenekler sunar. RTDETRv2, transformer'ların küresel bağlamı yakalama gücünü göstererek, çıkarım hızı ve bellek yükünün birincil kısıtlamalar olmadığı karmaşık uzamsal akıl yürütme görevleri için uygun hale gelir.
Ancak, hız, doğruluk ve kaynak verimliliğinin olağanüstü dengesine öncelik veren geliştiriciler için Ultralytics YOLO modelleri üstün bir seçenek olmaya devam etmektedir. YOLOv8'in hafif yapısı, benzersiz kullanım kolaylığı, birden fazla görme görevindeki çok yönlülüğü ve gelişen açık kaynak ekosistemi ile birleştiğinde, onu ölçeklenebilir üretim ortamları için tercih edilen çözüm haline getirmektedir. Uç performansın mutlak zirvesini arayanlar için, yeni çıkan YOLO26, sektöre liderlik etmeye devam eden eşsiz NMS içermeyen verimlilik sunmaktadır.