Link to this sectionRTDETRv2 ile EfficientDet karşılaştırması#
Optimum sinir ağı mimarisini seçmek, herhangi bir bilgisayarlı görü projesi için belirleyici bir karardır. Bu kapsamlı teknik karşılaştırma, iki etkili nesne tespit modelini incelemektedir: son teknoloji bir Transformer tabanlı dedektör olan RTDETRv2 ve oldukça ölçeklenebilir bir evrişimli sinir ağı olan EfficientDet. AI hatların için veriye dayalı kararlar vermene yardımcı olmak adına farklı mimarilerini, performans metriklerini, eğitim metodolojilerini ve ideal dağıtım senaryolarını değerlendireceğiz.
Link to this sectionRTDETRv2: Gerçek Zamanlı Tespit Transformer'ı#
Orijinal RT-DETR'nin başarısının üzerine inşa edilen RTDETRv2, Transformer tabanlı nesne tespiti paradigmasını geliştirir. Kodlayıcı ve kod çözücü yapılarını optimize ederek, geleneksel CNN'ler ile Vision Transformer'lar arasındaki boşluğu etkili bir şekilde kapatırken, gerçek zamanlı çıkarım hızlarını koruyarak yüksek doğruluk sunar.
Model Detayları
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 2024-07-24
Bağlantılar: Arxiv, GitHub, Docs
Link to this sectionMimari ve Temel Güçlü Yönler#
RTDETRv2, güçlü bir CNN çatısını (genellikle ResNet veya HGNet) verimli bir Transformer dekoderi ile eşleştiren hibrit bir mimari kullanır. RTDETRv2'nin en belirgin özelliği, non-maximum suppression (NMS) adımını atlama konusundaki doğal yeteneğidir. Geleneksel dedektörler, yinelenen sınırlayıcı kutuları filtrelemek için NMS'ye ihtiyaç duyar ve bu da işlem sonrası aşamasında değişken inference latency ekler. RTDETRv2, tespiti doğrudan bir küme tahmini problemi olarak formüle eder ve benzersiz tahminler üretmek için iki taraflı eşleştirmeyi (bipartite matching) kullanır.
Bu model, GPU belleğinin bol olduğu sunucu tarafı dağıtımlarında mükemmel sonuç verir. Küresel dikkat mekanizması, olağanüstü bağlam farkındalığı sağlayarak; otomatik güvenlik alarm sistemleri veya yoğun kalabalık izleme gibi yoğun ve karmaşık ortamlardaki çakışan nesneleri ayırmada oldukça yetenekli olmasını sağlar.
Link to this sectionSınırlamalar#
Transformer mimarileri güçlü olsalar da, eğitim sırasında standart CNN'lere kıyasla doğal olarak daha fazla CUDA belleği gerektirirler. Ayrıca, RTDETRv2'yi ince ayarlamak, training data yakınsama sürelerinin uzamasını gerektirebilir ve bu da hızlı prototiplemeyi biraz daha kaynak yoğun hale getirir.
RTDETRv2 hakkında daha fazla bilgi edin
Link to this sectionEfficientDet: Ölçeklenebilir ve Verimli CNN'ler#
EfficientDet, çok çeşitli kaynak kısıtlamaları genelinde hem doğruluk hem de verimlilik için optimize edilmiş bir nesne tespit modelleri ailesini tanıttı. Ölçeklenebilir machine vision tasarımı için klasik bir örnek olmaya devam etmektedir.
Model Detayları
Yazarlar: Mingxing Tan, Ruoming Pang ve Quoc V. Le
Kuruluş: Google
Tarih: 2019-11-20
Bağlantılar: Arxiv, GitHub, Docs
Link to this sectionMimari ve Temel Güçlü Yönler#
EfficientDet'in arkasındaki yenilik iki ana alanda yatar: Çift Yönlü Özellik Piramidi Ağı (BiFPN) ve bileşik ölçeklendirme yöntemi. BiFPN, farklı girdi özelliklerinin önemini öğrenmek için öğrenilebilir ağırlıklar sunarak ve yukarıdan aşağıya ve aşağıdan yukarıya çok ölçekli özellik birleştirmesini tekrarlı olarak uygulayarak basit ve hızlı bir feature extraction sağlar. Bileşik ölçeklendirme yöntemi, ağın çözünürlüğünü, derinliğini ve genişliğini aynı anda orantılı olarak ölçeklendirir.
EfficientDet models range from the ultra-lightweight D0 to the massive D7. This makes them highly versatile for edge AI deployments where developers must balance tight computational budgets with accuracy requirements, such as early mobile augmented reality applications.
Link to this sectionSınırlamalar#
EfficientDet, büyük ölçüde çapa kutularına ve geleneksel NMS işlem sonrası hattına dayanan eski bir mimaridir. Çapa oluşturma süreci dikkatli bir hiperparametre ayarı gerektirir ve NMS adımı, Raspberry Pi gibi gömülü donanımlardaki dağıtımlarda darboğaz oluşturabilir. Ayrıca poz tahmini veya yönlendirilmiş sınırlayıcı kutular (OBB) gibi modern görevler için yerel desteğe sahip değildir.
EfficientDet hakkında daha fazla bilgi edinin
Link to this sectionPerformans ve Metrik Karşılaştırması#
Bu modeller arasındaki kesin ödünleşimleri anlamak, verimlerinin ve parametre verimliliklerinin analiz edilmesini gerektirir. Aşağıdaki tablo, modern RTDETRv2 serisinin ölçeklenebilir EfficientDet ailesiyle nasıl karşılaştırıldığını özetlemektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Yukarıda görüldüğü gibi, RTDETRv2, orta seviye EfficientDet modelleriyle karşılaştırılabilir parametre sayılarında önemli ölçüde daha yüksek mean Average Precision (mAP) elde eder ve doğruluğu artırmak için Transformer mimarisinden yoğun bir şekilde yararlanır.
Link to this sectionKullanım Durumları ve Öneriler#
RT-DETR ile EfficientDet arasında seçim yapmak, proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
Link to this sectionRT-DETR Ne Zaman Seçilmeli#
RT-DETR şunlar için güçlü bir seçimdir:
- Transformer Tabanlı Algılama Araştırması: NMS olmadan uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
- Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük nesnelerin olduğu sahneler.
Link to this sectionNe Zaman EfficientDet Seçilmeli#
EfficientDet şunlar için önerilir:
- Google Cloud ve TPU İşlem Hatları: EfficientDet'in yerel optimizasyona sahip olduğu Google Cloud Vision API'leri veya TPU altyapısıyla derinlemesine entegre edilmiş sistemler.
- Bileşik Ölçekleme Araştırmaları: Dengeli ağ derinliği, genişliği ve çözünürlük ölçeklemenin etkilerini incelemeye odaklanan akademik kıyaslamalar.
- TFLite ile Mobil Dağıtım: Android veya gömülü Linux cihazlar için özel olarak TensorFlow Lite dışa aktarma gerektiren projeler.
Link to this sectionUltralytics (YOLO26) Ne Zaman Seçilmeli#
Çoğu yeni proje için, Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı, özel GPU hızlandırması olmayan cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Link to this sectionUltralytics Alternatifi: Teknolojide Gelinen Son Nokta#
Hem RTDETRv2 hem de EfficientDet güçlü özelliklere sahip olsa da, modern yapay zeka geliştirme süreci, son teknoloji performansın yanı sıra kesintisiz bir geliştirici deneyimi sunan çerçeveler talep eder. Ultralytics ekosistemi, bilgisayarlı görü görevlerine çok daha modern ve akıcı bir yaklaşım sağlar.
Eğer son teknoloji tespiti keşfediyorsan, yeni yayınlanan Ultralytics YOLO26 hem CNN'lerin hem de Transformer'ların en iyi yönlerini sentezler.
YOLO26, End-to-End NMS-Free Design uygulayarak RTDETRv2'nin dağıtım basitliğini ultra verimli YOLO mimarisine getiriyor. Ayrıca, LLM eğitim yeniliklerinden esinlenen ve üstün eğitim kararlılığı sağlayan MuSGD Optimizer'ı tanıtıyor. DFL Removal (basitleştirilmiş dışa aktarma ve daha iyi uç/düşük güç cihaz uyumluluğu için Distribution Focal Loss kaldırıldı) sayesinde, YOLO26 önceki nesillere göre %43'e kadar daha hızlı CPU inference performansı sunarak, onu daha ağır modellere kıyasla edge computing için olağanüstü bir seçenek haline getiriyor. Ek olarak, ProgLoss + STAL, IoT, robotik ve hava görüntüleri için kritik öneme sahip olan küçük nesne tanımada kayda değer iyileştirmeler içeren gelişmiş kayıp fonksiyonları sunuyor.
Ultralytics Python paketi tarafından sağlanan kullanım kolaylığı rakipsizdir. Geliştiriciler, araştırma depolarının genellikle gerektirdiği karmaşık kodları (boilerplate) ortadan kaldıran sezgisel bir API kullanarak modelleri eğitebilir, doğrulayabilir ve dışa aktarabilir.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")Ultralytics modelleri, örnek bölümleme ve görüntü sınıflandırma dahil olmak üzere birden fazla görevi yerel olarak destekleyerek çeşitli endüstri ihtiyaçları için çok yönlü bir araç seti sağlar. Ayrıca, modern Ultralytics modellerinde Distribution Focal Loss'un (DFL) kaldırılması, hesaplama grafiğini basitleştirerek gömülü NPU ve TPU'lere daha sorunsuz dışa aktarımı garanti eder.
Kesintisiz veri etiketleme ve model yönetimi için Ultralytics Platform, tüm makine öğrenimi yaşam döngüsünü denetlemek için kapsamlı bir bulut ortamı sağlar ve onu üretimde sağlam bilgisayarlı görü çözümleri dağıtmak için en iyi seçenek haline getirir.