YOLOv10 ve DAMO-YOLO: Gerçek Zamanlı Nesne Dedektörlerinin Teknik Karşılaştırması
Modern bilgisayarlı görü hatları oluştururken, doğru gerçek zamanlı nesne algılama mimarisini seçmek kritik öneme sahiptir. Bu kapsamlı teknik analizde, YOLOv10 ve DAMO-YOLO için mimarileri, performans metriklerini ve ideal kullanım durumlarını inceliyoruz. Her iki model de nesne algılama yeteneklerinde önemli sıçramaları temsil eder, ancak hedeflerine ulaşmak için farklı mimari yollar izlerler.
Projenin ister kısıtlı uç yapay zeka donanımında dağıtım gerektirsin, ister bulut GPU'larında maksimum doğruluk talep etsin, bu mimarilerin inceliklerini anlamak bilinçli bir karar vermene yardımcı olacaktır.
YOLOv10'u Keşfetmek
Tsinghua Üniversitesi'ndeki araştırmacılar tarafından tanıtılan YOLOv10, işleme sonrası (post-processing) sırasında NMS (Non-Maximum Suppression) ihtiyacını etkili bir şekilde ortadan kaldıran uçtan uca yerel bir yaklaşım sunarak YOLO ailesinde devrim yarattı.
YOLOv10 Detayları:
- Yazarlar: Ao Wang, Hui Chen, Lihao Liu, ve diğerleri.
- Kuruluş: Tsinghua University
- Tarih: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Dokümanlar: https://docs.ultralytics.com/models/yolov10/
Temel Mimari Özellikler
YOLOv10'un birincil yeniliği, NMS'siz eğitim için Tutarlı İkili Atamalar stratejisidir. Geleneksel nesne dedektörleri, üst üste binen sınırlayıcı kutuları filtrelemek için büyük ölçüde NMS'ye güvenir; bu da otonom araçlar ve yüksek hızlı robotik gibi gerçek zamanlı uygulamalar için önemli bir darboğaz olan öngörülemez gecikmelere yol açar. Nesne başına tek bir optimum sınırlayıcı kutuyu doğrudan tahmin ederek, YOLOv10 öngörülebilir, ultra düşük gecikmeli çıkarım sağlar.
Ayrıca model, Bütünsel Verimlilik-Doğruluk Odaklı Tasarım kullanır. Mimari, hafif bir sınıflandırma başlığı ve uzamsal-kanal ayrıştırılmış örnekleme dahil olmak üzere çeşitli bileşenleri optimize ederek hesaplama yedekliliğini önemli ölçüde azaltır. Bu, rekabetçi ortalama Hassasiyet (mAP) değerlerini korurken daha düşük parametre sayısı ve daha az FLOP içeren bir mimariyle sonuçlanır.
YOLOv10 hakkında daha fazla bilgi edinin
Kullanım Örneği
YOLOv10, Ultralytics ekosistemine derinlemesine entegre edilmiştir ve Ultralytics Python paketi aracılığıyla kullanımını inanılmaz derecede kolaylaştırır.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)DAMO-YOLO'yu Keşfetmek
Alibaba Group tarafından geliştirilen DAMO-YOLO, hız ve doğrulukta Pareto sınırını zorlamayı hedefleyerek, otomatik Sinirsel Mimari Arama (NAS) yoluyla yüksek verimli ağ yapıları keşfetmeye odaklanır.
DAMO-YOLO Detayları:
- Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
- Kuruluş: Alibaba Group
- Tarih: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Temel Mimari Özellikler
DAMO-YOLO, endüstriyel uygulamalar için uyarlanmış birkaç yeni teknoloji sunar. Modelin temeli, Çok Amaçlı Evrimsel arama yoluyla oluşturulan MAE-NAS Backbone yapısıdır. Bu otomatik süreç, önceden tanımlanmış hesaplama bütçelerine kesinlikle uyan ve doğruluk ile çıkarım gecikmesi arasında ince bir denge kuran omurga yapıları keşfeder.
Ek olarak, mimari bir Efficient RepGFPN boyun yapısı kullanır. Bu özellik piramidi ağı, nesnelerin boyut bakımından büyük farklılıklar gösterdiği hava görüntü analizi gibi karmaşık görevler için kritik olan farklı ölçeklerde özellik füzyonunu iyileştirmek için tasarlanmıştır. Bunu tamamlamak için DAMO-YOLO, son tahmin katmanlarının karmaşıklığını önemli ölçüde azaltan ve çıkarım sırasında değerli hesaplama süresinden tasarruf sağlayan minimalist bir algılama başlığı olan ZeroHead'i uygular.
DAMO-YOLO hakkında daha fazla bilgi edinin
Performans Karşılaştırması
Nesne algılama mimarilerini değerlendirirken, çıkarım hızı, parametre verimliliği ve algılama doğruluğu arasında doğru dengeyi bulmak çok önemlidir. Aşağıdaki tablo, YOLOv10 ve DAMO-YOLO'nun performanslarını kendi model boyutlarına göre karşılaştırır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Karşılaştırmalarda gözlemlendiği gibi, YOLOv10 özellikle nano varyantında TensorRT üzerinde sürekli olarak olağanüstü gecikme profilleri sunar ve DAMO-YOLO'nun benzer modellerinden önemli ölçüde daha az parametre ve FLOP gerektirir. DAMO-YOLO küçük varyantında güçlü mAP sunsa da, YOLOv10 ailesinin parametre verimliliği ve çıkarım gecikmesi, kısıtlı dağıtım ortamları için belirgin bir avantaj sağlar.
Kullanım Durumları ve Öneriler
YOLOv10 ve DAMO-YOLO arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
Ne Zaman YOLOv10 Seçilmeli
YOLOv10 şunlar için güçlü bir seçimdir:
- NMS-Free Gerçek Zamanlı Algılama: Non-Maximum Suppression olmadan uçtan uca algılamadan faydalanan, dağıtım karmaşıklığını azaltan uygulamalar.
- Dengeli Hız-Doğruluk Takasları: Çeşitli model ölçeklerinde çıkarım hızı ile algılama doğruluğu arasında güçlü bir denge gerektiren projeler.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Ne Zaman DAMO-YOLO Seçilmeli
DAMO-YOLO şunlar için önerilir:
- Yüksek Verimli Video Analitiği: Batch-1 veriminin birincil metrik olduğu sabit NVIDIA GPU altyapısında yüksek FPS'li video akışlarını işleme.
- Endüstriyel Üretim Hatları: Montaj hatlarında gerçek zamanlı kalite denetimi gibi özel donanım üzerinde katı GPU gecikme kısıtlamaları olan senaryolar.
- Sinirsel Mimari Arama Araştırması: Otomatik mimari aramanın (MAE-NAS) ve verimli yeniden parametrelendirilmiş ana gövdelerin tespit performansı üzerindeki etkilerini inceleme.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics Avantajı
Her iki model de teknik olarak etkileyici olsa da, üretim için bir mimari seçmek ham metriklerin ötesine bakmayı gerektirir. Ultralytics ekosistemi tarafından yerel olarak desteklenen modellerle geliştirme yapmak, hem geliştiriciler hem de araştırmacılar için benzersiz avantajlar sağlar.
Kullanım Kolaylığı ve İyi Bakılan Ekosistem
Genellikle terk edilme riskiyle karşı karşıya kalan bağımsız akademik depoların aksine, Ultralytics sağlam ve aktif olarak bakılan bir ekosistem sunar. NAS hatlarına büyük ölçüde güvenen modeller için karmaşık ortamlar kurmak göz korkutucu olabilir. Buna karşılık, Ultralytics kapsamlı dokümantasyon ile desteklenen, standartlaştırılmış, sezgisel bir Python API'si ve güçlü bir CLI sağlar. Bu, özel görü çözümleri için pazara çıkış süresini radikal bir şekilde azaltır.
Eğitim Verimliliği ve Bellek Gereksinimleri
Büyük modelleri eğitmek hızla hesaplama açısından pahalı hale gelebilir. Ultralytics YOLO mimarileri, eğitim ve çıkarım sırasında düşük CUDA bellek ayak izleri ile tarihsel olarak bilinir. Bu verimlilik, geliştiricilerin RT-DETR gibi transformer tabanlı modellerle çalışırken yaygın olan bellek yetersizliği hatalarıyla karşılaşmadan, tüketici sınıfı donanımlarda veya uygun maliyetli bulut örneklerinde modelleri eğitmesine olanak tanır.
Ultralytics, en iyi MLOps araçlarıyla yerel olarak entegre olur. Weights & Biases, Comet veya ClearML ile sıfır ek kodla entegrasyonları kullanarak model eğitim ilerlemeni kolayca takip edebilirsin.
Görevler Arasında Çok Yönlülük
A significant limitation of many specialized detection models is their narrow focus. Within the Ultralytics ecosystem, you are not limited to just object detection. The tools seamlessly extend to multiple computer vision tasks, including instance segmentation, image classification, pose estimation, and oriented bounding box (OBB) detection.
Geleceğe Bakış: YOLO26 Evrimi
YOLOv10 NMS'siz çıkarımın öncüsü olurken ve DAMO-YOLO NAS'ın gücünü sergilerken, bilgisayarlı görü alanı hızla ilerlemektedir. En üst düzey çözüm arayan geliştiriciler için Ultralytics YOLO26 modeline göz atmalarını öneririz.
YOLO11'in kesin halefi olarak yayınlanan YOLO26, YOLOv10 tarafından oluşturulan NMS'siz temel üzerine inşa edilmiş ancak bunu önemli ölçüde daha ileriye taşımıştır.
YOLO26'daki temel gelişmeler şunlardır:
- %43'e Kadar Daha Hızlı CPU Çıkarımı: Özellikle uç bilişim ve düşük güç tüketen cihazlar için optimize edilmiştir.
- DFL Kaldırma: Dağıtım Odak Kaybı (Distribution Focal Loss) kaldırılmış olup, daha basit dışa aktarmalar ve çeşitli dağıtım hedefleriyle gelişmiş uyumluluk sağlanmıştır.
- MuSGD İyileştiricisi: Gelişmiş LLM eğitimi kararlılığını ve daha hızlı yakınsamayı doğrudan bilgisayarlı görüye getiren SGD ve Muon'un bir melezi.
- ProgLoss + STAL: Tarım ve uzaktan algılama gibi kullanım durumları için gerekli olan küçük nesne tanımada önemli iyileştirmeler sunan büyük ölçüde geliştirilmiş kayıp fonksiyonları.
Yeni yenilenen Ultralytics Platformu kullanarak geliştiriciler, YOLO26 gibi yeni nesil modelleri sadece birkaç tıklamayla sorunsuz bir şekilde etiketleyebilir, eğitebilir ve dağıtabilir; böylece bilgisayarlı görü hattının hem en son teknoloji hem de geleceğe hazır olmasını sağlarsın.