YOLOv10 - YOLOv7 Karşılaştırması: Detaylı Teknik İnceleme
Doğru nesne algılama modelini seçmek, bilgisayarla görme projeleri için çok önemlidir ve performansı, hızı ve kaynak kullanımını etkiler. Bu sayfa, ihtiyaçlarınıza en uygun olanı seçmenize yardımcı olmak için You Only Look Once (YOLO) ailesindeki önemli iki model olan YOLOv10 ve YOLOv7 arasında teknik bir karşılaştırma sunmaktadır. Mimarilerini, performans metriklerini ve ideal kullanım durumlarını inceleyeceğiz.
YOLOv10
Mayıs 2024'te Tsinghua Üniversitesi araştırmacıları tarafından tanıtılan YOLOv10, gerçek zamanlı nesne algılama alanında önemli bir ilerlemeyi temsil etmektedir. Temel yeniliği, çıkarım sırasında Non-Maximum Suppression (NMS) ihtiyacını ortadan kaldırarak uçtan uca nesne algılama sağlamaktır. Bu atılım, hesaplama yükünü azaltır ve çıkarım gecikmesini düşürerek dağıtımı daha verimli hale getirir.
Teknik Detaylar:
- Yazarlar: Ao Wang, Hui Chen, Lihao Liu, ve diğerleri.
- Kuruluş: Tsinghua University
- Tarih: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Belgeler: https://docs.ultralytics.com/models/yolov10/
Mimari ve Temel Özellikler
YOLOv10, hız-doğruluk dengesini optimize etmeyi amaçlayan çeşitli mimari yenilikler sunar:
- NMS'siz Eğitim: Etiket ataması için tutarlı çift atamalar kullanarak YOLOv10, gereksiz tahminlerden kaçınır ve NMS son işlem adımına olan ihtiyacı ortadan kaldırır. Bu, dağıtım hattını basitleştirir ve modeli gerçekten uçtan uca hale getirir.
- Bütünsel Verimlilik-Doğruluk Odaklı Tasarım: Model mimarisi, hem verimlilik hem de performans için bütünsel olarak optimize edilmiştir. Bu, hafif bir sınıflandırma başlığı eklemeyi ve model yeteneğini geliştirirken hesaplama yedekliliğini azaltmak için uzamsal-kanal ayrıştırmalı alt örneklemeyi kullanmayı içerir.
- Anchor'sız Yaklaşım: Diğer modern YOLO modelleri gibi, anchor'sız bir dedektör tasarımı benimser, bu da algılama başlığını basitleştirir ve genellemeyi iyileştirir.
- Sorunsuz Ultralytics Entegrasyonu: YOLOv10, basit bir Python API ve güçlü CLI komutları ile kolaylaştırılmış bir kullanıcı deneyiminden yararlanarak Ultralytics ekosistemine tamamen entegre edilmiştir. Bu, eğitimi, doğrulamayı ve dağıtımı son derece kolaylaştırır.
Güçlü Yönler
- Son Teknoloji Verimlilik: NMS içermeyen tasarım ve mimari optimizasyonları, daha hızlı çıkarım hızlarına ve önemli ölçüde daha düşük gecikmeye yol açar; bu da gerçek zamanlı uygulamalar için kritik öneme sahiptir.
- Rekabetçi Doğruluk: YOLOv10, önceki modellere kıyasla model boyutunu ve hesaplama maliyetini önemli ölçüde azaltırken güçlü doğruluğunu korur.
- Basitleştirilmiş Dağıtım: NMS'nin kaldırılması, özellikle uç cihazlarda dağıtımı kolaylaştıran gerçek bir uçtan uca algılama hattı oluşturur.
- Mükemmel Ölçeklenebilirlik: Nano (N)'dan Ekstra büyük (X)'e kadar çeşitli modeller sunarak, kaynak kısıtlamalı uç donanımlarından güçlü bulut sunucularına kadar çeşitli performans ihtiyaçlarını karşılar.
Zayıflıklar
- Daha Yeni Model: Yakın zamanda yayınlandığı için, topluluk desteği ve üçüncü taraf entegrasyonlarının sayısı, YOLOv7 veya Ultralytics YOLOv8 gibi daha köklü modellere kıyasla daha az kapsamlı olabilir.
YOLOv10 hakkında daha fazla bilgi edinin
YOLOv7
Temmuz 2022'de yayınlanan YOLOv7, hız ve doğruluğun olağanüstü dengesiyle nesne algılama için hızla yeni bir standart belirledi. Academia Sinica Bilgi Bilimi Enstitüsü'ndeki araştırmacılar tarafından geliştirilen bu model, çıkarım maliyetlerini artırmadan performansı artırmak için "eğitilebilir bedava hediyeler çantası" olarak bilinen çeşitli mimari iyileştirmeler ve eğitim stratejileri tanıttı.
Teknik Detaylar:
- Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
- Kuruluş: Institute of Information Science, Academia Sinica, Taiwan
- Tarih: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Belgeler: https://docs.ultralytics.com/models/yolov7/
Mimari ve Temel Özellikler
YOLOv7'nin mimarisi, yayınlandığı sırada gerçek zamanlı nesne algılamanın sınırlarını zorlayan çeşitli temel geliştirmeleri içermektedir:
- Genişletilmiş Verimli Katman Toplama Ağları (E-ELAN): Bu gelişmiş ağ yapısı, daha iyi doğruluk ve daha hızlı yakınsamaya yol açarak modelin verimli gradyan akışını korurken çeşitli özellikleri öğrenme yeteneğini geliştirir.
- Birleştirme Tabanlı Modeller için Model Ölçeklendirme: YOLOv7, farklı hesaplama bütçeleri genelinde performansı optimize etmek için model derinliğini ve genişliğini akıllıca ayarlayan bileşik ölçeklendirme yöntemleri sunmuştur.
- Eğitilebilir Ücretsiz Avantajlar Paketi: Çıkarım sırasında herhangi bir ek yük eklemeden doğruluğu artırmak için kaba-ince kılavuzlu yardımcı bir başlık kullanmak gibi gelişmiş eğitim tekniklerinden yararlanır.
Güçlü Yönler
- Yüksek mAP: Mükemmel nesne algılama doğruluğu sunar, bu da onu hassasiyetin çok önemli olduğu uygulamalar için güçlü bir seçim haline getirir.
- Hızlı Çıkarım: Özellikle GPU donanımında olmak üzere birçok gerçek zamanlı görev için uygun olan rekabetçi çıkarım hızları sunar.
- Yerleşik: Daha uzun süredir kullanılabilir olması sayesinde YOLOv7, daha geniş bir topluluk tabanından, daha fazla eğitimden ve çeşitli projelerde daha geniş bir benimsenmeden yararlanır.
Zayıflıklar
- NMS Bağımlılığı: YOLOv10'dan farklı olarak, YOLOv7, genel çıkarım gecikmesine eklenen ve dağıtım hattını karmaşıklaştıran NMS işlem sonrası adımına dayanır.
- Daha Az Verimli: YOLOv10 ile karşılaştırıldığında, YOLOv7 modelleri genellikle benzer bir doğruluk seviyesi için daha fazla parametreye ve daha yüksek FLOP'lara sahiptir, bu da onları daha az verimli kılar.
YOLOv7 hakkında daha fazla bilgi edinin
Performans Karşılaştırması: YOLOv10 - YOLOv7
Performansı karşılaştırırken, YOLOv10 verimlilik konusunda belirgin bir avantaj göstermektedir. En doğrudan karşılaştırma, YOLOv10-M ve YOLOv7-L arasındadır. Aşağıdaki tabloda gösterildiği gibi, YOLOv10-M, YOLOv7-L'nin %51,4'üne kıyasla %51,3'lük neredeyse aynı mAPval'ye ulaşır. Ancak, YOLOv10-M önemli ölçüde daha verimlidir: daha hızlıdır (TensorRT üzerinde 5,48 ms'ye karşı 6,84 ms), parametrelerin yarısından daha azına sahiptir (15,4M'ye karşı 36,9M) ve çok daha az hesaplama kaynağı gerektirir (59,1B FLOP'a karşı 104,7B FLOP). Bu, YOLOv10'un çok daha fazla verimlilikle karşılaştırılabilir doğruluk sağlayan üstün mimari tasarımını vurgular.
Model | boyut (piksel) |
mAPval 50-95 |
Hız CPU ONNX (ms) |
Hız T4 TensorRT10 (ms) |
parametreler (M) |
FLOP'lar (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Sonuç
Hem YOLOv10 hem de YOLOv7 güçlü nesne algılama modelleridir, ancak YOLOv10 gerçek zamanlı algılama verimliliğinde bir sonraki adımı temsil etmektedir. NMS'siz mimarisi, doğruluktan ödün vermeden daha hızlı, daha hafif ve dağıtımı daha kolay olan gerçek bir uçtan uca çözüm sunar. Yeni projeler için, özellikle uç yapay zekayı hedefleyen veya minimum gecikme süresi gerektiren projeler için YOLOv10 önerilen seçimdir.
YOLOv7 hala yetenekli bir model olmasına rağmen, NMS'ye olan bağımlılığı ve daha az verimli mimarisi, onu eski projeler veya kapsamlı topluluk kaynaklarının öncelikli bir husus olduğu senaryolar için daha uygun hale getiriyor. En iyi performansı, kullanım kolaylığını ve kapsamlı bir ekosistemi arayan geliştiriciler için YOLOv10 gibi Ultralytics modelleri üstün bir deneyim sunar. Ultralytics HUB ile entegrasyon, eğitimi ve dağıtımı daha da basitleştirerek gelişmiş bilgisayar görüşünü her zamankinden daha erişilebilir hale getirir.
Diğer Modelleri İnceleyin
Daha fazla inceleme için, Ultralytics belgelerinde bulunan diğer son teknoloji modelleri göz önünde bulundurun:
- Ultralytics YOLOv8: Algılama, segmentasyon ve poz tahmini dahil olmak üzere birden fazla görme görevinde mükemmel olan çok yönlü bir modeldir.
- YOLOv9: Derin ağlardaki bilgi kaybını gidermek için Programlanabilir Gradyan Bilgisi (PGI) gibi yenilikler sunar.
- YOLO11: En son resmi Ultralytics modeli olup, en son teknoloji performansı, çoklu görev desteği ve benzersiz kullanım kolaylığı sunmaktadır.