İçeriğe geç

YOLOX - YOLOv7 Karşılaştırması: Teknik Bir İnceleme

Doğru nesne algılama modelini seçmek, herhangi bir bilgisayarla görü projesi için kritik bir karardır ve performansı, hızı ve dağıtım fizibilitesini doğrudan etkiler. Bu sayfa, YOLO ailesindeki iki etkili model olan YOLOX ve YOLOv7 arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Bilinçli bir seçim yapmanıza yardımcı olmak için mimari farklılıklarını, performans kıyaslamalarını ve ideal kullanım durumlarını inceleyeceğiz.

YOLOX: Ankrajsız Mükemmellik

YOLOX, önceki YOLO sürümlerine göre performansı artırırken algılama hattını basitleştirmeyi amaçlayan, yüksek performanslı, anchor-free (bağlantısız) bir dedektör olarak tanıtıldı. Tasarım felsefesi, eğitim sürecini kolaylaştırarak akademik araştırma ve endüstriyel uygulama arasındaki boşluğu doldurur.

Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 2021-07-18
Arşiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Belgeler: https://yolox.readthedocs.io/en/latest/

Mimari ve Temel Özellikler

YOLOX, kendisini öncekilerden ayıran çeşitli temel mimari yeniliklerle öne çıkmaktadır:

  • Anchor'sız Tasarım: YOLOX, önceden tanımlanmış anchor kutularını ortadan kaldırarak tasarım parametrelerinin sayısını ve anchor ayarlama ile ilişkili karmaşıklığı azaltır. Bu, modeli daha esnek hale getirir ve özellikle COCO gibi veri kümelerinde çeşitli şekil ve boyutlara sahip nesneleri daha iyi genellemesini sağlar.
  • Ayrıştırılmış Head (Decoupled Head): Sınıflandırma ve yerelleştirmeyi aynı anda gerçekleştiren birleşik head'lerden farklı olarak, YOLOX ayrıştırılmış bir head kullanır. Bu ayrımın, iki görev arasındaki bir çakışmayı çözdüğü, eğitim sırasında daha hızlı yakınsamaya ve daha yüksek doğruluğa yol açtığı gösterilmiştir.
  • Gelişmiş Veri Artırma: Model, sağlamlığını artırmak ve aşırı öğrenmeyi önlemek için MixUp ve Mosaic dahil olmak üzere güçlü veri artırma tekniklerinden yararlanır. Veri artırma hakkındaki kılavuzumuzda bu teknikler hakkında daha fazla bilgi edinebilirsiniz.
  • SimOTA Etiket Ataması: YOLOX, SimOTA (Basitleştirilmiş Optimal Transport Ataması) adı verilen gelişmiş bir etiket atama stratejisi sunar. Eğitim verimliliğini artıran ve modelin daha iyi özellikler öğrenmesine yardımcı olan eğitim için pozitif örnekleri dinamik olarak atar.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Basitleştirilmiş İşlem Hattı: Anchor'suz yaklaşım, anchor kümeleme ve ayarlama ihtiyacını ortadan kaldırarak eğitim ve dağıtım sürecini basitleştirir.
  • Güçlü Genelleme: Anchor-free tasarım ve güçlü veri artırmanın birleşimi, modelin yeni alanlara ve veri kümelerine iyi genelleme yapmasına yardımcı olur.
  • İyi Performans Dengesi: YOLOX, farklı model ölçeklerinde hız ve doğruluk arasında iyi bir denge sunar.

Zayıflıklar:

  • Yeni Modeller Tarafından Geride Bırakıldı: Verimli olmasına rağmen, YOLOX, YOLOv7 ve sonraki Ultralytics modelleri gibi daha yeni mimariler tarafından hız ve doğruluk açısından geride bırakılmıştır.
  • Ekosistem Sınırlamaları: YOLOX, Ultralytics gibi entegre bir ekosistemin parçası değildir, bu da dağıtımı ve MLOps'u daha zorlu hale getirebilir. Ultralytics HUB gibi araçlarla sorunsuz entegrasyondan yoksundur.

YOLOX hakkında daha fazla bilgi edinin

YOLOv7: Hız ve Doğruluğun Zirvesi

YOLOv7 piyasaya sürüldüğünde, hem hız hem de doğrulukta dikkat çekici iyileştirmeler göstererek gerçek zamanlı nesne dedektörleri için yeni bir son teknoloji belirledi. Bunu, çeşitli mimari optimizasyonlar ve eğitim stratejileri sunarak başardı.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica, Taiwan
Tarih: 2022-07-06
Arşiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Belgeler: https://docs.ultralytics.com/models/yolov7/

Mimari ve Temel Özellikler

YOLOv7'nin üstün performansı, gelişmiş mimari bileşenlerine ve eğitim iyileştirmelerine dayanmaktadır:

  • E-ELAN (Genişletilmiş Verimli Katman Toplama Ağı): backbone'daki bu temel modül, gradyan akışını bozmadan öğrenmeyi geliştirerek ağın gradyan yollarını kontrol ederek daha çeşitli özellikleri öğrenmesini sağlar.
  • Eğitilebilir Bedava Hediyeler (Trainable Bag-of-Freebies): YOLOv7, çıkarım maliyetini artırmadan doğruluğu artıran bir dizi eğitim yöntemi sunar. Bu, kaba-dan-inceye yol gösterici eğitim ve öğrenme sürecine rehberlik eden yardımcı başlıklar gibi teknikleri içerir.
  • Model Ölçeklendirme: Model, farklı model boyutlarında verimli performans sağlayarak, birleştirme tabanlı mimariler için optimize edilmiş derinlik ve genişlik için bileşik ölçeklendirme yöntemleri sunar.
  • Yeniden Parametreleştirilmiş Evrişim: YOLOv7, performansı artırmak için modelin yeniden parametrelendirilmesini kullanır; bu teknik o zamandan beri modern ağ tasarımında popüler hale gelmiştir.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Olağanüstü Hız-Doğruluk Dengesi: YOLOv7, yüksek mAP ve hızlı çıkarım hızlarının olağanüstü bir dengesini sunarak onu gerçek zamanlı uygulamalar için ideal hale getirir.
  • Eğitim Verimliliği: "Bedava Hediye Çantası" yaklaşımı, verimli eğitimle yüksek doğruluk elde etmesini sağlar.
  • Kanıtlanmış Performans: Standart veri kümelerinde gerçek zamanlı nesne dedektörleri için yeni bir ölçüt oluşturmuştur.

Zayıflıklar:

  • Mimari Karmaşıklık: E-ELAN, yardımcı başlıklar ve diğer özelliklerin kombinasyonu, mimariyi daha basit modellerden daha karmaşık hale getirir.
  • Yoğun Kaynak Gerektiren Eğitim: Daha büyük YOLOv7 modellerini eğitmek önemli miktarda işlem kaynağı ve GPU belleği gerektirebilir.
  • Sınırlı Çok Yönlülük: Resmi depoda poz tahmini gibi görevler için topluluk tarafından yönlendirilen uzantılar bulunsa da, daha yeni Ultralytics modelleri gibi doğal olarak çoklu görevli bir çerçeve değildir.

YOLOv7 hakkında daha fazla bilgi edinin

Performans Karşılaştırması: YOLOX - YOLOv7

Performansı karşılaştırırken, her iki model de farklı hesaplama bütçelerine uyacak çeşitli boyutlar sunar. YOLOX, Nano'dan X'e kadar ölçeklenebilir bir aile sağlarken, YOLOv7 daha büyük varyantlarıyla en üst düzey performansı sunmaya odaklanır.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Tablodan, YOLOv7 modellerinin genellikle daha yüksek mAP puanları elde ettiği açıkça görülmektedir. Örneğin, YOLOv7l, YOLOXx'i doğrulukta (%51,4'e karşı %51,1) önemli ölçüde daha az parametre (36,9M'ye karşı 99,1M) ve FLOP (104,7B'ye karşı 281,9B) ile geride bırakıyor ve bir T4 GPU'da çok daha hızlıdır. Bu, YOLOv7'nin üstün mimari verimliliğini vurgulamaktadır.

Neden Ultralytics YOLO Modelleri Tercih Edilen Seçimdir

YOLOX ve YOLOv7 önemli gelişmeler olmasına rağmen, YOLOv8 ve YOLO11 gibi daha yeni Ultralytics YOLO modelleri daha modern, çok yönlü ve kullanıcı dostu bir deneyim sunar.

  • Kullanım Kolaylığı: Ultralytics modelleri, eğitim, doğrulama ve dağıtımı kolaylaştıran, kolaylaştırılmış bir Python API'si, kapsamlı belgelendirme ve basit CLI komutları içeren geliştirici düşünülerek tasarlanmıştır.
  • İyi Yönetilen Ekosistem: Aktif geliştirme, geniş bir açık kaynak topluluğu, sık güncellemeler ve uçtan uca MLOps için Ultralytics HUB gibi araçlarla sorunsuz entegrasyon ile sağlam bir ekosistemden yararlanın.
  • Çok Yönlülük: YOLOv8 ve YOLO11 gibi modeller, kullanıma hazır nesne tespiti, segmentasyon, sınıflandırma, poz tahmini ve yönlendirilmiş nesne tespiti (OBB) özelliklerini destekleyen gerçek çoklu görev çerçeveleridir.
  • Performans ve Verimlilik: Ultralytics modelleri, hız ve doğruluk arasında mükemmel bir denge sağlar, verimli bellek kullanımı için optimize edilmiştir ve uç cihazlardan bulut sunucularına kadar geniş bir donanım yelpazesi için uygundur.

Sonuç

Hem YOLOX hem de YOLOv7, bilgisayar görüşünde mümkün olanın sınırlarını zorlayan güçlü nesne tespit modelleridir. YOLOX, tespit hattını basitleştiren yenilikçi ankrajsız tasarımıyla övgüye değerdir. YOLOv7, olağanüstü hızı ve doğruluğu ile öne çıkar ve bu da onu zorlu gerçek zamanlı uygulamalar için güçlü bir seçim yapar.

Ancak, günümüz geliştiricileri ve araştırmacıları için YOLOv8 ve YOLO11 gibi Ultralytics modelleri bir sonraki adımı temsil etmektedir. Üstün performans, daha fazla çok yönlülük ve daha kapsamlı, kullanıcı dostu bir ekosistem sunarak, onları modern, yüksek performanslı görme yapay zeka çözümleri oluşturmak için önerilen seçim haline getirmektedir.

Diğer Model Karşılaştırmaları

Daha fazla bilgi için, diğer model karşılaştırmalarını inceleyin:



📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar