İçeriğe geç

YOLOv6-3.0 - YOLOv7: Endüstriyel Hız ve Doğruluğa Derinlemesine Bir Bakış

Optimum nesne algılama modelini seçmek, çıkarım hızı, doğruluk ve hesaplama verimliliğini dengelemeye bağlı olan kritik bir karardır. Bu teknik karşılaştırma, endüstri odaklı bir çerçeve olan YOLOv6-3.0 ile eğitilebilir "bedava hediyeler" kullanarak doğruluk sınırlarını zorlamak için tasarlanmış bir model olan YOLOv7 arasındaki farklılıkları araştırır. Geliştiriciler, mimarilerini, kıyaslamalarını ve ideal kullanım durumlarını analiz ederek, hangi çözümün kendi özel dağıtım kısıtlamalarına en uygun olduğunu belirleyebilirler.

YOLOv6-3.0: Endüstriyel Verimlilik için Tasarlandı

YOLOv6-3.0, gerçek zamanlı hız ve donanım verimliliğinin olmazsa olmaz olduğu endüstriyel uygulamalar için özel olarak tasarlanmış YOLO serisinde önemli bir evrimi temsil eder. Meituan tarafından geliştirilen bu sürüm, gecikme ve doğruluk arasındaki dengeyi optimize etmeye odaklanarak, onu uç bilgi işlem ve yüksek verimli ortamlar için zorlu bir seçim haline getiriyor.

Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Kuruluş:Meituan
Tarih: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Belgeler:https://docs.ultralytics.com/models/yolov6/

Mimari ve Temel Özellikler

YOLOv6-3.0'ın mimarisi, donanım farkında tasarım konsepti üzerine kurulmuştur. Modelin daha iyi özellik öğrenimi için eğitim sırasında karmaşık yapılar kullanmasına izin verirken, çıkarım sırasında daha basit, daha hızlı yapılara çöken yeniden parametrelendirilebilir bir backbone (EfficientRep) kullanır. Bu teknik, bellek erişim maliyetlerini önemli ölçüde azaltır ve çıkarım gecikmesini iyileştirir.

Temel mimari yenilikler şunları içerir:

  • Çift Yönlü Birleştirme (BiC): Bu modül, özellik yayılımını geliştirerek yerelleştirme doğruluğunu artırır.
  • Ankraj Destekli Eğitim (AAT): Eğitimi stabilize etmek ve performansı artırmak için ankraj tabanlı ve ankraj içermeyen dedektörlerin faydalarını birleştiren bir strateji.
  • Kendiliğinden Damıtma: YOLOv6-3.0, öğrenci modelinin kendi öğretmen modelinin tahminlerinden öğrendiği ve harici büyük modeller gerektirmeden doğruluğu iyileştirdiği kendiliğinden damıtma tekniklerini kullanır.

Güçlü ve Zayıf Yönler

YOLOv6-3.0'ın temel gücü, çıkarım hızında yatmaktadır. Kıyaslamaların gösterdiği gibi, daha küçük varyantlar (YOLOv6-3.0n gibi) GPU donanımında olağanüstü derecede hızlıdır ve bu da onları yüksek kare hızlarını işlemesi gereken video analiz hatları için ideal hale getirir. Ek olarak, modelin model nicelemesi desteği, kaynak kısıtlı donanımda dağıtımı kolaylaştırır.

Ancak, YOLOv6'nın önceki sürümleri öncelikle nesne algılama ile sınırlıydı ve segmentasyon veya poz tahmini desteği sunan daha kapsamlı çerçevelerde bulunan yerel çok yönlülükten yoksundu. Ayrıca, son derece verimli olmasına rağmen, ekosistem desteği diğer topluluk odaklı projeler kadar kapsamlı değildir.

İdeal Kullanım Senaryoları

YOLOv6-3.0 aşağıdaki gibi senaryolarda mükemmeldir:

  • Üretim hatları: Konveyör bantlarında yüksek hızlı kusur tespiti gerektiğinde.
  • Perakende analitiği: Hesaplama kaynaklarının sınırlı olduğu kuyruk yönetimi ve envanter takibi için.
  • Gömülü sistemler: NVIDIA Jetson serisi gibi cihazlara dağıtım.

YOLOv6 hakkında daha fazla bilgi edinin

YOLOv7: Eğitilebilir Ücretsiz Avantajlar Paketini Optimize Etme

YOLOv7, çıkarım maliyetini artırmadan doğruluğu en üst düzeye çıkarmak için mimari reformlara büyük önem vererek farklı bir yaklaşım benimser. Yazarlar, eğitim sırasında modelin performansını artıran ancak çıkarım mimarisini veya hızını değiştirmeyen "eğitilebilir ücretsiz avantajlar" (trainable bag-of-freebies) adı verilen optimizasyon yöntemlerini tanıttı.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica, Tayvan
Tarih: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Belgeler:https://docs.ultralytics.com/models/yolov7/

Mimari ve Temel Özellikler

YOLOv7, E-ELAN (Genişletilmiş Verimli Katman Toplama Ağı)'nı sunar. Bu mimari, ağın etkili bir şekilde yakınsamasını sağlayarak, en kısa ve en uzun gradyan yollarını kontrol ederek modelin daha çeşitli özellikleri öğrenmesini sağlar.

Öne çıkan özellikler şunlardır:

  • Model Ölçeklendirme: Yalnızca derinliği veya genişliği ölçeklendiren önceki yöntemlerin aksine, YOLOv7, modeli yeniden boyutlandırmak yerine katmanları birleştiren ve modelin optimizasyon özelliklerini koruyan bileşik bir ölçeklendirme yöntemi önermektedir.
  • Yardımcı Başlık Eğitimi: Model, ana başlığa yardımcı olmak için eğitim sırasında yardımcı bir başlık kullanır. Bu derin denetim tekniği, ara katmanların öğrenilmesini iyileştirir, ancak hızı korumak için çıkarım sırasında kaldırılır.
  • Planlanan Yeniden Parametrelendirilmiş Evrişim: Performans düşüşünü önlemek için belirli katmanlardaki özdeşlik bağlantılarından kaçınan, yeniden parametrelendirmenin özel bir uygulamasıdır.

Güçlü ve Zayıf Yönler

YOLOv7, COCO veri kümesinde etkileyici ortalama ortalama hassasiyet (mAP) puanları elde ederek yüksek doğruluğu ile ünlüdür. Gerçek zamanlı kısıtlamalar ile yüksek doğruluklu detect ihtiyacı arasındaki boşluğu etkili bir şekilde kapatır.

Olumsuz tarafı ise, mimari karmaşıklık ve yardımcı başlıkların kullanımı, eğitim sürecini daha basit mimarilere kıyasla daha fazla bellek yoğun hale getirebilir. Çıkarım sırasında verimli olmasına rağmen, eğitim aşaması, özellikle daha büyük "E6E" varyantları için önemli miktarda GPU belleği gerektirir.

İdeal Kullanım Senaryoları

YOLOv7 özellikle aşağıdakiler için çok uygundur:

  • Detaylı Gözetim: Karmaşık güvenlik görüntülerinde küçük nesneleri veya ince hareketleri tanımlama.
  • Otonom Sürüş: Güvenlik ve navigasyon için hassasiyetin kritik olduğu durumlar.
  • Bilimsel Araştırma: Tıbbi görüntüleme veya biyolojik araştırmalar gibi yüksek AP ölçütleri gerektiren uygulamalar.

YOLOv7 hakkında daha fazla bilgi edinin

Performans Karşılaştırması: Metrikler ve Analiz

Aşağıdaki tablo, YOLOv6-3.0 ve YOLOv7 varyantlarının COCO doğrulama veri kümesi üzerindeki performansını karşılaştırmaktadır. Model boyutu, hesaplama yükü (FLOPs) ve hız arasındaki ödünleşimleri vurgulamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Kıyaslamaları Yorumlama

YOLOv7x en yüksek doğruluğa (%53,1 mAP) ulaşırken, önemli ölçüde daha fazla parametre (71,3M) ve FLOP (189,9B) gerektirir. Buna karşılık, YOLOv6-3.0n aşırı hız için optimize edilmiştir ve bir T4 GPU'da 1,17 ms çıkarım elde ederek, daha düşük doğrulukla birlikte en büyük YOLOv7 varyantından yaklaşık 10 kat daha hızlıdır.

Veriler açık bir ayrımı ortaya koymaktadır: YOLOv6-3.0 düşük gecikmeli ortamlarda baskındır, oysa YOLOv7, maksimum algılama kalitesi öncelikli olduğunda ve donanım kaynakları daha bol olduğunda üstündür.

Ultralytics'in Avantajı: Ham Metriklerin Ötesinde

YOLOv6 ve YOLOv7 güçlü yetenekler sunarken, bilgisayarla görme alanı hızla gelişmektedir. Geleceğe dönük, çok yönlü ve kullanıcı dostu bir çözüm arayan geliştiriciler ve araştırmacılar için, Ultralytics YOLO11 ve YOLOv8 ham kıyaslamaların ötesine geçen cazip avantajlar sunar.

Kullanım Kolaylığı ve Ekosistem

Gelişmiş yapay zeka modellerini benimsemedeki en önemli engellerden biri, uygulama karmaşıklığıdır. Ultralytics modelleri, kolaylaştırılmış kullanıcı deneyimiyle ünlüdür. Basit bir Python API ve CLI ile kullanıcılar, yalnızca birkaç satır kodla modelleri eğitebilir, doğrulayabilir ve dağıtabilir. Bu, genellikle karmaşık ortam kurulumları ve yapılandırma ince ayarları gerektiren araştırma odaklı depolarla çelişir.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Görevler Arası Çok Yönlülük

Öncelikle kesinlikle tespit için olan önceki YOLO sürümlerinin aksine, Ultralytics modelleri yerel olarak çok modludur. Tek bir çerçeve şunları destekler:

Performans Dengesi ve Verimlilik

YOLO11 gibi Ultralytics modelleri, hız ve doğruluk arasında optimum dengeyi sağlamak üzere tasarlanmıştır. Genellikle YOLOv6 gibi verimli mimarilerle ilişkili çıkarım hızlarını korurken YOLOv7'den daha yüksek mAP elde ederler. Ek olarak, Ultralytics modelleri eğitim verimliliği için tasarlanmıştır ve RT-DETR gibi transformatör tabanlı modellere kıyasla daha düşük GPU bellek kullanımı gerektirir, bu da deney döngülerini hızlandırır ve bulut işlem maliyetlerini azaltır.

İyi Yönetilen Ekosistem

Bir Ultralytics modeli seçmek, desteklenen bir ekosisteme dahil olmak anlamına gelir. Buna şunlar dahildir:

  • Sık Güncellemeler: Mimari ve ağırlıklarda düzenli iyileştirmeler.
  • Geniş Dışa Aktarma Desteği: Herhangi bir cihazda dağıtım için ONNX, TensorRT, CoreML ve TFLite'e sorunsuz dışa aktarma.
  • Topluluk: Yardımın her zaman ulaşılabilir olmasını sağlayan büyük bir geliştirici topluluğu ve kapsamlı dokümantasyon.

Sonuç

Hem YOLOv6-3.0 hem de YOLOv7, bilgisayar görüşü alanına önemli katkılarda bulunmuştur. YOLOv6-3.0, ultra hızlı çıkarım ve niceleme desteği gerektiren endüstriyel uygulamalar için başvurulacak seçimdir. YOLOv7, algılama doğruluğunun çok önemli olduğu ve donanım kısıtlamalarının esnek olduğu senaryolar için güçlü bir rakip olmaya devam etmektedir.

Ancak, son teknoloji performansı, benzersiz kullanım kolaylığı, çok yönlülük ve dağıtım esnekliğini bir araya getiren bütünsel bir çözüm için, Ultralytics YOLO11 modern yapay zeka geliştirme için üstün bir seçenek olarak öne çıkıyor. İster uç noktalara dağıtım yapıyor olun, ister bulutta ölçekleme yapıyor olun, Ultralytics ekosistemi başarılı olmak için gereken araçları sağlar.

Daha fazla bilgi için YOLOX ile ilgili karşılaştırmalarımızı inceleyebilir veya dönüştürücü tabanlı algılama için RT-DETR'nin yeteneklerini gözden geçirebilirsiniz.


Yorumlar