DAMO-YOLO ve YOLOv7: Gerçek Zamanlı Nesne Tespit Edicilerin Değerlendirilmesi

Bilgisayarlı görüdeki hızlı evrim, hassasiyet ve hesaplama maliyetini dengelemek için tasarlanmış oldukça verimli nesne tespiti modelleri üretti. 2022'de tanıtılan iki önemli model DAMO-YOLO ve YOLOv7'dir. Her ikisi de gerçek zamanlı görü görevlerinin sınırlarını zorlamayı amaçlasa da, sonuçlarına birbirinden çok farklı mimari paradigmalar ve eğitim metodolojileriyle ulaşırlar.

Bu kapsamlı teknik karşılaştırma, makine öğrenimi mühendislerinin kendi bilgisayarlı görü uygulamaları için doğru aracı seçmelerine yardımcı olmak amacıyla her iki modelin farklı yaklaşımlarını keşfeder; mimarilerini, dağıtım potansiyellerini ve performans metriklerini inceler.

Model Kökenleri ve Meta Verileri

Derin teknik analize dalmadan önce, bu iki bilgisayarlı görü modelinin kökenlerini bağlam içine oturtmak esastır.

DAMO-YOLO

Alibaba Group araştırmacıları tarafından geliştirilen DAMO-YOLO, otomatik mimari arama ve damıtma yoluyla hem hızı hem de doğruluğu optimize etmek için tanıtıldı.

DAMO-YOLO hakkında daha fazla bilgi edinin

YOLOv7

2022 ortalarında en gelişmiş teknoloji olarak yayınlanan YOLOv7, dağıtım maliyetlerini artırmadan eğitilebilir "bag-of-freebies" yöntemlerini tanıtarak gerçek zamanlı çıkarımı daha da ileriye taşıdı.

YOLOv7 hakkında daha fazla bilgi edinin

Desteklenen Ekosistem

YOLOv7, Ultralytics ekosistemi içinde resmi olarak desteklenir ve birleşik bir API ile sorunsuz eğitim, doğrulama ve dışa aktarmaya olanak tanır.

Mimari Yenilikler

DAMO-YOLO: NAS ve Damıtma

DAMO-YOLO, maksimum verimliliğe yönelik birkaç ileri teknoloji tekniği içerir:

  • NAS Omurgaları: Gecikmeye duyarlı ortamlar için özel olarak tasarlanmış (MAE-NAS) optimal omurgaları otomatik olarak tasarlamak için Sinir Mimarisi Arama'yı (NAS) kullanır.
  • Verimli RepGFPN: Çoklu ölçeklerde özellik birleştirme verimliliğini önemli ölçüde artıran değiştirilmiş bir Genelleştirilmiş Özellik Piramit Ağı.
  • ZeroHead & AlignedOTA: Hesaplama yükünü azaltmak için hafif bir tespit başlığı ve optimize edilmiş bir etiket atama stratejisi (AlignedOTA) içerir.
  • Damıtma Geliştirme: Parametre sayısını artırmadan daha küçük model varyantlarının performansını artırmak için eğitim sırasında bilgi damıtmadan yoğun bir şekilde yararlanır.

YOLOv7: E-ELAN ve Bag-of-Freebies

YOLOv7, gradyan yolu optimizasyonuna ve sağlam eğitim stratejilerine odaklanarak daha yapısal bir mühendislik yaklaşımı benimsedi.

  • E-ELAN Mimarisi: Genişletilmiş Verimli Katman Birleştirme Ağı, modelin en kısa ve en uzun gradyan yollarını kontrol ederek daha çeşitli özellikleri öğrenmesini sağlar ve etkili bir öğrenme yakınsaması garanti eder.
  • Model Ölçeklendirme: Birleştirme tabanlı modeller için özel olarak tasarlanmış bir bileşik ölçeklendirme yöntemi sunar; yapısal hizalama için derinliği ve genişliği aynı anda ölçeklendirir.
  • Eğitilebilir Bag-of-Freebies: Kimlik bağlantıları olmayan yeniden parametrelendirilmiş evrişimler (RepConv) ve eğitim sırasında çıkarım hızını etkilemeden doğruluğu artıran dinamik etiket atama stratejileri gibi teknikler kullanır.

Performans Analizi

ortalama Hassasiyet (mAP), hız ve verimliliği değerlendirirken, her iki model de farklı segmentleri hedeflese de etkileyici metrikler sergiler. YOLOv7 yüksek doğruluklu GPU dağıtımına odaklanırken, DAMO-YOLO'nun NAS tabanlı yapıları agresif, düşük gecikmeli CPU ve uç dağıtımı hedefler.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Metriklerde görüldüğü gibi, DAMO-YOLO son derece hafif varyantlar (yalnızca 8,5 milyon parametreli küçük model gibi) sağlarken, YOLOv7, YOLOv7x ile COCO veri setinde etkileyici bir 53.1 mAP değerine ulaşarak daha yüksek bir genel doğruluk zirvesine ulaşır.

Ultralytics Ekosistem Avantajı

Teorik mimari önemli olsa da, bir modelin kullanışlılığı ekosistemi tarafından belirlenir. YOLOv7 gibi Ultralytics tarafından desteklenen modeller, iyi bakılan bir ekosistemden ve eşsiz kullanım kolaylığından yararlanır.

  • Performans Dengesi: Ultralytics modelleri, çıkarım hızı ve tespit doğruluğu arasında sürekli olarak optimal bir denge kurar ve bu da onları hem uç cihazlar hem de bulut tabanlı model dağıtımı için ideal hale getirir.
  • Bellek Gereksinimleri: Daha ağır Transformer tabanlı modellerin aksine, Ultralytics YOLO modelleri eğitim sırasında düşük CUDA bellek gereksinimlerini korur. Bu, tüketici sınıfı donanımlarda bile eğitim sürecini hızlandırarak daha büyük yığın boyutlarına izin verir.
  • Çok Yönlülük: Ultralytics çerçevesi, nesne tespitinin ötesine geçerek Örnek Bölütleme ve Poz Tahmini gibi görevlere uzanır ve geliştiricilere eksiksiz bir bilgisayarlı görü araç seti sunar.
Eğitim Verimliliği

Ultralytics paketi, son derece optimize edilmiş veri yükleyicilerden ve önceden eğitilmiş ağırlıklardan yararlanarak veri setlerinden tam olarak eğitilmiş bir modele dakikalar içinde sorunsuz bir şekilde geçmenizi sağlar.

Kod Örneği: Ultralytics ile YOLOv7 Eğitimi

YOLOv7'yi bilgisayarlı görü hattına entegre etmek, Ultralytics Python API'si kullanılarak inanılmaz derecede basittir.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Yeni Standart: YOLO26 ile Tanışın

YOLOv7 ve DAMO-YOLO 2022'de önemli atılımları temsil etse de, yapay zeka görü alanı hızla ilerlemektedir. Bugün yeni projelere başlayan ekipler için önerilen model, Ocak 2026'da piyasaya sürülen son teknoloji Ultralytics YOLO26'dır.

YOLO26, en son yenilikleri bünyesinde barındırarak performans ve kullanılabilirlikte nesilsel bir sıçrama sağlar:

  • Uçtan Uca NMS'siz Tasarım: YOLO26 doğası gereği uçtan ucadır. Maksimum Olmayan Baskılama (NMS) sonrası işlemeyi ortadan kaldırarak, ilk olarak YOLOv10 tarafından öncülük edilen bir paradigma değişimi olan daha hızlı, daha basit bir dağıtım mantığı sunar.
  • MuSGD Optimize Edici: Moonshot AI'nin Kimi K2'si gibi büyük dil modeli yeniliklerinden ilham alan YOLO26, SGD ve Muon hibritini kullanır. Bu optimize edici, oldukça kararlı eğitim dinamikleri ve dramatik ölçüde daha hızlı yakınsama oranları sağlar.
  • %43'e Kadar Daha Hızlı CPU Çıkarımı: Dağılım Odaklı Kayıp'ın (DFL) hedeflenmiş kaldırılması ve derin yapısal iyileştirmelerle YOLO26, düşük güç tüketen uç bilişim için ağır bir şekilde optimize edilmiş olup, GPU olmayan donanımlarda önceki nesillerden daha iyi performans gösterir.
  • ProgLoss + STAL: Hava görüntüleri, robotik ve güvenlik izleme uygulamaları için gerekli bir yetenek olan küçük nesne tanımayı açıkça hedefleyen ve iyileştiren gelişmiş yeni kayıp fonksiyonlarını bünyesinde barındırır.
  • Göreve Özel İyileştirmeler: Standart tespitin ötesinde YOLO26, bölütleme için çok ölçekli prototipleme, poz tahmini için RLE ve Yönelimli Sınırlayıcı Kutular (OBB) için özel açı kayıpları dahil olmak üzere çeşitli görevler için özel geliştirmelere sahiptir.

YOLO26 hakkında daha fazla bilgi edin

İdeal Kullanım Durumları

Doğru mimariyi seçmek tamamen hedef dağıtım ortamına ve proje kısıtlamalarına bağlıdır.

DAMO-YOLO ne zaman seçilmeli:

  • Ham parametre sayısının son derece düşük tutulması gereken (örneğin mikrodenetleyiciler) ağır kısıtlı, kaynak açısından sınırlı uç ortamlarda çalışıyorsan.
  • Özellikle Alibaba'nın tescilli bulut hizmetleriyle entegre edilmiş otomatik makine öğrenimi hatları kullanıyorsan.

YOLOv7 ne zaman seçilmeli:

  • Çapa tabanlı, yüksek doğruluklu çıkarım için halihazırda optimize edilmiş eski GPU hatlarına sahipsen.
  • Yüksek hızlı otonom araçlar veya gelişmiş robotik gibi gerçek zamanlı doğruluğun çok önemli olduğu ortamlarda çalışıyorsan.

YOLO26 ne zaman seçilmeli (Önerilen):

  • Sıfırdan yeni bir bilgisayarlı görü uygulaması oluşturuyorsan ve hem hassasiyet hem de CPU/uç çıkarım hızı konusunda en son teknolojiye ihtiyacın varsa.
  • NMS operatör kısıtlamalarıyla uğraşmadan (CoreML veya TensorRT gibi) hızlı, sorunsuz dağıtıma ihtiyacın varsa.
  • Bulut eğitimi, veri seti yönetimi ve otomatik dağıtım için Ultralytics Platform yeteneklerinin tamamından yararlanmak istiyorsan.

Geliştiriciler, sağlam Ultralytics modelleri ekosisteminden yararlanarak, gerçek dünya uygulamaları için üst düzey tahmin performansı sağlarken mühendislik süresini önemli ölçüde kısaltabilirler.

Yorumlar