Chuyển đến nội dung

DAMO- YOLO so với YOLOv7 Đánh giá các thiết bị phát hiện vật thể thời gian thực

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra các mô hình phát hiện đối tượng hiệu quả cao, được thiết kế để cân bằng giữa độ chính xác và chi phí tính toán. Hai mô hình đáng chú ý được giới thiệu vào năm 2022 là DAMO- YOLOYOLOv7 . Mặc dù cả hai đều hướng đến việc vượt qua giới hạn của các tác vụ thị giác thời gian thực, nhưng chúng đạt được kết quả thông qua các mô hình kiến ​​trúc và phương pháp huấn luyện rất khác nhau.

Bản so sánh kỹ thuật toàn diện này khám phá những cách tiếp cận khác biệt của cả hai mô hình, xem xét kiến ​​trúc, tiềm năng triển khai và các chỉ số hiệu suất của chúng để giúp các kỹ sư máy học lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính cụ thể của họ.

Nguồn gốc và siêu dữ liệu của mô hình

Trước khi đi sâu vào phân tích kỹ thuật, điều cần thiết là phải hiểu rõ bối cảnh nguồn gốc của hai mô hình thị giác máy tính này.

DAMO-YOLO

Được phát triển bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO Phương pháp này được giới thiệu nhằm tối ưu hóa cả tốc độ và độ chính xác thông qua việc tìm kiếm và chắt lọc kiến ​​trúc tự động.

Tìm hiểu thêm về DAMO-YOLO

YOLOv7

Được ra mắt vào giữa năm 2022 với tư cách là sản phẩm tiên tiến nhất, YOLOv7 Đã thúc đẩy khả năng suy luận thời gian thực hơn nữa bằng cách giới thiệu "túi quà tặng miễn phí" có thể huấn luyện được mà không làm tăng chi phí triển khai.

Tìm hiểu thêm về YOLOv7

Hệ sinh thái được hỗ trợ

YOLOv7 được hỗ trợ chính thức trong Ultralytics Hệ sinh thái này cho phép đào tạo, xác thực và xuất dữ liệu liền mạch với API thống nhất.

Đổi mới Kiến trúc

DAMO- YOLO NAS và quá trình chưng cất

DAMO- YOLO Tích hợp nhiều kỹ thuật tiên tiến hướng đến hiệu quả tối đa:

  • Hệ thống xương sống NAS: Sử dụng thuật toán tìm kiếm kiến ​​trúc mạng nơ-ron (NAS) để tự động thiết kế hệ thống xương sống tối ưu (MAE-NAS) phù hợp với môi trường yêu cầu độ trễ thấp.
  • RepGFPN hiệu quả: Một mạng lưới kim tự tháp đặc trưng tổng quát được sửa đổi, giúp tăng cường đáng kể hiệu quả hợp nhất đặc trưng trên nhiều quy mô.
  • ZeroHead & AlignedOTA: Kết hợp đầu dò nhẹ và chiến lược gán nhãn tối ưu (AlignedOTA) để giảm chi phí tính toán.
  • Tăng cường bằng phương pháp chưng cất kiến ​​thức: Tận dụng tối đa phương pháp chưng cất kiến ​​thức trong quá trình huấn luyện để nâng cao hiệu suất của các biến thể mô hình nhỏ hơn mà không làm tăng số lượng tham số của chúng.

YOLOv7 : E-ELAN và Túi Quà Tặng Miễn Phí

YOLOv7 Họ đã áp dụng cách tiếp cận kỹ thuật kết cấu hơn, tập trung vào tối ưu hóa đường dẫn gradient và các chiến lược huấn luyện mạnh mẽ.

  • Kiến trúc E-ELAN: Mạng tổng hợp lớp hiệu quả mở rộng (Extended Efficient Layer Aggregation Network) cho phép mô hình học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, đảm bảo sự hội tụ học tập hiệu quả.
  • Điều chỉnh tỷ lệ mô hình: Giới thiệu phương pháp điều chỉnh tỷ lệ phức hợp được thiết kế riêng cho các mô hình dựa trên sự ghép nối, điều chỉnh tỷ lệ chiều sâu và chiều rộng đồng thời để căn chỉnh cấu trúc.
  • Mô hình Trainable Bag-of-Freebies: Sử dụng các kỹ thuật như tích chập tái tham số hóa (RepConv) không có kết nối đồng nhất và các chiến lược gán nhãn động, giúp tăng độ chính xác trong quá trình huấn luyện mà không ảnh hưởng đến tốc độ suy luận.

Phân tích hiệu suất

Khi đánh giá độ chính xác trung bình ( mAP ) , tốc độ và hiệu quả, cả hai mô hình đều thể hiện các chỉ số ấn tượng, mặc dù chúng nhắm đến các phân khúc hơi khác nhau. YOLOv7 tập trung mạnh vào độ chính xác cao GPU triển khai, trong khi DAMO- YOLO Các cấu trúc có nguồn gốc từ NAS của 's hướng đến độ trễ thấp mạnh mẽ. CPU và triển khai tại biên.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Như đã thấy trong các số liệu, trong khi DAMO- YOLO Cung cấp các phiên bản cực kỳ nhẹ (như mẫu nhỏ gọn chỉ với 8,5 triệu thông số), YOLOv7 Đạt được độ chính xác tổng thể cao hơn ở mức tối đa, với YOLOv7x đạt mức ấn tượng 53.1%. mAP trên COCO tập dữ liệu.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù kiến ​​trúc lý thuyết rất quan trọng, nhưng tính thực tiễn của một mô hình lại phụ thuộc vào hệ sinh thái của nó. Các mô hình được hỗ trợ bởi Ultralytics , chẳng hạn như YOLOv7 , được hưởng lợi từ hệ sinh thái được duy trì tốtsự dễ sử dụng vượt trội.

  • Cân bằng hiệu suất: Ultralytics Các mô hình này luôn đạt được sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác phát hiện, khiến chúng trở nên lý tưởng cho cả thiết bị biên và triển khai mô hình trên nền tảng đám mây.
  • Yêu cầu bộ nhớ: Không giống như các mẫu dựa trên Transformer nặng hơn, Ultralytics YOLO Các mô hình duy trì yêu cầu bộ nhớ CUDA thấp trong quá trình huấn luyện. Điều này cho phép kích thước lô lớn hơn, giúp tối ưu hóa quá trình huấn luyện ngay cả trên phần cứng cấp người tiêu dùng.
  • Tính linh hoạt: Cái Ultralytics Khung phần mềm này mở rộng phạm vi hoạt động vượt ra ngoài việc phát hiện đối tượng, bao gồm cả các tác vụ như phân đoạn đối tượngước lượng tư thế , cung cấp cho các nhà phát triển một bộ công cụ thị giác máy tính hoàn chỉnh.

Hiệu quả huấn luyện

Cái Ultralytics Gói phần mềm này cho phép bạn chuyển đổi liền mạch từ tập dữ liệu sang mô hình đã được huấn luyện hoàn chỉnh chỉ trong vài phút, tận dụng các trình tải dữ liệu được tối ưu hóa cao và trọng số được huấn luyện trước.

Ví dụ mã: Huấn luyện YOLOv7 với Ultralytics

Tích hợp YOLOv7 Việc tích hợp nó vào quy trình xử lý hình ảnh máy tính của bạn vô cùng đơn giản bằng cách sử dụng... Ultralytics Python API.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Tiêu chuẩn mới: Giới thiệu YOLO26

Trong khi YOLOv7 và DAMO- YOLO Đã có những bước đột phá đáng kể trong năm 2022, lĩnh vực trí tuệ nhân tạo thị giác đang phát triển nhanh chóng. Đối với các nhóm bắt đầu các dự án mới hiện nay, mô hình được khuyến nghị là Ultralytics YOLO26 tiên tiến, được phát hành vào tháng 1 năm 2026.

YOLO26 mang đến một bước tiến vượt bậc về hiệu năng và khả năng sử dụng, tích hợp những cải tiến hiện đại nhất:

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 được thiết kế hoàn toàn từ đầu đến cuối. Bằng cách loại bỏ Non-Maximum Suppression ( ) ( ) NMS (Bằng cách xử lý hậu kỳ), nó mang lại logic triển khai nhanh hơn, đơn giản hơn — một sự thay đổi mô hình ban đầu được tiên phong bởi YOLOv10 .)
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến mô hình ngôn ngữ quy mô lớn như Kimi K2 của Moonshot AI, YOLO26 sử dụng sự kết hợp của... SGD và Muon. Trình tối ưu hóa này đảm bảo động lực huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn đáng kể.
  • Suy luận CPU nhanh hơn tới 43%: Với việc loại bỏ có chủ đích tổn hao tiêu điểm phân phối (DFL) và những cải tiến cấu trúc sâu sắc, YOLO26 được tối ưu hóa mạnh mẽ cho điện toán biên công suất thấp, vượt trội hơn các thế hệ trước trên các tác vụ không phải... GPU phần cứng.
  • ProgLoss + STAL: Tích hợp các hàm mất mát tiên tiến mới nhằm mục tiêu và cải thiện khả năng nhận dạng vật thể nhỏ, một khả năng thiết yếu cho các ứng dụng trong ảnh chụp từ trên không, robot và giám sát an ninh .
  • Cải tiến dành riêng cho từng nhiệm vụ: Ngoài tính năng phát hiện tiêu chuẩn, YOLO26 còn có các cải tiến được thiết kế riêng cho nhiều nhiệm vụ khác nhau, bao gồm tạo mẫu đa tỷ lệ cho phân đoạn, RLE cho ước tính tư thế và các tổn thất góc cụ thể cho hộp giới hạn định hướng (OBB) .

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng lý tưởng

Việc lựa chọn kiến ​​trúc phù hợp hoàn toàn phụ thuộc vào môi trường triển khai mục tiêu và các ràng buộc của dự án.

Khi nào nên chọn DAMO-YOLO:

  • Bạn đang làm việc trong môi trường biên có nhiều hạn chế về tài nguyên, nơi số lượng tham số thô phải được giữ ở mức cực kỳ thấp (ví dụ: bộ vi điều khiển).
  • Bạn đang sử dụng các quy trình học máy tự động được tích hợp đặc biệt với các dịch vụ đám mây độc quyền của Alibaba.

Khi nào nên lựa chọn YOLOv7 :

  • Bạn có di sản GPU các quy trình đã được tối ưu hóa cho suy luận dựa trên điểm neo, với độ chính xác cao.
  • Bạn đang hoạt động trong môi trường mà độ chính xác theo thời gian thực là tối quan trọng, chẳng hạn như xe tự hành tốc độ cao hoặc robot tiên tiến.

Khi nào nên chọn YOLO26 (Khuyến nghị):

  • Bạn đang xây dựng một ứng dụng thị giác máy tính mới từ đầu và cần những công nghệ tiên tiến nhất về cả độ chính xác và khả năng xử lý. CPU Tốc độ suy luận cạnh.
  • Bạn cần triển khai nhanh chóng, liền mạch (chẳng hạn như xuất sang CoreML hoặc TensorRT ) mà không cần phải xử lý các vấn đề phức tạp. NMS Các ràng buộc của toán tử.
  • Bạn muốn tận dụng tối đa khả năng của Nền tảng Ultralytics cho việc đào tạo trên đám mây, quản lý tập dữ liệu và triển khai tự động.

Bằng cách tận dụng hệ sinh thái mạnh mẽ của Ultralytics Nhờ các mô hình này, các nhà phát triển có thể giảm đáng kể thời gian thiết kế trong khi vẫn đảm bảo hiệu suất dự đoán hàng đầu cho các ứng dụng thực tế của họ.


Bình luận