Chuyển đến nội dung

DAMO- YOLO so với YOLOv5 : So sánh kỹ thuật toàn diện

Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một bước then chốt trong quá trình phát triển thị giác máy tính, đòi hỏi sự đánh giá cẩn thận về độ chính xác, tốc độ suy luận và độ phức tạp tích hợp. Bài phân tích này so sánh DAMO- YOLO , một mô hình có độ chính xác cao do Tập đoàn Alibaba phát triển, với Ultralytics YOLOv5 , một kiến trúc tiêu chuẩn công nghiệp được đánh giá cao nhờ sự cân bằng giữa hiệu suất, tốc độ và hệ sinh thái thân thiện với nhà phát triển. Chúng tôi khám phá những cải tiến về kiến trúc, chỉ số chuẩn và các kịch bản ứng dụng lý tưởng của họ để giúp bạn đưa ra quyết định sáng suốt.

DAMO- YOLO : Kiến trúc hướng đến độ chính xác

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO
Tài liệu: DAMO- YOLO README

DAMO- YOLO Đây là nỗ lực đáng kể của Tập đoàn Alibaba nhằm mở rộng ranh giới về độ chính xác phát hiện trong khi vẫn duy trì độ trễ hợp lý. Công nghệ này tích hợp các công nghệ tìm kiếm kiến trúc nơ-ron (NAS) tiên tiến và các chiến lược hợp nhất tính năng mới để vượt trội hơn nhiều đối thủ cùng thời trên các chuẩn mực tĩnh.

Đổi mới kiến trúc

DAMO- YOLO tự phân biệt mình thông qua một số thành phần phức tạp về mặt kỹ thuật được thiết kế để khai thác hiệu suất tối đa từ mạng:

  • Xương sống MAE-NAS: Không giống như các mô hình có xương sống được thiết kế thủ công, DAMO- YOLO Sử dụng Tìm kiếm Kiến trúc Nơ-ron (NAS) được hướng dẫn bởi nguyên lý Entropy Cực đại. Điều này tạo ra một cấu trúc xương sống được tối ưu hóa đặc biệt cho hiệu quả trích xuất đặc trưng trong các điều kiện ràng buộc khác nhau.
  • RepGFPN hiệu quả: Mô hình sử dụng Mạng Kim tự tháp Đặc trưng Tổng quát được Tham số hóa (RepGFPN) . Mô-đun cổ tiên tiến này cải thiện các FPN tiêu chuẩn bằng cách tối ưu hóa việc hợp nhất đặc trưng trên các thang đo khác nhau và tận dụng việc tham số hóa lại để giảm độ trễ suy luận mà không làm giảm độ chính xác.
  • ZeroHead: Để giảm thiểu chi phí tính toán của đầu phát hiện, DAMO- YOLO giới thiệu ZeroHead , một đầu tách rời nhẹ có khả năng xử lý hiệu quả các tác vụ phân loại và hồi quy.
  • AlignedOTA: Tính ổn định và độ chính xác của quá trình huấn luyện được tăng cường bởi Aligned Optimal Transport Assignment (AlignedOTA), một chiến lược gán nhãn động giúp căn chỉnh các anchor dự đoán với các đối tượng ground truth hiệu quả hơn so với các quy tắc so khớp tĩnh.
  • Nâng cao khả năng chắt lọc: Quá trình đào tạo thường bao gồm việc chắt lọc kiến thức, trong đó mô hình "giáo viên" lớn hơn hướng dẫn việc học của mô hình "học sinh" nhỏ hơn, truyền đạt các biểu diễn tính năng phong phú hơn.

Thiết kế hướng nghiên cứu

DAMO- YOLO được tối ưu hóa mạnh mẽ để đạt được hiệu suất cao mAP trên các điểm chuẩn như COCO . Việc sử dụng NAS và chưng cất khiến nó trở thành một công cụ mạnh mẽ cho nghiên cứu học thuật và các tình huống mà từng phần trăm độ chính xác đều quan trọng, ngay cả khi phải trả giá bằng sự phức tạp trong đào tạo.

Điểm mạnh và Điểm yếu

Ưu điểm chính của DAMO- YOLO là độ chính xác phát hiện thô của nó. Bằng cách tận dụng NAS và thiết kế cổ tiên tiến, nó thường đạt điểm Độ chính xác trung bình ( mAP ) cao hơn so với các mẫu tương đương cùng thế hệ. Nó vượt trội trong việc nhận dạng đối tượng trong các bối cảnh phức tạp, nơi việc phân biệt chi tiết các đặc điểm là rất quan trọng.

Tuy nhiên, những lợi ích này đi kèm với sự đánh đổi. Việc phụ thuộc vào xương sống NAS và các đường ống chưng cất làm tăng độ phức tạp của việc đào tạo và tích hợp. Không giống như bản chất "cắm là chạy" của một số giải pháp thay thế, việc thiết lập một đường ống đào tạo tùy chỉnh cho DAMO- YOLO có thể tốn nhiều tài nguyên. Ngoài ra, hệ sinh thái của nó tương đối nhỏ hơn, nghĩa là ít tài nguyên cộng đồng, hướng dẫn và tích hợp của bên thứ ba hơn so với các nền tảng đã được thiết lập lâu đời hơn.

Tìm hiểu thêm về DAMO-YOLO

Ultralytics YOLOv5 : Tiêu chuẩn cho AI thực tế

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Tài liệu:https://docs.ultralytics.com/models/yolov5/

Kể từ khi ra mắt, Ultralytics YOLOv5 đã khẳng định vị thế là giải pháp hàng đầu cho các ứng dụng thị giác máy tính thực tế. Sản phẩm đạt được sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và khả năng sử dụng, được hỗ trợ bởi một hệ sinh thái đơn giản hóa mọi giai đoạn của vòng đời học máy, từ khâu tuyển chọn dữ liệu đến triển khai.

Kiến trúc và khả năng sử dụng

YOLOv5 sử dụng xương sống CSPDarknet53 kết hợp với cổ PANet , kiến trúc được lựa chọn vì tính mạnh mẽ và hiệu quả của chúng trên GPU Và CPU phần cứng. Mặc dù sử dụng phương pháp phát hiện dựa trên mỏ neo - một phương pháp đã được chứng minh - nhưng sức mạnh thực sự của nó nằm ở kỹ thuật và hệ sinh thái của nó:

  • Trải nghiệm người dùng được sắp xếp hợp lý: YOLOv5 nổi tiếng với triết lý "Từ Không Đến Anh Hùng". Các nhà phát triển có thể thiết lập môi trường, đào tạo trên các tập dữ liệu tùy chỉnh và chạy suy luận chỉ với vài dòng mã.
  • Tính linh hoạt: Vượt xa khả năng phát hiện đối tượng tiêu chuẩn, YOLOv5 hỗ trợ phân đoạn trường hợpphân loại hình ảnh , cho phép người dùng xử lý nhiều tác vụ thị giác trong một khuôn khổ duy nhất.
  • Khả năng xuất: Mô hình hỗ trợ xuất liền mạch sang nhiều định dạng bao gồm ONNX , TensorRT , CoreML , Và TFLite , đảm bảo triển khai dễ dàng trên mọi thứ, từ máy chủ đám mây đến thiết bị biên .
  • Hiệu quả bộ nhớ: Ultralytics các mô hình thường thể hiện mức sử dụng bộ nhớ thấp hơn trong quá trình đào tạo so với các kiến trúc phức tạp dựa trên máy biến áp hoặc các mô hình nặng về NAS, khiến chúng có thể truy cập được trên nhiều loại phần cứng hơn.

Lợi thế của hệ sinh thái

Hệ sinh thái Ultralytics là một công cụ tăng tốc phát triển mạnh mẽ. Với tài liệu phong phú, diễn đàn cộng đồng năng động và cập nhật thường xuyên, các nhà phát triển sẽ tiết kiệm thời gian gỡ lỗi và dành nhiều thời gian hơn cho việc đổi mới. Việc tích hợp với các công cụ như Ultralytics HUB giúp đơn giản hóa hơn nữa việc quản lý và đào tạo mô hình.

Tại sao các nhà phát triển lựa chọn YOLOv5

YOLOv5 vẫn là lựa chọn hàng đầu vì ưu tiên tính dễ sử dụnghiệu quả đào tạo . Các trọng số được đào tạo sẵn có và mạnh mẽ, cho phép học chuyển giao nhanh chóng. Tốc độ suy luận của nó cực kỳ ấn tượng, lý tưởng cho các ứng dụng thời gian thực như phân tích video, dẫn đường tự động và kiểm tra công nghiệp.

Trong khi các mô hình mới hơn như YOLO11 đã giới thiệu các kiến trúc không có điểm neo và cải thiện hiệu suất hơn nữa, YOLOv5 vẫn là công cụ đáng tin cậy, được hỗ trợ tốt và có khả năng cao cho vô số hệ thống sản xuất.

Tìm hiểu thêm về YOLOv5

So sánh hiệu suất

Trong một so sánh trực tiếp, sự khác biệt giữa hai mô hình trở nên rõ ràng: DAMO- YOLO nghiêng về việc tối đa hóa độ chính xác xác thực ( mAP ), trong khi YOLOv5 tối ưu hóa tốc độ suy luận và tính thực tiễn của việc triển khai. Bảng dưới đây nêu bật rằng trong khi DAMO- YOLO các mô hình thường đạt được cao hơn mAP điểm số ở các tham số tương tự, YOLOv5 các mẫu (đặc biệt là các biến thể Nano và Small) cung cấp tốc độ vượt trội trên CPU Và GPU , thường là yếu tố quyết định cho việc triển khai biên.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Mã ứng dụng thực tế

Một trong những lập luận mạnh mẽ nhất cho Ultralytics Mô hình là sự đơn giản của tích hợp. Dưới đây là một ví dụ đã được xác minh về mức độ dễ dàng của một YOLOv5 mô hình có thể được tải và sử dụng để suy luận bằng cách sử dụng PyTorch Hub, thể hiện bản chất thân thiện với nhà phát triển của hệ sinh thái.

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source (URL or local path)
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the results
results.show()

Kết luận

Cả hai kiến trúc đều đóng vai trò riêng biệt trong lĩnh vực thị giác máy tính. DAMO- YOLO là một lựa chọn đáng gờm cho nghiên cứu học thuật và các cuộc thi, nơi mục tiêu duy nhất là đạt được độ chính xác tối ưu và độ phức tạp của các quy trình đào tạo dựa trên NAS là chấp nhận được.

Tuy nhiên, đối với đại đa số các nhà phát triển, nhà nghiên cứu và doanh nghiệp, Ultralytics YOLOv5 (và phiên bản kế nhiệm YOLO11 ) vẫn là lựa chọn hàng đầu. Những lợi thế của Hệ sinh thái được bảo trì tốt là không thể phủ nhận: API đơn giản, tài liệu hướng dẫn toàn diện và các tùy chọn xuất dữ liệu liền mạch giúp rút ngắn đáng kể thời gian đưa sản phẩm ra thị trường. Với Cân bằng Hiệu suất xử lý hiệu quả các ràng buộc thời gian thực và tính linh hoạt trong các tác vụ như phân đoạn và phân loại, Ultralytics các mô hình cung cấp nền tảng vững chắc, có khả năng thích ứng trong tương lai để xây dựng các giải pháp AI thực tế.

Đối với những người đang tìm kiếm hiệu suất và tính năng mới nhất tuyệt đối, chúng tôi thực sự khuyên bạn nên khám phá YOLO11 , được xây dựng dựa trên di sản của YOLOv5 với độ chính xác và hiệu quả thậm chí còn cao hơn.

Khám Phá Các So Sánh Khác

Để đánh giá sâu hơn về mẫu máy phù hợp nhất với nhu cầu của bạn, hãy khám phá những so sánh chi tiết sau:


Bình luận