YOLOv5 so với DAMO-YOLO: So sánh Kỹ thuật Toàn diện

Lĩnh vực thị giác máy tính thời gian thực đang liên tục phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực tìm kiếm sự cân bằng hoàn hảo giữa độ chính xác, tốc độ và tính khả dụng. Hai mô hình nổi bật đã định hình hành trình này là Ultralytics YOLOv5 và DAMO- YOLO của Alibaba.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về kiến trúc, các chỉ số hiệu suất và phương pháp đào tạo của chúng để giúp bạn chọn mô hình phù hợp cho lần triển khai tiếp theo.

Hình nền mẫu

Trước khi đi sâu vào các sắc thái kỹ thuật, điều quan trọng là phải hiểu rõ nguồn gốc và triết lý thiết kế chính đằng sau mỗi mô hình thị giác có ảnh hưởng này.

Ultralytics YOLOv5

Được phát triển bởi Glenn Jocher và đội ngũ tại Ultralytics, YOLOv5 đã trở thành một tiêu chuẩn công nghiệp kể từ khi ra mắt. Được xây dựng nguyên bản trên framework PyTorch, nó ưu tiên trải nghiệm phát triển tinh gọn và khả năng triển khai mạnh mẽ ngay từ đầu.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Tài liệu:Tài liệu Ultralytics YOLOv5

Tìm hiểu thêm về YOLOv5

DAMO-YOLO

Được tạo bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO-YOLO tập trung mạnh vào Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) và các kỹ thuật chưng cất nâng cao. Nó đẩy giới hạn lý thuyết về hiệu suất dành riêng cho phần cứng, phục vụ mạnh mẽ cho các môi trường nghiên cứu và biên yêu cầu tinh chỉnh cực độ.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

Đổi mới Kiến trúc

Cả hai mô hình đều tận dụng các khái niệm cấu trúc độc đáo để đạt được hiệu suất thời gian thực, mặc dù cách tiếp cận của chúng khác biệt đáng kể.

YOLOv5 Tính ổn định và tính linh hoạt

YOLOv5 Nó sử dụng kiến trúc xương sống CSP (Cross Stage Partial) được sửa đổi kết hợp với phần cổ PANet (Path Aggregation Network). Cấu trúc này rất hiệu quả, giảm thiểu việc sử dụng bộ nhớ CUDA trong cả quá trình huấn luyện và suy luận.

Một trong số YOLOv5 Điểm mạnh lớn nhất của nó là tính linh hoạt trong nhiều tác vụ . Ngoài việc dự đoán hộp giới hạn, nó còn cung cấp các kiến trúc chuyên dụng cho phân đoạn ảnh và phân loại ảnh , cho phép các nhà phát triển chuẩn hóa quy trình xử lý hình ảnh của họ xung quanh một khung sườn duy nhất, thống nhất.

DAMO-YOLO: Tìm kiếm kiến trúc tự động

Đổi mới cốt lõi của DAMO-YOLO là Backbone MAE-NAS. Sử dụng tìm kiếm tiến hóa đa mục tiêu, đội ngũ Alibaba đã khám phá ra các backbone cân bằng động giữa độ chính xác detect và tốc độ suy luận.

Ngoài ra, nó còn có phần cổ Efficient RepGFPN để cải thiện việc hợp nhất đặc trưng—rất có lợi cho các biến thể tỷ lệ phức tạp thường thấy trong phân tích hình ảnh vệ tinh. Thiết kế ZeroHead của nó đơn giản hóa các lớp dự đoán cuối cùng để giảm độ trễ, mặc dù việc tạo cấu trúc phức tạp này có thể làm cho kiến trúc trở nên cứng nhắc và khó sửa đổi hơn cho các ứng dụng tùy chỉnh.

Yêu cầu bộ nhớ

Các kiến trúc dựa trên Transformer thường gặp khó khăn với việc tiêu thụ VRAM cao. Cả hai YOLOv5 và DAMO- YOLO Sử dụng các thiết kế tích chập hiệu quả để giữ cho dung lượng bộ nhớ ở mức thấp, nhưng Ultralytics Các mô hình này được tối ưu hóa đáng kể cho GPU dành cho người tiêu dùng, giúp chúng dễ tiếp cận hơn nhiều đối với các nhà nghiên cứu độc lập và các công ty khởi nghiệp.

Hiệu suất và số liệu

Việc đánh giá các bộ phát hiện vật thể thời gian thực đòi hỏi phải xem xét một ma trận các yếu tố sau: mAP (Độ chính xác trung bình), tốc độ suy luận và các tham số kích thước mô hình.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Trong khi DAMO- YOLO đạt được khả năng cạnh tranh cao mAP điểm số ở các mức tham số nhất định, YOLOv5 Nó luôn thể hiện tốc độ TensorRT vượt trội và số lượng tham số cực thấp cho các cấu hình nano và nhỏ. Sự cân bằng hiệu năng này đảm bảo YOLOv5 Hoạt động hiệu quả trong nhiều kịch bản triển khai tại biên khác nhau.

Hiệu quả huấn luyện và hệ sinh thái

Độ chính xác lý thuyết của một mô hình chỉ tốt khi khả năng triển khai thực tế của nó tốt. Đây là nơi các mô hình khác biệt đáng kể.

Sự phức tạp của quá trình chưng cất

DAMO-YOLO phụ thuộc nhiều vào phương pháp huấn luyện đa giai đoạn. Nó triển khai kỹ thuật chưng cất tri thức (knowledge distillation) theo mô hình thầy-trò được gọi là AlignedOTA. Mặc dù điều này giúp trích xuất hiệu suất tối đa từ mô hình học sinh, nhưng nó yêu cầu huấn luyện ban đầu một mô hình giáo viên khổng lồ. Điều này làm tăng đáng kể thời gian tính toán, chi phí năng lượng và phần cứng cần thiết, tạo ra một nút thắt cổ chai cho các nhóm ML linh hoạt.

Cái Ultralytics Ưu điểm: Dễ sử dụng

Ngược lại, hệ sinh thái Ultralytics nổi tiếng toàn cầu về các API trực quan và hiệu quả huấn luyện của nó. Được hỗ trợ bởi sự phát triển tích cực và một cộng đồng mã nguồn mở rộng lớn, các nhà phát triển có thể huấn luyện, xác thực và triển khai các mô hình một cách liền mạch.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

Ultralytics Ngoài ra, nó còn cung cấp hỗ trợ tích hợp cho việc theo dõi thí nghiệm thông qua các công cụ như... Weights & Biases Và Comet Học máy (ML), tạo ra quy trình làm việc liền mạch.

Các trường hợp sử dụng thực tế

YOLOv5 vượt trội trong các môi trường sản xuất tốc độ cao. Khả năng xuất dễ dàng của nó khiến nó trở thành lựa chọn hàng đầu cho phân tích bán lẻ thông minh, phát hiện lỗi sản xuất tốc độ cao và tích hợp vào các ứng dụng di động thông qua CoreML.
DAMO-YOLO rất phù hợp cho việc đánh giá chuẩn học thuật nghiêm ngặt và các kịch bản nơi có sẵn tài nguyên tính toán lớn để thực hiện các lần chạy huấn luyện chưng cất dài, nhằm mục đích vắt kiệt những cải thiện mAP nhỏ nhất cho các mục tiêu phần cứng cụ thể, cố định.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv5 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv5

YOLOv5 là một lựa chọn tốt cho:

Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có nơi hồ sơ track ổn định lâu dài, tài liệu phong phú và sự hỗ trợ cộng đồng lớn của YOLOv5 được đánh giá cao.
Huấn luyện hạn chế tài nguyên: Môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 là một lợi thế.
Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng, bao gồm ONNX, TensorRT, CoreML và TFLite.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Bước tiến tiếp theo: YOLO26

Nếu bạn đang bắt đầu một dự án mới, điều rất nên làm là hướng đến tương lai. Ultralytics YOLO26 được xây dựng dựa trên nền tảng vững chắc của... YOLOv5 , tích hợp những tiến bộ mang tính cách mạng, định nghĩa lại trí tuệ nhân tạo thị giác tiên tiến nhất.

Tại sao nên nâng cấp lên YOLO26?

Được phát hành và nhận được sự hoan nghênh rộng rãi, YOLO26 là một hệ thống end-to-end hoàn chỉnh. Nó sở hữu thiết kế End-to-End NMS -Free , loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression, giúp triển khai nhanh hơn và đơn giản hơn đáng kể.

Những cải tiến chính trong YOLO26 bao gồm:

Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện rất ổn định và khả năng hội tụ nhanh chóng.
Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho điện toán biên, làm cho nó hoàn hảo cho các thiết bị IoT hoạt động mà không cần GPU chuyên dụng.
ProgLoss + STAL: Các hàm mất mát tiên tiến cải thiện đáng kể khả năng nhận diện các vật thể nhỏ, điều này rất quan trọng đối với hình ảnh từ máy bay không người lái trên không và robot học.
Cải tiến chuyên biệt theo tác vụ: Từ hàm mất mát góc chuyên biệt cho Hộp giới hạn định hướng (OBB) đến Ước tính Log-Likelihood Dư (RLE) cho ước tính tư thế chính xác, YOLO26 xử lý các miền phức tạp một cách dễ dàng.

Kết luận

Cả YOLOv5 và DAMO-YOLO đều đã khẳng định vị trí của mình trong lịch sử detect đối tượng. DAMO-YOLO vẫn là một nghiên cứu hấp dẫn về Tìm kiếm Kiến trúc Mạng thần kinh và chưng cất. Tuy nhiên, đối với các tổ chức ưu tiên một hệ sinh thái được bảo trì tốt, dễ sử dụng và con đường nhanh chóng để đưa vào sản xuất, các mô hình Ultralytics vẫn là vô song.

Chúng tôi đặc biệt khuyên bạn nên sử dụng Nền tảng Ultralytics để chú thích, huấn luyện và triển khai các mô hình thế hệ tiếp theo, chẳng hạn như YOLO26, đảm bảo quy trình xử lý hình ảnh máy tính của bạn luôn sẵn sàng cho tương lai, nhanh chóng và có độ chính xác vượt trội.

Đọc thêm

Khám phá công nghệ RT-DETR dựa trên biến áp cho các ứng dụng đòi hỏi độ chính xác cao.
Tìm hiểu về mẫu YOLO11 thế hệ trước.
Khám phá cách tối ưu hóa triển khai với OpenVINO.