YOLOv5 và DAMO-YOLO: So sánh kỹ thuật toàn diện

Bối cảnh của computer vision thời gian thực không ngừng phát triển, với các nhà nghiên cứu và kỹ sư đang nỗ lực đạt được sự cân bằng hoàn hảo giữa độ chính xác, tốc độ và khả năng sử dụng. Hai mô hình nổi bật đã định hình hành trình này là Ultralytics YOLOv5DAMO-YOLO của Alibaba.

Hướng dẫn này cung cấp một phân tích kỹ thuật chuyên sâu về kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng để giúp bạn chọn mô hình phù hợp cho lần triển khai tiếp theo.

Thông tin nền tảng về mô hình

Trước khi đi sâu vào các sắc thái kỹ thuật, điều quan trọng là phải hiểu nguồn gốc và triết lý thiết kế cơ bản đằng sau mỗi mô hình thị giác có ảnh hưởng này.

Ultralytics YOLOv5

Được phát triển bởi Glenn Jocher và đội ngũ tại Ultralytics, YOLOv5 đã trở thành tiêu chuẩn công nghiệp kể từ khi ra mắt. Được xây dựng nguyên bản trên framework PyTorch, nó ưu tiên trải nghiệm nhà phát triển hợp lý và các khả năng triển khai mạnh mẽ ngay từ khi bắt đầu.

Tìm hiểu thêm về YOLOv5

DAMO-YOLO

Được tạo ra bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO tập trung mạnh vào Neural Architecture Search (NAS) và các kỹ thuật chưng cất nâng cao. Nó đẩy giới hạn lý thuyết về hiệu suất dành riêng cho phần cứng, phục vụ mạnh mẽ cho các môi trường nghiên cứu và biên (edge) yêu cầu tinh chỉnh cực cao.

Tìm hiểu thêm về DAMO-YOLO

Đổi mới kiến trúc

Cả hai mô hình đều tận dụng các khái niệm cấu trúc độc đáo để đạt được hiệu suất thời gian thực, mặc dù cách tiếp cận của chúng khác biệt đáng kể.

YOLOv5: Sự ổn định và linh hoạt

YOLOv5 sử dụng backbone Modified CSP (Cross Stage Partial) kết hợp với neck PANet (Path Aggregation Network). Cấu trúc này cực kỳ hiệu quả, giảm thiểu việc sử dụng bộ nhớ CUDA trong cả quá trình huấn luyện và suy luận (inference).

Một trong những điểm mạnh nhất của YOLOv5 là khả năng linh hoạt giữa các tác vụ. Ngoài dự đoán bounding box, nó cung cấp các kiến trúc chuyên dụng cho image segmentationimage classification, cho phép các nhà phát triển tiêu chuẩn hóa các quy trình thị giác của họ xung quanh một framework duy nhất, gắn kết.

DAMO-YOLO: Tìm kiếm kiến trúc tự động

Sự đổi mới cốt lõi của DAMO-YOLO là MAE-NAS Backbone. Sử dụng tìm kiếm tiến hóa đa mục tiêu (Multi-Objective Evolutionary search), đội ngũ Alibaba đã tìm ra các backbone cân bằng độ chính xác phát hiện và tốc độ suy luận một cách năng động.

Ngoài ra, nó còn có neck Efficient RepGFPN để cải thiện khả năng kết hợp tính năng—rất có lợi cho các biến thể quy mô phức tạp thường thấy trong phân tích hình ảnh vệ tinh. Thiết kế ZeroHead của nó đơn giản hóa các lớp dự đoán cuối cùng để giảm độ trễ, mặc dù việc tạo cấu trúc phức tạp này có thể làm cho kiến trúc trở nên cứng nhắc và khó sửa đổi cho các ứng dụng tùy chỉnh.

Yêu cầu bộ nhớ

Các kiến trúc dựa trên Transformer thường gặp khó khăn với mức tiêu thụ VRAM cao. Cả YOLOv5 và DAMO-YOLO đều sử dụng các thiết kế tích chập hiệu quả để giữ cho dấu chân bộ nhớ thấp, nhưng các mô hình của Ultralytics được tối ưu hóa đáng kể cho GPU cấp độ người dùng, khiến chúng dễ tiếp cận hơn nhiều đối với các nhà nghiên cứu độc lập và các startup.

Hiệu suất và chỉ số

Đánh giá các trình phát hiện đối tượng thời gian thực đòi hỏi phải xem xét một ma trận gồm mAP (mean Average Precision), tốc độ suy luận và các thông số kích thước mô hình.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Trong khi DAMO-YOLO đạt được điểm mAP rất cạnh tranh ở một số số lượng tham số nhất định, YOLOv5 liên tục chứng minh tốc độ TensorRT vượt trội và số lượng tham số cực thấp cho các cấu hình nano và small. Sự cân bằng hiệu suất này đảm bảo YOLOv5 hoạt động hiệu quả trên nhiều kịch bản triển khai biên (edge) khác nhau.

Hiệu quả huấn luyện và hệ sinh thái

Độ chính xác lý thuyết của một mô hình chỉ tốt khi khả năng triển khai thực tế của nó tốt. Đây là nơi các mô hình khác biệt đáng kể.

Sự phức tạp của chưng cất

DAMO-YOLO dựa nhiều vào phương pháp huấn luyện đa giai đoạn. Nó triển khai một kỹ thuật chưng cất kiến thức giáo viên-học sinh được gọi là AlignedOTA. Mặc dù điều này trích xuất hiệu suất tối đa từ mô hình học sinh, nhưng nó yêu cầu phải huấn luyện ban đầu một mô hình giáo viên khổng lồ. Điều này làm tăng đáng kể thời gian tính toán, chi phí năng lượng và phần cứng cần thiết, tạo ra nút thắt cổ chai cho các đội ngũ ML nhanh nhạy.

Lợi thế của Ultralytics: Sự dễ sử dụng

Ngược lại, hệ sinh thái Ultralytics nổi tiếng thế giới về các API trực quan và hiệu quả huấn luyện. Được hỗ trợ bởi sự phát triển tích cực và một cộng đồng nguồn mở khổng lồ, các nhà phát triển có thể huấn luyện, xác thực và triển khai các mô hình một cách liền mạch.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

Ultralytics cũng cung cấp hỗ trợ tích hợp cho theo dõi thử nghiệm thông qua các công cụ như Weights & Biases và Comet ML, tạo ra một quy trình làm việc không ma sát.

Các trường hợp sử dụng trong thực tế

  • YOLOv5 vượt trội trong các môi trường sản xuất tốc độ cao. Khả năng xuất mô hình đơn giản giúp nó trở thành lựa chọn hàng đầu cho phân tích bán lẻ thông minh, phát hiện lỗi sản xuất tốc độ cao và tích hợp vào các ứng dụng di động thông qua CoreML.
  • DAMO-YOLO rất phù hợp cho các điểm chuẩn học thuật nghiêm ngặt và các kịch bản có sẵn tài nguyên tính toán khổng lồ để thực hiện các lần chạy huấn luyện chưng cất kéo dài, nhằm mục đích vắt kiệt những cải tiến mAP nhỏ cho các mục tiêu phần cứng cố định, cụ thể.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLOv5 và DAMO-YOLO phụ thuộc vào yêu cầu dự án cụ thể, các hạn chế triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv5

YOLOv5 là một lựa chọn mạnh mẽ cho:

  • Các hệ thống sản xuất đã được kiểm chứng: Các triển khai hiện có nơi mà hồ sơ ổn định lâu dài, tài liệu phong phú và sự hỗ trợ lớn từ cộng đồng của YOLOv5 được đánh giá cao.
  • Huấn luyện trong môi trường hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreML, và TFLite.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Bước tiến tiếp theo: YOLO26

Nếu bạn đang bắt đầu một dự án mới, bạn rất nên hướng tới tương lai. Ultralytics YOLO26 được xây dựng trên nền tảng đáng kinh ngạc của YOLOv5, kết hợp những tiến bộ mang tính cách mạng giúp tái định nghĩa AI thị giác tiên tiến nhất.

Tại sao nên nâng cấp lên YOLO26?

Được phát hành với sự hoan nghênh rộng rãi, YOLO26 là end-to-end nguyên bản. Nó có Thiết kế NMS-Free End-to-End, loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression để triển khai nhanh hơn và đơn giản hơn đáng kể.

Những đổi mới chính trong YOLO26 bao gồm:

  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, sự kết hợp giữa SGD và Muon này đảm bảo việc huấn luyện ổn định cao và hội tụ nhanh.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho điện toán biên, làm cho nó trở nên hoàn hảo cho các thiết bị IoT hoạt động không cần GPU chuyên dụng.
  • ProgLoss + STAL: Các hàm mất mát (loss functions) nâng cao giúp cải thiện đáng kể khả năng nhận dạng các đối tượng nhỏ, điều này rất quan trọng đối với hình ảnh máy bay không người lái trên không và robot.
  • Cải tiến theo tác vụ: Từ hàm loss góc chuyên dụng cho Oriented Bounding Boxes (OBB) đến Residual Log-Likelihood Estimation (RLE) để có Pose estimation chính xác, YOLO26 xử lý các lĩnh vực phức tạp một cách dễ dàng.

Kết luận

Cả YOLOv5 và DAMO-YOLO đều đã khẳng định vị thế của mình trong lịch sử phát hiện đối tượng. DAMO-YOLO vẫn là một nghiên cứu hấp dẫn về Neural Architecture Search và chưng cất. Tuy nhiên, đối với các tổ chức ưu tiên một hệ sinh thái được duy trì tốt, dễ sử dụng và con đường nhanh chóng để đưa vào sản xuất, các mô hình của Ultralytics vẫn là vô song.

Chúng tôi đặc biệt khuyến nghị sử dụng Ultralytics Platform để chú thích, huấn luyện và triển khai thế hệ mô hình tiếp theo, chẳng hạn như YOLO26, đảm bảo quy trình computer vision của bạn luôn sẵn sàng cho tương lai, nhanh chóng và chính xác vượt trội.

Đọc thêm

  • Khám phá RT-DETR dựa trên Transformer cho các ứng dụng có độ chính xác cao.
  • Tìm hiểu về mô hình YOLO11 thế hệ trước.
  • Khám phá cách tối ưu hóa triển khai với OpenVINO.

Bình luận