Chuyển đến nội dung

So sánh kỹ thuật chi tiết: YOLOv5 so với DAMO-YOLO

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa nhu cầu về độ chính xác, tốc độ và tính dễ triển khai. Trang này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình mạnh mẽ: Ultralytics YOLOv5, một tiêu chuẩn công nghiệp nổi tiếng về hiệu quả và thân thiện với người dùng và DAMO-YOLO, một mô hình từ Alibaba Group vượt qua các giới hạn về độ chính xác phát hiện.

Mặc dù cả hai mô hình đều có những đóng góp đáng kể, YOLOv5 nổi bật nhờ hệ sinh thái trưởng thành, được duy trì tốt và sự cân bằng vượt trội về hiệu suất, khiến nó trở thành một lựa chọn thiết thực cao cho nhiều ứng dụng thực tế. Chúng ta sẽ đi sâu vào kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho dự án thị giác máy tính tiếp theo của mình.

Ultralytics YOLOv5: Tiêu chuẩn công nghiệp đã được thiết lập

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/

Được phát hành vào năm 2020, Ultralytics YOLOv5 nhanh chóng trở thành một trong những mô hình phát hiện đối tượng phổ biến nhất trên thế giới. Thành công của nó được xây dựng trên nền tảng tốc độ vượt trội, độ chính xác đáng tin cậy và tính dễ sử dụng tuyệt vời. Được phát triển bằng PyTorch, YOLOv5 được thiết kế để huấn luyện nhanh chóng, suy luận mạnh mẽ và triển khai đơn giản, khiến nó trở thành giải pháp phù hợp cho cả nhà phát triển và nhà nghiên cứu.

Kiến trúc và các tính năng chính

Kiến trúc của YOLOv5 bao gồm backbone CSPDarknet53, neck PANet để tổng hợp đặc trưng và detection head dựa trên anchor. Thiết kế này rất hiệu quả và có khả năng mở rộng, với nhiều kích cỡ khác nhau (n, s, m, l, x) để phù hợp với các yêu cầu khác nhau về hiệu năng và ngân sách tính toán. Điểm mạnh chính của mô hình không chỉ nằm ở kiến trúc mà còn ở hệ sinh thái xung quanh được xây dựng bởi Ultralytics.

Điểm mạnh

  • Tốc độ và Hiệu quả Vượt trội: YOLOv5 được tối ưu hóa cao cho suy luận nhanh, khiến nó trở nên lý tưởng cho các ứng dụng thời gian thực trên nhiều loại phần cứng, từ GPU mạnh mẽ đến thiết bị biên hạn chế về tài nguyên.
  • Dễ sử dụng: Nổi tiếng với trải nghiệm người dùng được tối ưu hóa, YOLOv5 cung cấp giao diện PythonCLI đơn giản, tài liệu phong phú và quy trình thiết lập nhanh chóng.
  • Hệ sinh thái được duy trì tốt: YOLOv5 được hỗ trợ bởi hệ sinh thái Ultralytics toàn diện, bao gồm phát triển tích cực, một cộng đồng lớn và hữu ích, cập nhật thường xuyên và các công cụ mạnh mẽ như Ultralytics HUB để đào tạo và triển khai không cần code.
  • Cân bằng hiệu suất: Mô hình đạt được sự cân bằng tuyệt vời giữa tốc độ suy luận và độ chính xác phát hiện, làm cho nó trở thành một lựa chọn thiết thực và đáng tin cậy cho nhiều tình huống triển khai thực tế khác nhau.
  • Tính linh hoạt: Ngoài phát hiện đối tượng, YOLOv5 còn hỗ trợ phân đoạn thể hiệnphân loại hình ảnh, cung cấp một giải pháp linh hoạt cho nhiều tác vụ thị giác.
  • Hiệu quả huấn luyện: YOLOv5 có quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn và thường yêu cầu ít bộ nhớ hơn so với nhiều kiến trúc cạnh tranh, cho phép chu kỳ phát triển nhanh hơn.

Điểm yếu

  • Độ chính xác: Mặc dù có độ chính xác cao vào thời điểm đó, các model mới hơn như DAMO-YOLO có thể đạt được điểm mAP cao hơn trên các chuẩn đánh giá như COCO, đặc biệt là với các biến thể model lớn hơn.
  • Dựa trên Anchor: Việc dựa vào các hộp anchor được xác định trước đôi khi có thể yêu cầu điều chỉnh nhiều hơn cho các bộ dữ liệu có hình dạng đối tượng không thông thường so với các phương pháp không cần anchor.

Các Trường hợp Sử dụng

YOLOv5 vượt trội trong các tình huống nhận diện đối tượng theo thời gian thực, bao gồm:

  • Hệ thống an ninh: Giám sát thời gian thực cho các ứng dụng như phòng chống trộm cắp và phát hiện bất thường.
  • Robot: Cho phép robot nhận biết và tương tác với môi trường của chúng trong thời gian thực, rất quan trọng cho điều hướng và điều khiển tự động.
  • Tự động hóa công nghiệp: Kiểm soát chất lượng và phát hiện lỗi trong các quy trình sản xuất, nâng cao hiệu quả tái chế và giám sát dây chuyền sản xuất.
  • Triển khai Edge AI: Chạy hiệu quả phát hiện đối tượng trên các thiết bị giới hạn tài nguyên như Raspberry PiNVIDIA Jetson để xử lý trên thiết bị.

Tìm hiểu thêm về YOLOv5

DAMO-YOLO: Phát hiện tập trung vào độ chính xác

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Tài liệu: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO là một mô hình phát hiện đối tượng được phát triển bởi Alibaba Group. Được giới thiệu vào cuối năm 2022, nó tập trung vào việc đạt được sự cân bằng giữa độ chính xác cao và suy luận hiệu quả bằng cách kết hợp một số kỹ thuật mới trong kiến trúc của nó.

Kiến trúc và các tính năng chính

DAMO-YOLO giới thiệu một số thành phần cải tiến:

  • NAS Backbones: Sử dụng Neural Architecture Search (NAS) để tối ưu hóa mạng backbone.
  • Efficient RepGFPN: Sử dụng Mạng kim tự tháp đặc trưng Gradient tái tham số hóa để cải thiện việc kết hợp đặc trưng.
  • ZeroHead: Một head phát hiện tách rời được thiết kế để giảm thiểu chi phí tính toán.
  • AlignedOTA: Trang bị chiến lược Gán Tối Ưu Vận Chuyển Căn Chỉnh (Aligned Optimal Transport Assignment) để gán nhãn tốt hơn trong quá trình huấn luyện.
  • Tăng cường chưng cất: Kết hợp các kỹ thuật chưng cất kiến thức để tăng hiệu suất.

Điểm mạnh

  • Độ chính xác cao: Đạt được điểm số mAP mạnh mẽ, cho thấy độ chính xác phát hiện tuyệt vời, đặc biệt là với các biến thể mô hình lớn hơn.
  • Kỹ thuật cải tiến: Kết hợp các phương pháp mới như AlignedOTA và RepGFPN nhằm nâng cao hiệu suất vượt trội so với các kiến trúc tiêu chuẩn.

Điểm yếu

  • Độ phức tạp khi tích hợp: Có thể đòi hỏi nhiều công sức hơn để tích hợp vào các quy trình làm việc hiện có, đặc biệt so với trải nghiệm được tối ưu hóa trong hệ sinh thái Ultralytics.
  • Hỗ trợ hệ sinh thái: Tài liệu và hỗ trợ cộng đồng có thể không rộng rãi so với YOLOv5 đã được thiết lập và duy trì tích cực.
  • Tính linh hoạt của tác vụ: Chủ yếu tập trung vào phát hiện đối tượng, có khả năng thiếu sự hỗ trợ tích hợp cho các tác vụ khác như phân đoạn hoặc phân loại được tìm thấy trong các mô hình Ultralytics sau này.

Các Trường hợp Sử dụng

DAMO-YOLO rất phù hợp cho các ứng dụng mà độ chính xác phát hiện cao là tối quan trọng:

  • Ứng dụng độ chính xác cao: Phân tích hình ảnh chi tiết, chẩn đoán hình ảnh y tế và nghiên cứu khoa học.
  • Các tình huống phức tạp: Môi trường có các đối tượng bị che khuất hoặc yêu cầu hiểu chi tiết về khung cảnh.
  • Nghiên cứu và Phát triển: Khám phá các kiến trúc phát hiện đối tượng nâng cao.

Tìm hiểu thêm về DAMO-YOLO

Phân tích hiệu năng: Tốc độ so với độ chính xác

Bảng sau so sánh hiệu suất của các mô hình YOLOv5 và DAMO-YOLO trên bộ dữ liệu COCO val2017. YOLOv5 thể hiện sự cân bằng vượt trội, với YOLOv5n mang lại tốc độ vô song trên cả CPU và GPU, trong khi các mô hình lớn hơn vẫn có tính cạnh tranh cao.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Mặc dù các mô hình DAMO-YOLO đạt được mAP cao, YOLOv5 mang lại sự cân bằng tốc độ-độ chính xác thiết thực hơn, đặc biệt đối với các ứng dụng thời gian thực. Sự sẵn có của các điểm chuẩn CPU cho YOLOv5 càng làm nổi bật sự phù hợp của nó để triển khai trên nhiều nền tảng phần cứng khác nhau, nơi có thể không có GPU.

Kết luận: Bạn nên chọn mô hình nào?

Cả YOLOv5 và DAMO-YOLO đều là những mô hình phát hiện đối tượng đáng gờm, nhưng chúng phục vụ cho các ưu tiên khác nhau.

  • DAMO-YOLO là một lựa chọn tuyệt vời cho các nhà nghiên cứu và phát triển tập trung vào việc đạt được độ chính xác hiện đại, đặc biệt là trong các cảnh phức tạp. Kiến trúc cải tiến của nó cung cấp một nền tảng vững chắc cho khám phá học thuật và các ứng dụng mà độ chính xác là ưu tiên hàng đầu.

  • Ultralytics YOLOv5, tuy nhiên, vẫn là lựa chọn vượt trội cho phần lớn các ứng dụng thực tế, thực tế. Sự cân bằng đáng kinh ngạc giữa tốc độ và độ chính xác, kết hợp với tính dễ sử dụng, hiệu quả đào tạotính linh hoạt, làm cho nó có hiệu quả cao. Điểm khác biệt chính là hệ sinh thái Ultralytics được duy trì tốt, cung cấp hỗ trợ mạnh mẽ, tài liệu phong phú và trải nghiệm người dùng liền mạch từ đào tạo đến triển khai. Điều này làm giảm đáng kể thời gian và độ phức tạp của quá trình phát triển.

Đối với các nhà phát triển đang tìm kiếm một mô hình đáng tin cậy, hiệu suất cao và dễ tích hợp, YOLOv5 là người chiến thắng rõ ràng. Đối với những người muốn xây dựng trên nền tảng này với các tính năng tiên tiến hơn nữa, các mô hình Ultralytics mới hơn như YOLOv8YOLO11 cung cấp những cải tiến hơn nữa về độ chính xác và tính linh hoạt trong khi vẫn duy trì các nguyên tắc thân thiện với người dùng tương tự.

Khám phá các so sánh khác để xem các mô hình này so sánh với các mô hình khác trong lĩnh vực này như thế nào:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận