Chuyển đến nội dung

So sánh kỹ thuật chi tiết giữa DAMO-YOLO và YOLOv7

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một bước quan trọng trong bất kỳ dự án thị giác máy tính nào, ảnh hưởng trực tiếp đến hiệu suất, tốc độ và tính khả thi khi triển khai. Trang này cung cấp so sánh kỹ thuật chi tiết giữa DAMO-YOLO và YOLOv7, hai mô hình mạnh mẽ đã có những đóng góp đáng kể cho lĩnh vực này vào năm 2022. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho các nhu cầu cụ thể của mình.

DAMO-YOLO: Phát hiện nhanh và chính xác với công nghệ tiên tiến

DAMO-YOLO là một mô hình phát hiện đối tượng được phát triển bởi Alibaba Group, tập trung vào việc đạt được hiệu suất cao thông qua sự kết hợp của các công nghệ tiên tiến. Nó nhằm mục đích mang lại sự cân bằng vượt trội về tốc độ và độ chính xác, đặc biệt cho các tình huống triển khai thực tế.

Kiến trúc và các tính năng chính

Kiến trúc của DAMO-YOLO được xây dựng dựa trên một số cải tiến quan trọng được thiết kế để tối ưu hóa hiệu suất và hiệu quả:

  • NAS-Powered Backbones: Nó tận dụng Neural Architecture Search (NAS) để tạo ra các mạng backbone tối ưu. Cách tiếp cận tự động này giúp khám phá các kiến trúc mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác so với các kiến trúc được thiết kế thủ công.
  • Efficient RepGFPN Neck: Mô hình giới thiệu một cấu trúc neck mới lạ có tên là Mạng kim tự tháp đặc trưng tổng quát (GFPN), được tăng cường bằng các kỹ thuật tái tham số hóa. Thiết kế này cho phép kết hợp đặc trưng đa tỷ lệ hiệu quả, rất quan trọng để phát hiện các đối tượng có kích thước khác nhau.
  • ZeroHead: DAMO-YOLO kết hợp một đầu dò đơn giản, không tham số, tách biệt các tác vụ phân loại và hồi quy. Điều này giúp giảm độ phức tạp tính toán và kích thước mô hình mà không làm giảm hiệu suất.
  • Gán nhãn AlignedOTA: Sử dụng một chiến lược gán nhãn nâng cao có tên AlignedOTA, giải quyết các vấn đề sai lệch giữa điểm phân loại và độ chính xác định vị, dẫn đến kết quả phát hiện chính xác hơn.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Tốc độ suy luận cao: Các biến thể nhỏ hơn (DAMO-YOLO-t/s) cực kỳ nhanh, làm cho chúng lý tưởng cho các ứng dụng yêu cầu độ trễ thấp, chẳng hạn như trên các thiết bị edge AI.
  • Công nghệ cải tiến: Tích hợp các kỹ thuật hiện đại như NAS và thiết kế neck hiệu quả để vượt qua các giới hạn về hiệu suất.

Điểm yếu:

  • Tích hợp hệ sinh thái: Có thể thiếu hệ sinh thái toàn diện, tài liệu mở rộng và trải nghiệm người dùng được sắp xếp hợp lý được tìm thấy trong các framework như Ultralytics.
  • Hỗ trợ Cộng đồng: Là một mô hình hướng đến nghiên cứu từ một tập đoàn duy nhất, nó có thể có một cộng đồng mã nguồn mở nhỏ hơn so với các mô hình được sử dụng rộng rãi hơn.

Tìm hiểu thêm về DAMO-YOLO

YOLOv7: Vượt qua các ranh giới của độ chính xác theo thời gian thực

YOLOv7, được giới thiệu bởi Chien-Yao Wang và cộng sự, đã thiết lập một tiêu chuẩn hiện đại mới cho các công cụ phát hiện đối tượng theo thời gian thực khi phát hành. Nó tập trung vào việc tối ưu hóa quy trình huấn luyện để cải thiện độ chính xác mà không làm tăng chi phí suy luận.

Kiến trúc và các tính năng chính

YOLOv7 giới thiệu một số cải tiến về kiến trúc và huấn luyện giúp tăng đáng kể hiệu suất:

  • E-ELAN (Extended Efficient Layer Aggregation Network - Mạng tổng hợp lớp hiệu quả mở rộng): Cấu trúc mạng nâng cao này tăng cường khả năng học của mô hình bằng cách cho phép nó học được nhiều đặc trưng đa dạng hơn mà không làm gián đoạn đường dẫn gradient ban đầu.
  • Compound Model Scaling: YOLOv7 sử dụng chiến lược model scaling để điều chỉnh hợp lý độ sâu và chiều rộng của mô hình cho các kiến trúc dựa trên concatenation, đảm bảo hiệu suất tối ưu trên các kích thước mô hình khác nhau.
  • Trainable Bag-of-Freebies: Một đóng góp quan trọng của YOLOv7 là việc sử dụng các tối ưu hóa thời gian đào tạo, chẳng hạn như các auxiliary head và coarse-to-fine guided loss, giúp cải thiện độ chính xác của mô hình cuối cùng mà không làm tăng thêm bất kỳ chi phí tính toán nào trong quá trình suy diễn.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Cân Bằng Tuyệt Vời Giữa Độ Chính Xác và Tốc Độ: YOLOv7 cung cấp sự kết hợp đáng chú ý giữa mAP cao và tốc độ suy luận nhanh, khiến nó rất phù hợp cho suy luận theo thời gian thực.
  • Huấn luyện hiệu quả: Phương pháp "bag-of-freebies" cho phép nó đạt được độ chính xác cao hơn từ quá trình huấn luyện mà không làm chậm mô hình cuối cùng.
  • Hiệu Suất Đã Được Chứng Minh: Nó đã được đánh giá kỹ lưỡng trên các bộ dữ liệu tiêu chuẩn như MS COCO, với kết quả đã được chứng minh.

Điểm yếu:

  • Độ phức tạp: Kiến trúc và các chiến lược huấn luyện có thể phức tạp để hiểu và triển khai từ đầu.
  • Tính linh hoạt hạn chế: YOLOv7 chủ yếu là một mô hình phát hiện đối tượng. Mặc dù có các phiên bản cộng đồng cho các tác vụ khác, nhưng nó thiếu tính linh hoạt đa nhiệm tích hợp sẵn của các framework như Ultralytics YOLOv8.
  • Tốn nhiều tài nguyên: Việc huấn luyện các mô hình YOLOv7 lớn hơn có thể yêu cầu tài nguyên GPU đáng kể.

Tìm hiểu thêm về YOLOv7

Phân tích hiệu năng: Tốc độ so với độ chính xác

Khi so sánh DAMO-YOLO và YOLOv7, sự đánh đổi giữa tốc độ và độ chính xác là rất rõ ràng. Các mô hình nhỏ hơn của DAMO-YOLO, như DAMO-YOLO-t, cung cấp thời gian suy luận nhanh nhất, khiến chúng trở thành lựa chọn hàng đầu cho các ứng dụng quan trọng về độ trễ trên phần cứng bị hạn chế về tài nguyên. Mặt khác, YOLOv7, đặc biệt là biến thể YOLOv7x, đạt được mAP cao hơn, khiến nó phù hợp cho các tình huống mà độ chính xác tối đa là ưu tiên. Các mô hình cỡ trung từ cả hai họ, DAMO-YOLO-l và YOLOv7-l, cung cấp hiệu suất cạnh tranh, với YOLOv7-l đạt được mAP cao hơn một chút với chi phí là độ trễ tăng nhẹ.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Tại sao nên chọn các mô hình Ultralytics YOLO?

Mặc dù DAMO-YOLO và YOLOv7 là những mô hình mạnh mẽ, các nhà phát triển và nhà nghiên cứu thường đánh giá cao hệ sinh thái Ultralytics với các mô hình như YOLOv8Ultralytics YOLO11 mới nhất. Các mô hình Ultralytics mang lại những lợi thế đáng kể vượt xa các số liệu thô:

  • Dễ sử dụng: Các mô hình Ultralytics có Python API được tinh giản và các lệnh CLI đơn giản, được hỗ trợ bởi tài liệu đầy đủ, giúp bạn dễ dàng huấn luyện, xác thực và triển khai các mô hình.
  • Hệ sinh thái được duy trì tốt: Người dùng được hưởng lợi từ quá trình phát triển tích cực, một cộng đồng mã nguồn mở mạnh mẽ, cập nhật thường xuyên và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps đầu cuối.
  • Cân bằng hiệu năng: Các model Ultralytics được thiết kế để mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến chúng phù hợp với nhiều ứng dụng khác nhau, từ thiết bị biên đến máy chủ đám mây.
  • Hiệu quả bộ nhớ: Các mô hình Ultralytics YOLO được thiết kế để sử dụng bộ nhớ hiệu quả trong cả quá trình huấn luyện và suy luận, thường yêu cầu ít bộ nhớ CUDA hơn so với các kiến trúc khác.
  • Tính linh hoạt: Các mô hình như YOLOv8 và YOLO11 không chỉ giới hạn ở việc phát hiện. Chúng hỗ trợ nhiều tác vụ ngay khi xuất xưởng, bao gồm phân vùng thể hiện, phân loại ảnh, ước tính tư thếphát hiện đối tượng theo hướng (OBB), cung cấp một giải pháp thống nhất cho các nhu cầu thị giác máy tính đa dạng.
  • Hiệu quả huấn luyện: Tận dụng lợi thế từ quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn trên các bộ dữ liệu như COCO và thời gian hội tụ nhanh hơn.

Kết luận

Cả DAMO-YOLO và YOLOv7 đều thể hiện những tiến bộ đáng kể trong lĩnh vực phát hiện đối tượng. DAMO-YOLO vượt trội về tốc độ suy luận, đặc biệt là với các biến thể nhỏ hơn, khiến nó trở thành một ứng cử viên mạnh mẽ cho các thiết bị biên hoặc các ứng dụng ưu tiên độ trễ thấp. YOLOv7 đẩy mạnh ranh giới của độ chính xác trong khi vẫn duy trì hiệu suất thời gian thực tốt, đặc biệt phù hợp cho các tình huống mà việc đạt được mAP cao nhất có thể là rất quan trọng.

Tuy nhiên, các nhà phát triển cũng có thể xem xét các mô hình trong hệ sinh thái Ultralytics, chẳng hạn như YOLOv8 hoặc YOLO11 mới nhất. Các mô hình này thường cung cấp sự cân bằng vượt trội về hiệu suất, sự dễ sử dụng, tài liệu mở rộng, huấn luyện hiệu quả, yêu cầu bộ nhớ thấp hơn và tính linh hoạt trên nhiều tác vụ thị giác, tất cả đều được hỗ trợ bởi một hệ sinh thái được duy trì tốt và hỗ trợ cộng đồng tích cực thông qua Ultralytics HUB.

Các Mô Hình Khác

Người dùng quan tâm đến DAMO-YOLO và YOLOv7 cũng có thể thấy các mô hình này liên quan:

  • Ultralytics YOLOv5: Một mô hình rất phổ biến và hiệu quả, nổi tiếng về tốc độ và dễ triển khai. Khám phá Tài liệu YOLOv5.
  • Ultralytics YOLOv8: Một mô hình hiện đại đa năng cung cấp hiệu suất tuyệt vời trên các tác vụ phát hiện, phân đoạn, tư thế và phân loại. Khám phá Tài liệu YOLOv8.
  • YOLOv9: Giới thiệu các cải tiến như PGI và GELAN để cải thiện độ chính xác và hiệu quả. Xem Tài liệu YOLOv9.
  • YOLOv10: Tập trung vào phát hiện end-to-end không cần NMS để giảm độ trễ. So sánh YOLOv10 với DAMO-YOLO.
  • Ultralytics YOLO11: Mô hình tiên tiến mới nhất từ Ultralytics, nhấn mạnh vào tốc độ, hiệu quả và dễ sử dụng với thiết kế không neo. Đọc thêm về YOLO11.
  • RT-DETR: Một mô hình phát hiện theo thời gian thực dựa trên transformer. So sánh RT-DETR với DAMO-YOLO.


📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận