Chuyển đến nội dung

So sánh kỹ thuật YOLO11 và DAMO-YOLO

Trang này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình phát hiện đối tượng hiện đại: Ultralytics YOLO11 và DAMO-YOLO. Chúng tôi sẽ phân tích sự khác biệt về kiến trúc, số liệu hiệu suất và các ứng dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho các dự án thị giác máy tính của mình. Mặc dù cả hai mô hình đều được thiết kế để phát hiện đối tượng hiệu suất cao, nhưng chúng sử dụng các phương pháp tiếp cận khác biệt và thể hiện những điểm mạnh khác nhau, với YOLO11 mang lại tính linh hoạt vượt trội và một hệ sinh thái mạnh mẽ hơn để triển khai trong thế giới thực.

Ultralytics YOLO11

Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 là một bước tiến mới nhất trong series YOLO (You Only Look Once) nổi tiếng, được ca ngợi về khả năng phát hiện đối tượng nhanh chóng và hiệu quả. YOLO11 tăng cường các phiên bản YOLO trước đó bằng các cải tiến kiến trúc nhằm nâng cao cả độ chính xác và tốc độ. Nó vẫn giữ phương pháp phát hiện một giai đoạn, xử lý hình ảnh trong một lần duy nhất để có hiệu suất thời gian thực.

Một ưu điểm chính của YOLO11 là tính linh hoạt. Không giống như DAMO-YOLO, chủ yếu tập trung vào phát hiện, YOLO11 là một framework đa nhiệm hỗ trợ phát hiện đối tượng, phân vùng thể hiện, phân loại ảnhước tính tư thế. Điều này làm cho nó trở thành một giải pháp toàn diện cho các quy trình thị giác máy tính phức tạp.

Kiến trúc và các tính năng chính

YOLO11 tập trung vào việc cân bằng kích thước mô hình và độ chính xác thông qua các cải tiến kiến trúc. Chúng bao gồm các lớp trích xuất đặc trưng được tinh chỉnh để thu thập đặc trưng phong phú hơn và một mạng lưới được tinh giản để cắt giảm chi phí tính toán, dẫn đến các mô hình nhanh hơn và hiệu quả hơn về tham số. Thiết kế có khả năng thích ứng của nó cho phép triển khai trên nhiều loại phần cứng, từ thiết bị biên như NVIDIA Jetson đến các máy chủ đám mây mạnh mẽ.

Điều quan trọng là, YOLO11 được hưởng lợi rất nhiều từ hệ sinh thái Ultralytics được duy trì tốt. Điều này mang lại một lợi thế đáng kể cho các nhà phát triển và nhà nghiên cứu:

  • Dễ sử dụng: API Python đơn giản, CLI rõ ràng và tài liệu mở rộng giúp bạn bắt đầu dễ dàng.
  • Quy trình làm việc tích hợp: Tích hợp liền mạch với Ultralytics HUB giúp đơn giản hóa việc quản lý, đào tạo và triển khai tập dữ liệu, hợp lý hóa toàn bộ vòng đời MLOps.
  • Hiệu quả huấn luyện: Quy trình huấn luyện hiệu quả, weights đã được huấn luyện trước có sẵn trên các bộ dữ liệu như COCO, và thường yêu cầu bộ nhớ thấp hơn so với các kiến trúc phức tạp khác.
  • Phát triển tích cực: Cập nhật thường xuyên, hỗ trợ cộng đồng mạnh mẽ thông qua GitHub và Discord, và nhiều tích hợp với các công cụ như TensorRTOpenVINO.

Tìm hiểu thêm về YOLO11

DAMO-YOLO

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Tài liệu: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO là một mô hình phát hiện đối tượng được phát triển bởi Alibaba Group, giới thiệu một số kỹ thuật mới để đạt được sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác. Nó là một phần của họ YOLO nhưng kết hợp các thành phần kiến trúc độc đáo có nguồn gốc từ các khái niệm nghiên cứu tiên tiến.

Kiến trúc và các tính năng chính

Kiến trúc của DAMO-YOLO được xây dựng dựa trên một số cải tiến quan trọng:

  • MAE-NAS Backbone: Nó sử dụng phương pháp Tìm kiếm kiến trúc thần kinh (NAS) để tìm cấu trúc backbone tối ưu, dẫn đến việc trích xuất đặc trưng hiệu quả.
  • Neck RepGFPN hiệu quả: Nó sử dụng một mạng lưới kim tự tháp đặc trưng tổng quát với tái tham số hóa để tăng cường kết hợp đặc trưng trên các thang đo khác nhau một cách hiệu quả.
  • ZeroHead: Mô hình sử dụng một đầu dò tách rời, gọn nhẹ, tách biệt các tác vụ phân loại và hồi quy với chi phí tối thiểu.
  • Gán Nhãn AlignedOTA: Nó giới thiệu một chiến lược gán nhãn được cải thiện để căn chỉnh tốt hơn các mục tiêu phân loại và hồi quy trong quá trình huấn luyện, giúp tăng độ chính xác.

Mặc dù các tính năng này làm cho DAMO-YOLO trở thành một công cụ phát hiện mạnh mẽ, nhưng trọng tâm chính của nó vẫn là phát hiện đối tượng. Nó thiếu sự hỗ trợ tích hợp cho các tác vụ thị giác khác như phân đoạn hoặc ước tính tư thế mà YOLO11 cung cấp. Hơn nữa, hệ sinh thái của nó ít toàn diện hơn, với ít hướng dẫn, tích hợp chính thức hơn và một cộng đồng nhỏ hơn so với Ultralytics YOLO.

Tìm hiểu thêm về DAMO-YOLO

Hiệu năng và điểm chuẩn: So sánh trực tiếp

Hiệu năng của cả hai mô hình trên tập dữ liệu COCO val2017 cho thấy những khác biệt chính. YOLO11 liên tục thể hiện độ chính xác vượt trội trên các kích thước mô hình tương đương.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Từ bảng so sánh, chúng ta có thể rút ra một vài kết luận sau:

  • Độ chính xác: Các mô hình YOLO11 luôn đạt được điểm số mAP cao hơn so với các đối tác DAMO-YOLO của chúng. Ví dụ: YOLO11m đạt 51.5 mAP, vượt trội hơn 49.2 mAP của DAMO-YOLOm. Mô hình lớn nhất, YOLO11x, đạt được 54.7 mAP, một kết quả hàng đầu.
  • Hiệu quả: Các mô hình YOLO11 hiệu quả hơn về tham số. YOLO11m đạt được độ chính xác vượt trội chỉ với 20.1M tham số, so với 28.2M của DAMO-YOLOm.
  • Tốc độ suy luận: YOLO11n là mô hình nhanh nhất trên cả CPU và GPU, khiến nó trở nên lý tưởng cho các tình huống điện toán biên bị hạn chế cao. Đáng chú ý, Ultralytics cung cấp các chuẩn CPU minh bạch, một chỉ số quan trọng cho nhiều ứng dụng thực tế mà kết quả chính thức của DAMO-YOLO bỏ qua.

Các Yếu Tố Phân Biệt Chính và Các Trường Hợp Sử Dụng

Khi nào nên chọn Ultralytics YOLO11

YOLO11 là lựa chọn lý tưởng cho các dự án yêu cầu:

  • Khả năng đa nhiệm: Nếu ứng dụng của bạn cần nhiều hơn là chỉ phát hiện đối tượng, chẳng hạn như phân đoạn thể hiện hoặc ước tính tư thế, YOLO11 cung cấp một khuôn khổ thống nhất và hiệu quả.
  • Tính dễ sử dụng và phát triển nhanh chóng: Tài liệu toàn diện, API đơn giản và nền tảng Ultralytics HUB tích hợp giúp tăng tốc đáng kể quá trình phát triển và triển khai.
  • Tính linh hoạt trong triển khai: Với hiệu năng mạnh mẽ trên cả CPU và GPU cùng với nhiều kích thước mô hình khác nhau, YOLO11 có thể được triển khai ở bất cứ đâu từ Raspberry Pi đến máy chủ đám mây.
  • Hỗ trợ và bảo trì mạnh mẽ: Sự phát triển tích cực và cộng đồng lớn đảm bảo rằng framework luôn được cập nhật, đáng tin cậy và được hỗ trợ tốt.

Khi nào nên cân nhắc DAMO-YOLO

Có thể xem xét DAMO-YOLO cho:

  • Nghiên cứu học thuật: Các thành phần kiến trúc mới lạ như RepGFPN và AlignedOTA làm cho nó trở thành một mô hình thú vị cho các nhà nghiên cứu khám phá các kỹ thuật phát hiện đối tượng mới.
  • Triển khai dành riêng cho GPU: Đối với các ứng dụng được đảm bảo chạy trên GPU và chỉ yêu cầu phát hiện đối tượng, DAMO-YOLO cung cấp tốc độ suy luận cạnh tranh.

Kết luận

Mặc dù DAMO-YOLO giới thiệu những đổi mới học thuật thú vị cho việc phát hiện đối tượng, Ultralytics YOLO11 nổi bật như một lựa chọn vượt trội cho phần lớn các ứng dụng thực tế. Độ chính xác cao hơn, sự cân bằng hiệu suất tốt hơn và tính linh hoạt vô song của nó làm cho nó trở thành một công cụ mạnh mẽ và thiết thực hơn.

Ưu điểm chính của YOLO11 không chỉ nằm ở hiệu suất hiện đại mà còn ở hệ sinh thái mạnh mẽ, thân thiện với người dùng và được duy trì tốt xung quanh nó. Sự kết hợp này cho phép các nhà phát triển và nhà nghiên cứu xây dựng và triển khai các giải pháp thị giác máy tính tiên tiến nhanh hơn và hiệu quả hơn. Đối với các dự án đòi hỏi độ tin cậy, khả năng mở rộng và một bộ tính năng toàn diện, YOLO11 là người chiến thắng rõ ràng.

Khám Phá Các So Sánh Mô Hình Khác

Nếu bạn quan tâm đến việc so sánh hiệu quả của các mô hình này so với các mô hình khác, hãy xem các trang so sánh khác của chúng tôi:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận