Chuyển đến nội dung

DAMO-YOLO so với YOLO11: So sánh kỹ thuật

Trang này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình phát hiện đối tượng hiện đại: DAMO-YOLO, được phát triển bởi Alibaba Group và Ultralytics YOLO11. Mặc dù cả hai mô hình đều được thiết kế để phát hiện đối tượng theo thời gian thực, hiệu suất cao, nhưng chúng sử dụng các triết lý kiến trúc khác biệt và vượt trội trong các lĩnh vực khác nhau. Chúng tôi sẽ phân tích sự khác biệt về kiến trúc, số liệu hiệu suất và các ứng dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho các dự án thị giác máy tính của mình.

DAMO-YOLO

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Tài liệu: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO là một phương pháp phát hiện đối tượng nhanh và chính xác được phát triển bởi Alibaba Group. Nó giới thiệu một số kỹ thuật mới để vượt qua các giới hạn hiệu suất của các bộ phát hiện kiểu YOLO. Mô hình này nhằm mục đích đạt được sự cân bằng vượt trội giữa độ chính xác và độ trễ, đặc biệt là trên phần cứng GPU.

Tìm hiểu thêm về DAMO-YOLO

Kiến trúc và các tính năng chính

Kiến trúc của DAMO-YOLO là sự kết hợp của các thành phần tiên tiến được thiết kế để hoạt động đồng bộ:

  • NAS-Powered Backbones: Nó tận dụng Neural Architecture Search (NAS) để tạo ra các backbone hiệu quả (như GiraffeNet) được tối ưu hóa cho phần cứng cụ thể, giảm chi phí tính toán trong khi vẫn duy trì khả năng trích xuất đặc trưng mạnh mẽ.
  • Efficient RepGFPN Neck: Mô hình tích hợp cấu trúc neck hiệu quả dựa trên Mạng kim tự tháp đặc trưng tổng quát (GFPN) với các kỹ thuật tái tham số hóa để tăng cường kết hợp đặc trưng đa tỷ lệ.
  • ZeroHead: DAMO-YOLO giới thiệu một đầu dò không neo gọn nhẹ có tên là ZeroHead, tách rời các tác vụ phân loại và hồi quy, đồng thời giảm chi phí tính toán.
  • Gán nhãn AlignedOTA: Sử dụng một chiến lược gán nhãn được cải tiến có tên AlignedOTA, tự động đối sánh các đối tượng ground-truth với các dự đoán phù hợp nhất dựa trên cả điểm phân loại và định vị, dẫn đến sự hội tụ tốt hơn trong quá trình huấn luyện.
  • Chưng cất kiến thức: Quá trình huấn luyện được tăng cường bằng chưng cất kiến thức, trong đó một mô hình giáo viên lớn hơn, mạnh mẽ hơn hướng dẫn việc huấn luyện một mô hình học sinh nhỏ hơn để tăng độ chính xác cuối cùng của nó.

Điểm mạnh

  • Độ chính xác cao trên GPU: DAMO-YOLO đạt được điểm số mAP ấn tượng, đặc biệt là ở các biến thể lớn hơn, thể hiện hiệu suất mạnh mẽ trên bộ dữ liệu COCO.
  • Suy luận GPU nhanh: Mô hình được tối ưu hóa cao cho suy luận GPU, mang lại độ trễ thấp, điều này rất quan trọng đối với các ứng dụng thời gian thực chạy trên phần cứng đồ họa chuyên dụng.
  • Kỹ thuật cải tiến: Nó thể hiện tính hiệu quả của các kỹ thuật hiện đại như NAS, gán nhãn nâng cao và chưng cất trong phát hiện đối tượng.

Điểm yếu

  • Tính linh hoạt hạn chế: DAMO-YOLO chủ yếu được thiết kế để phát hiện đối tượng. Nó thiếu sự hỗ trợ gốc cho các tác vụ thị giác máy tính khác như phân đoạn thể hiện, ước tính tư thế hoặc phân loại, vốn là tiêu chuẩn trong các khuôn khổ như Ultralytics.
  • Hệ sinh thái phức tạp: Kho lưu trữ và tài liệu, mặc dù vẫn hoạt động tốt, nhưng không được sắp xếp hợp lý như hệ sinh thái Ultralytics. Điều này có thể gây khó khăn hơn cho người dùng mới làm quen.
  • Tập trung vào phần cứng: Hiệu suất của nó được đánh giá chủ yếu trên GPU, với thông tin hạn chế về hiệu suất CPU, khiến nó trở thành một lựa chọn kém linh hoạt hơn để triển khai trên các thiết bị biên chỉ có CPU hoặc đa dạng.

Ultralytics YOLO11

Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 là sự phát triển mới nhất trong loạt YOLO (You Only Look Once) nổi tiếng, đại diện cho trạng thái hiện đại nhất trong việc phát hiện đối tượng theo thời gian thực và hơn thế nữa. Nó xây dựng dựa trên thành công của những phiên bản tiền nhiệm như YOLOv8, mang lại độ chính xác, tốc độ và tính linh hoạt nâng cao trong một hệ sinh thái trưởng thành và thân thiện với người dùng.

Tìm hiểu thêm về YOLO11

Kiến trúc và các tính năng chính

YOLO11 có kiến trúc không neo, một giai đoạn được tinh chỉnh, được tối ưu hóa cao để cân bằng hiệu suất và hiệu quả vượt trội. Thiết kế của nó tập trung vào việc trích xuất đặc trưng được tinh giản và cấu trúc mạng nhẹ, giúp giảm số lượng tham số và tải tính toán. Điều này làm cho YOLO11 có khả năng thích ứng cao để triển khai trên nhiều loại phần cứng, từ các máy chủ đám mây mạnh mẽ đến các thiết bị biên hạn chế về tài nguyên như NVIDIA Jetson.

Tuy nhiên, sức mạnh thực sự của YOLO11 nằm ở khả năng tích hợp của nó với hệ sinh thái Ultralytics được duy trì tốt, mang lại những lợi ích đáng kể:

  • Tính dễ sử dụng: Python API đơn giản và CLI mạnh mẽ giúp việc huấn luyện, xác thực và suy luận trở nên vô cùng đơn giản. Tài liệu phong phú cung cấp hướng dẫn rõ ràng cho người dùng ở mọi trình độ kỹ năng.
  • Tính linh hoạt: Không giống như DAMO-YOLO, YOLO11 là một mô hình đa tác vụ hỗ trợ tự nhiên phát hiện đối tượng, phân vùng thể hiện, phân loại hình ảnh, ước tính dáng điệu và hộp giới hạn theo hướng (OBB) trong một khuôn khổ duy nhất, thống nhất.
  • Cân bằng hiệu suất: Các mô hình YOLO11 mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác trên cả CPU và GPU, đảm bảo khả năng triển khai linh hoạt và hiệu quả trong nhiều tình huống thực tế khác nhau.
  • Hiệu quả huấn luyện: Khung được tối ưu hóa cho thời gian huấn luyện nhanh và có yêu cầu bộ nhớ thấp hơn so với các kiến trúc phức tạp hơn. Các trọng số đã được huấn luyện trước có sẵn giúp tăng tốc quy trình huấn luyện tùy chỉnh.
  • Hệ sinh thái mạnh mẽ: Người dùng được hưởng lợi từ quá trình phát triển tích cực, hỗ trợ cộng đồng mạnh mẽ thông qua GitHubDiscord, cập nhật thường xuyên và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps đầu cuối.

Điểm mạnh

  • Hiệu suất vượt trội: Đạt được điểm số mAP hàng đầu với kiến trúc được tối ưu hóa cho cả tốc độ và độ chính xác.
  • Tính Linh hoạt Vượt trội: Một framework mô hình duy nhất có thể xử lý năm tác vụ thị giác khác nhau, cung cấp một giải pháp toàn diện cho các dự án phức tạp.
  • Tính khả dụng vượt trội: API được sắp xếp hợp lý, tài liệu rõ ràng và hệ sinh thái tích hợp giúp bạn đặc biệt dễ dàng bắt đầu và triển khai.
  • Tính linh hoạt của phần cứng: Hiệu quả cao trên cả CPU và GPU, phù hợp với nhiều mục tiêu triển khai hơn.
  • Đang hoạt động và được hỗ trợ: Được hỗ trợ bởi một nhóm chuyên dụng tại Ultralytics và một cộng đồng mã nguồn mở lớn, năng động.

Điểm yếu

  • Các mô hình lớn hơn như YOLO11x đòi hỏi tài nguyên tính toán đáng kể, mặc dù chúng vẫn rất hiệu quả so với hiệu suất của chúng.

So sánh hiệu suất

Bảng dưới đây cung cấp so sánh trực tiếp các số liệu hiệu suất cho DAMO-YOLO và YOLO11 trên tập dữ liệu COCO val.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Từ dữ liệu, chúng ta có thể rút ra một số kết luận:

  • Độ chính xác: Mặc dù DAMO-YOLO có tính cạnh tranh, các model YOLO11, đặc biệt là các biến thể từ trung bình đến lớn (YOLO11m, l, x), đạt được điểm mAP cao hơn, với YOLO11x đạt 54.7 mAP ấn tượng.
  • Tốc độ GPU: DAMO-YOLO cho thấy độ trễ GPU rất cạnh tranh. Tuy nhiên, các mô hình YOLO11 cũng được tối ưu hóa cao, với YOLO11n đạt tốc độ GPU nhanh nhất ở 1.5 ms.
  • Tốc độ CPU: Một lợi thế quan trọng của YOLO11 là hiệu suất CPU tuyệt vời và được ghi chép đầy đủ. Tính khả dụng của các điểm chuẩn CPU làm cho nó trở thành một lựa chọn đáng tin cậy cho các ứng dụng không có GPU. DAMO-YOLO thiếu các số liệu tốc độ CPU chính thức, hạn chế khả năng áp dụng của nó.
  • Hiệu quả: Các mô hình YOLO11 đặc biệt hiệu quả. Ví dụ: YOLO11l đạt 53.4 mAP chỉ với 25.3M tham số, vượt trội hơn DAMO-YOLOl về cả độ chính xác và hiệu quả tham số. YOLO11n đặt ra tiêu chuẩn cho các mô hình gọn nhẹ chỉ với 2.6M tham số.

Kết luận và Đề xuất

DAMO-YOLO là một bộ phát hiện đối tượng mạnh mẽ thể hiện những đổi mới học thuật ấn tượng và mang lại hiệu suất mạnh mẽ trên phần cứng GPU. Đây là một lựa chọn tuyệt vời cho các nhà nghiên cứu khám phá các khái niệm kiến trúc tiên tiến hoặc cho các ứng dụng được triển khai trong môi trường giàu GPU, nơi chỉ yêu cầu phát hiện đối tượng.

Tuy nhiên, đối với phần lớn các nhà phát triển, nhà nghiên cứu và doanh nghiệp, Ultralytics YOLO11 là lựa chọn rõ ràng và vượt trội. Nó không chỉ mang lại độ chính xác và tốc độ hiện đại mà còn thực hiện điều đó trong một khuôn khổ trưởng thành, dễ sử dụng và vô cùng linh hoạt. Hỗ trợ gốc cho nhiều tác vụ, hiệu suất tuyệt vời trên cả CPU và GPU, và hệ sinh thái mạnh mẽ gồm tài liệu, hỗ trợ cộng đồng và các công cụ MLOps như Ultralytics HUB làm cho YOLO11 trở thành một giải pháp thiết thực, có thể mở rộng và mạnh mẽ hơn để xây dựng các ứng dụng thị giác máy tính thực tế.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến việc so sánh DAMO-YOLO và YOLO11 với các mô hình hàng đầu khác, hãy xem các so sánh khác sau:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận