DAMO-YOLO so với RTDETRv2: So sánh kỹ thuật
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa độ chính xác, tốc độ và chi phí tính toán. So sánh này đi sâu vào hai kiến trúc mạnh mẽ: DAMO-YOLO, một trình phát hiện tốc độ cao từ Alibaba Group và RTDETRv2, một mô hình transformer thời gian thực có độ chính xác cao từ Baidu. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho dự án thị giác máy tính của mình.
DAMO-YOLO: Phát hiện nhanh và chính xác
DAMO-YOLO là một mô hình phát hiện đối tượng được phát triển bởi Alibaba Group, được thiết kế để đạt được sự cân bằng vượt trội giữa tốc độ và độ chính xác. Nó kết hợp một số kỹ thuật mới để thúc đẩy hiệu suất của các detector kiểu YOLO.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Tài liệu: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Kiến trúc và các tính năng chính
DAMO-YOLO xây dựng dựa trên mô hình trình phát hiện đối tượng một giai đoạn cổ điển với một số cải tiến chính:
- NAS-Powered Backbone: Nó sử dụng Neural Architecture Search (NAS) để tạo ra một mạng backbone được tối ưu hóa. Điều này cho phép mô hình tìm thấy một kiến trúc hiệu quả cao, phù hợp với phần cứng cụ thể và các mục tiêu hiệu suất.
- Efficient RepGFPN Neck: Mô hình sử dụng phiên bản hiệu quả của Mạng kim tự tháp đặc trưng tổng quát (GFPN) để kết hợp các đặc trưng. Cấu trúc neck này kết hợp hiệu quả các đặc trưng từ các tỷ lệ khác nhau đồng thời vẫn duy trì tính toán nhẹ nhàng.
- ZeroHead: Một cải tiến quan trọng là ZeroHead, tách rời các đầu phân loại và hồi quy để giảm chi phí tính toán và cải thiện hiệu suất. Lựa chọn thiết kế này đơn giản hóa kiến trúc đầu dò mà không làm giảm độ chính xác.
- Gán Nhãn AlignedOTA: DAMO-YOLO sử dụng AlignedOTA (Gán Nhãn Tối Ưu) để gán nhãn cho các dự đoán trong quá trình huấn luyện. Chiến lược tiên tiến này đảm bảo rằng các điểm neo phù hợp nhất được chọn cho mỗi đối tượng ground-truth, dẫn đến sự hội tụ huấn luyện tốt hơn và độ chính xác cao hơn.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Tốc độ suy luận vượt trội: Các mô hình DAMO-YOLO, đặc biệt là các biến thể nhỏ hơn, cung cấp độ trễ rất thấp trên phần cứng GPU, khiến chúng trở nên lý tưởng cho suy luận thời gian thực.
- Hiệu suất cao: Mô hình đạt được sự cân bằng tốt giữa tốc độ và độ chính xác với số lượng tham số và FLOPs tương đối thấp.
- Kiến trúc có khả năng mở rộng: Nó có sẵn ở nhiều kích cỡ (Tiny, Small, Medium, Large), cho phép các nhà phát triển chọn đúng mô hình cho các hạn chế tài nguyên cụ thể của họ.
Điểm yếu:
- Hạn chế về độ chính xác: Mặc dù nhanh, nhưng độ chính xác cao nhất của nó có thể không phù hợp với độ chính xác của các mô hình dựa trên transformer phức tạp hơn trong các tình huống khó khăn với nhiều đối tượng nhỏ hoặc bị che khuất.
- Hệ sinh thái và khả năng sử dụng: Hệ sinh thái xung quanh DAMO-YOLO kém phát triển hơn so với các framework phổ biến hơn, có khả năng đòi hỏi nhiều nỗ lực hơn cho việc tích hợp và triển khai.
RTDETRv2: Transformer phát hiện theo thời gian thực với độ chính xác cao
RTDETRv2 (Real-Time Detection Transformer v2) là một mô hình phát hiện đối tượng hiện đại từ Baidu, tận dụng sức mạnh của transformer để mang lại độ chính xác cao trong khi vẫn duy trì hiệu suất theo thời gian thực. Đây là một sự phát triển của RT-DETR ban đầu, kết hợp "bag-of-freebies" để cải thiện hơn nữa các khả năng của nó.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 2023-04-17 (RT-DETR gốc), 2024-07-24 (cải tiến RTDETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069 (Bản gốc), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Tài liệu: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Kiến trúc và các tính năng chính
RTDETRv2 dựa trên khuôn khổ DETR (DEtection TRansformer), vốn tái cấu trúc việc phát hiện đối tượng như một bài toán dự đoán tập hợp trực tiếp.
- Thiết Kế CNN-Transformer Lai: Nó sử dụng CNN backbone thông thường (như ResNet) để trích xuất các bản đồ đặc trưng ban đầu, sau đó được đưa vào bộ mã hóa-giải mã transformer.
- Global Context Modeling: Cơ chế tự chú ý của transformer cho phép mô hình nắm bắt các mối quan hệ toàn cục giữa các phần khác nhau của một hình ảnh. Điều này làm cho nó đặc biệt tốt trong việc phát hiện các đối tượng trong các cảnh phức tạp và lộn xộn.
- Phát hiện Đầu cuối (End-to-End): Giống như các mô hình dựa trên DETR khác, RTDETRv2 là mô hình đầu cuối và loại bỏ nhu cầu về các thành phần được thiết kế thủ công như Non-Maximum Suppression (NMS), đơn giản hóa quy trình phát hiện.
- Phương Pháp Không Dựa trên Anchor: Mô hình không dựa trên anchor, giúp tránh sự phức tạp liên quan đến việc thiết kế và điều chỉnh các hộp neo (anchor box).
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Độ chính xác vượt trội: RTDETRv2 đạt được điểm số mAP rất cao, thường vượt trội hơn các bộ phát hiện theo thời gian thực khác, đặc biệt trong các tình huống có phân phối đối tượng dày đặc.
- Tính mạnh mẽ trong các khung cảnh phức tạp: Cơ chế global attention giúp nó hoạt động hiệu quả cao trong việc phân biệt giữa các đối tượng chồng chéo và hiểu ngữ cảnh khung cảnh rộng lớn hơn.
- Quy Trình Đơn Giản Hóa: Thiết kế đầu cuối, không NMS giúp giai đoạn hậu xử lý trở nên rõ ràng và đơn giản hơn.
Điểm yếu:
- Chi phí tính toán cao hơn: Các kiến trúc dựa trên Transformer thường đòi hỏi nhiều hơn về tham số, FLOP và mức sử dụng bộ nhớ so với các mô hình CNN thuần túy.
- Suy luận chậm hơn: Mặc dù được tối ưu hóa để sử dụng trong thời gian thực, tốc độ suy luận của nó thường chậm hơn so với các mô hình dựa trên YOLO nhanh nhất.
- Độ phức tạp khi huấn luyện: Huấn luyện transformer có thể tốn nhiều tài nguyên hơn và yêu cầu lịch trình huấn luyện dài hơn và nhiều bộ nhớ hơn so với CNN.
So sánh Hiệu suất và Huấn luyện
Điểm chuẩn hiệu suất
Dưới đây là so sánh hiệu suất chi tiết giữa các biến thể DAMO-YOLO và RTDETRv2 trên bộ dữ liệu COCO val.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLO-t | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLO-s | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLO-m | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLO-l | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
Từ bảng so sánh, chúng ta có thể rút ra một vài kết luận sau:
- Độ chính xác: RTDETRv2 liên tục đạt được mAP cao hơn trên các kích thước model có thể so sánh được, với biến thể lớn nhất đạt tới 54.3 mAP ấn tượng.
- Tốc độ: DAMO-YOLO có lợi thế rõ ràng về tốc độ suy luận, với mô hình tiny của nó nhanh hơn hơn hai lần so với mô hình RTDETRv2 nhỏ nhất trên GPU T4.
- Hiệu quả: Các mô hình DAMO-YOLO hiệu quả hơn về số lượng tham số và FLOPs. Ví dụ: DAMO-YOLO-m đạt được 49,2 mAP với 28,2M tham số, trong khi RTDETRv2-s cần 20,0M tham số để đạt được 48,1 mAP tương tự nhưng chậm hơn.
Các trường hợp sử dụng lý tưởng
-
DAMO-YOLO phù hợp nhất cho các ứng dụng mà tốc độ là tối quan trọng, chẳng hạn như:
- Giám sát video theo thời gian thực: Xử lý nguồn cấp video tốc độ khung hình cao cho các ứng dụng như hệ thống báo động an ninh.
- Triển khai Edge AI: Chạy trên các thiết bị bị hạn chế về tài nguyên như NVIDIA Jetson hoặc Raspberry Pi.
- Robot: Cho phép robot có khả năng nhận diện nhanh chóng, đòi hỏi đưa ra quyết định nhanh chóng, như đã thảo luận trong vai trò của AI trong ngành robot.
-
RTDETRv2 vượt trội trong các tình huống mà độ chính xác là ưu tiên hàng đầu:
- Lái xe tự động: Phát hiện một cách đáng tin cậy người đi bộ, xe cộ và chướng ngại vật trong môi trường đô thị phức tạp.
- An ninh có tính rủi ro cao: Xác định các mối đe dọa ở những không gian công cộng đông đúc, nơi độ chính xác là rất quan trọng.
- Phân tích bán lẻ: Đếm và theo dõi chính xác số lượng lớn sản phẩm trên kệ hoặc khách hàng trong cửa hàng.
Lợi thế của Ultralytics: YOLOv8 và YOLO11
Mặc dù cả DAMO-YOLO và RTDETRv2 đều là những mô hình mạnh mẽ, hệ sinh thái Ultralytics YOLO, có các mô hình như YOLOv8 và Ultralytics YOLO11 mới nhất, cung cấp một giải pháp thay thế hấp dẫn, thường mang lại một gói tổng thể vượt trội cho các nhà phát triển và nhà nghiên cứu.
Các ưu điểm chính của việc sử dụng các mô hình Ultralytics bao gồm:
- Dễ sử dụng: Python API được tinh giản, tài liệu đầy đủ và cách sử dụng CLI đơn giản giúp cho việc huấn luyện, xác thực và triển khai trở nên vô cùng dễ dàng.
- Hệ sinh thái được duy trì tốt: Ultralytics cung cấp quá trình phát triển tích cực, hỗ trợ mạnh mẽ từ cộng đồng thông qua GitHub, cập nhật thường xuyên và tích hợp liền mạch với Ultralytics HUB cho MLOps đầu cuối.
- Cân bằng hiệu năng: Các model Ultralytics được tối ưu hóa cao để có sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến chúng phù hợp với vô số ứng dụng, từ thiết bị biên đến máy chủ đám mây.
- Hiệu quả bộ nhớ: Các mô hình Ultralytics YOLO được thiết kế để tiết kiệm bộ nhớ, thường yêu cầu ít bộ nhớ CUDA hơn để huấn luyện và suy luận so với các mô hình dựa trên transformer như RTDETRv2, vốn nổi tiếng là tốn nhiều tài nguyên.
- Tính linh hoạt: Các mô hình như YOLOv8 và YOLO11 là các framework đa nhiệm hỗ trợ nguyên bản phát hiện đối tượng, phân vùng thể hiện, phân loại ảnh, ước tính tư thế và hộp giới hạn theo hướng (OBB), cung cấp một giải pháp thống nhất mà DAMO-YOLO và RTDETRv2 không có.
- Hiệu quả huấn luyện: Tận dụng lợi thế từ thời gian huấn luyện nhanh, hội tụ hiệu quả và các trọng số đã được huấn luyện trước có sẵn trên các bộ dữ liệu phổ biến như COCO.
Kết luận
DAMO-YOLO và RTDETRv2 đều là những mô hình phát hiện đối tượng đặc biệt, vượt qua các ranh giới về tốc độ và độ chính xác. DAMO-YOLO là lựa chọn phù hợp cho các ứng dụng đòi hỏi độ trễ thấp nhất có thể trên phần cứng GPU. Ngược lại, RTDETRv2 là mô hình được ưu tiên khi đạt được độ chính xác cao nhất là điều bắt buộc, đặc biệt là trong môi trường trực quan phức tạp.
Tuy nhiên, đối với phần lớn các nhà phát triển và nhà nghiên cứu, các mô hình Ultralytics như YOLO11 là giải pháp thiết thực và hiệu quả nhất. Chúng mang lại sự cân bằng vượt trội giữa tốc độ và độ chính xác, tính dễ sử dụng tuyệt vời, tính linh hoạt đa nhiệm và được hỗ trợ bởi một hệ sinh thái mạnh mẽ và được duy trì tích cực. Sự kết hợp này làm cho các mô hình Ultralytics YOLO trở thành lựa chọn được khuyến nghị để xây dựng các ứng dụng thị giác máy tính hiệu suất cao, thực tế.
Khám phá các Mô hình Khác
Người dùng quan tâm đến DAMO-YOLO và RTDETRv2 cũng có thể thấy các so sánh này liên quan:
- YOLOv8 so với DAMO-YOLO
- YOLO11 so với DAMO-YOLO
- YOLOv8 so với RT-DETR
- YOLO11 so với RT-DETR
- EfficientDet so với DAMO-YOLO
- YOLOX so với DAMO-YOLO
- YOLOv7 so với RT-DETR