DAMO-YOLO so với YOLO11: So sánh kỹ thuật
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của ứng dụng. Bài so sánh toàn diện này phân tích hai kiến trúc quan trọng: DAMO- YOLO , do Tập đoàn Alibaba phát triển, và Ultralytics YOLO11 , mô hình tiên tiến nhất từ Ultralytics Mặc dù cả hai mô hình đều hướng đến mục tiêu tối ưu hóa sự đánh đổi giữa tốc độ và độ chính xác, nhưng chúng phục vụ các mục đích chính khác nhau và mang lại những lợi thế riêng biệt tùy thuộc vào tình huống triển khai.
Hướng dẫn này cung cấp cái nhìn sâu sắc về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng để giúp các nhà phát triển và nhà nghiên cứu đưa ra quyết định sáng suốt.
DAMO-YOLO
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO
Tài liệu: https://github.com/tinyvision/DAMO- YOLO /blob/master/README.md
DAMO- YOLO là một nền tảng phát hiện đối tượng tích hợp nhiều công nghệ tiên tiến để đạt hiệu suất cao. Nền tảng này tập trung vào việc giảm độ trễ đồng thời duy trì độ chính xác cạnh tranh thông qua một loạt cải tiến về kiến trúc được thúc đẩy bởi nghiên cứu của Alibaba.
Kiến trúc và Đổi mới
DAMO- YOLO giới thiệu phương pháp "Chưng cất và Chọn lọc" và kết hợp các thành phần chính sau:
- Xương sống MAE-NAS: Sử dụng Tìm kiếm kiến trúc nơ-ron (NAS) , xương sống được tối ưu hóa theo các ràng buộc cụ thể để đảm bảo trích xuất tính năng hiệu quả.
- RepGFPN hiệu quả: Mạng kim tự tháp tính năng tổng quát (GFPN) sử dụng nhiều cơ chế tham số hóa lại để cải thiện khả năng hợp nhất tính năng trên nhiều quy mô khác nhau mà không phải chịu chi phí tính toán lớn trong quá trình suy luận.
- ZeroHead: Đầu phát hiện nhẹ này tách biệt các tác vụ phân loại và hồi quy, nhằm mục đích tối đa hóa tốc độ suy luận.
- AlignedOTA: Chiến lược gán nhãn giúp giải quyết tình trạng không khớp giữa mục tiêu phân loại và hồi quy, tăng cường sự hội tụ trong quá trình đào tạo.
Trong khi DAMO- YOLO mang đến những tiến bộ lý thuyết ấn tượng, nhưng chủ yếu là một khuôn khổ hướng nghiên cứu tập trung vào phát hiện đối tượng . Nó thường thiếu sự hỗ trợ đa tác vụ sẵn có trong các hệ sinh thái toàn diện hơn.
Ultralytics YOLO11
Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolo11 /
Ultralytics YOLO11 đại diện cho đỉnh cao của tầm nhìn máy tính thời gian thực, tinh chỉnh di sản của YOLO Dòng sản phẩm này có những cải tiến đáng kể về kiến trúc, hiệu quả và dễ sử dụng. Nó được thiết kế không chỉ như một mô hình, mà còn là một công cụ đa năng cho việc triển khai thực tế trên nhiều môi trường phần cứng khác nhau.
Kiến trúc và Hệ sinh thái
YOLO11 Được xây dựng dựa trên những thành công trước đó với kiến trúc không neo tinh tế. Sản phẩm có xương sống được cải tiến để trích xuất tính năng vượt trội và thiết kế cổ được cải tiến giúp tăng cường luồng thông tin ở nhiều quy mô khác nhau.
Những lợi thế chính của Ultralytics YOLO11 khung bao gồm:
- Tính linh hoạt: Không giống như nhiều đối thủ cạnh tranh, YOLO11 hỗ trợ gốc một loạt các tác vụ bao gồm phát hiện đối tượng , phân đoạn thể hiện , ước tính tư thế , phân loại hình ảnh và hộp giới hạn định hướng (OBB) .
- Dễ sử dụng: Mô hình được gói gọn trong Python API và CLI thân thiện với người dùng, giúp cả người mới bắt đầu và chuyên gia đều có thể sử dụng.
- Hiệu quả đào tạo: Được tối ưu hóa để hội tụ nhanh hơn, YOLO11 sử dụng các hàm tăng cường và mất dữ liệu hiệu quả, cho phép người dùng đào tạo các mô hình tùy chỉnh trên các tập dữ liệu như COCO với chi phí tài nguyên thấp hơn.
- Hệ sinh thái được bảo trì tốt: Được hỗ trợ bởi nhóm Ultralytics , người dùng được hưởng lợi từ các bản cập nhật thường xuyên, tài liệu mở rộng và tích hợp liền mạch với các công cụ MLOps như Ultralytics HUB .
Bạn có biết không?
YOLO11 được thiết kế để đạt hiệu suất cao trên các thiết bị AI biên (Edge AI ). Kiến trúc tối ưu của nó đảm bảo mức sử dụng bộ nhớ thấp và tốc độ suy luận cao trên các phần cứng như NVIDIA Jetson và Raspberry Pi, khiến nó trở thành lựa chọn vượt trội cho các ứng dụng nhúng so với các mẫu máy biến áp nặng hơn.
So sánh hiệu suất
Biểu đồ và bảng sau đây minh họa sự khác biệt về hiệu suất giữa DAMO- YOLO Và YOLO11 . Ultralytics YOLO11 luôn chứng minh độ chính xác vượt trội ( mAP ) và tốc độ suy luận thuận lợi, đặc biệt là trên CPU phần cứng nơi DAMO- YOLO thiếu chuẩn mực chính thức.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Phân tích kết quả
- Sự chính xác: YOLO11 vượt trội đáng kể so với DAMO tương đương YOLO mô hình. Ví dụ, YOLO11m đạt được 51,5 mAP , cao hơn đáng kể so với DAMO-YOLOm ở mức 49,2 mAP , mặc dù có ít tham số hơn (20,1M so với 28,2M).
- Tốc độ suy luận: Bật GPU (T4 TensorRT ), YOLO11 cung cấp độ trễ cực kỳ cạnh tranh. YOLO11n cực kỳ nhanh ở mức 1,5 ms , phù hợp cho các ứng dụng có độ trễ cực thấp.
- Hiệu suất CPU : Một lợi thế lớn của Ultralytics các mô hình là tính minh bạch của họ liên quan đến CPU hiệu suất. YOLO11 được tối ưu hóa cho CPU suy luận thông qua ONNX và OpenVINO , trong khi DAMO- YOLO tập trung nhiều vào GPU , thường xuyên rời đi CPU hiệu suất triển khai chưa xác định.
- Hiệu quả của mô hình: YOLO11 thể hiện sự cân bằng tốt hơn giữa các thông số và hiệu suất. Hiệu quả kiến trúc cho phép các tệp mô hình nhỏ hơn, giúp tải xuống nhanh hơn và giảm yêu cầu lưu trữ trên các thiết bị biên.
Các Yếu Tố Phân Biệt Chính và Các Trường Hợp Sử Dụng
Điểm mạnh của Ultralytics YOLO11
Các nhà phát triển sử dụng Ultralytics YOLO11 sẽ có quyền truy cập vào môi trường sản xuất mạnh mẽ.
- Cân bằng hiệu suất: Kiến trúc mô hình được tinh chỉnh tỉ mỉ để mang lại sự cân bằng tốt nhất giữa tốc độ suy luận và độ chính xác, rất quan trọng đối với phân tích video thời gian thực.
- Khả năng đa nhiệm: Nếu phạm vi dự án của bạn mở rộng từ phát hiện sang theo dõi hoặc phân đoạn, YOLO11 xử lý việc này một cách liền mạch trong cùng một cơ sở mã.
- Dễ sử dụng: Hàm
ultralyticsGói này đơn giản hóa toàn bộ quy trình. Tải mô hình, chạy dự đoán và xuất sang các định dạng như CoreML , TFLite , hoặc TensorRT có thể thực hiện chỉ với một vài dòng mã. - Yêu cầu bộ nhớ thấp hơn: So với các máy dò dựa trên máy biến áp hoặc kiến trúc chưa được tối ưu hóa, YOLO11 thường yêu cầu ít hơn CUDA bộ nhớ trong quá trình đào tạo, cho phép các nhà nghiên cứu đào tạo trên GPU cấp tiêu dùng.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Điểm mạnh của DAMO- YOLO
DAMO- YOLO là một đối thủ mạnh trong giới nghiên cứu học thuật.
- Đổi mới nghiên cứu: Các tính năng như MAE-NAS và ZeroHead cung cấp những hiểu biết thú vị về tìm kiếm kiến trúc thần kinh và tách rời đầu.
- Thông lượng GPU : Đối với các ứng dụng công nghiệp cụ thể chạy độc quyền trên GPU được hỗ trợ, DAMO- YOLO cung cấp thông lượng cao, mặc dù nó thường chậm hơn YOLO11 trong hiệu quả chính xác tuyệt đối trên mỗi tham số.
Kết luận
Trong khi DAMO- YOLO Giới thiệu các khái niệm mới từ đội ngũ nghiên cứu của Alibaba, Ultralytics YOLO11 nổi bật là lựa chọn hàng đầu cho đại đa số nhà phát triển và doanh nghiệp. Sự thống trị của nó không chỉ được xác định bởi điểm mAP cao hơn và khả năng suy luận nhanh hơn, mà còn bởi hệ sinh thái toàn diện hỗ trợ nó.
Từ tính dễ sử dụng và tính linh hoạt đến cơ sở mã được bảo trì tốt và sự hỗ trợ tích cực của cộng đồng, YOLO11 giảm thiểu rào cản gia nhập thị trường để tạo ra các giải pháp AI tiên tiến. Cho dù triển khai trên máy chủ đám mây hay thiết bị biên hạn chế tài nguyên, YOLO11 cung cấp độ tin cậy và hiệu suất cần thiết cho các ứng dụng thị giác máy tính hiện đại.
Khám Phá Các So Sánh Mô Hình Khác
Để hiểu rõ hơn về cách Ultralytics so sánh các mô hình với các kiến trúc khác, hãy khám phá các trang so sánh chi tiết của chúng tôi:
- YOLO11 so với YOLOv10
- YOLO11 so với RT-DETR
- DAMO-YOLO so với YOLOv8
- DAMO- YOLO so với YOLOv9
- YOLO11 so với EfficientDet