DAMO- YOLO so với YOLO11 Khám phá chuyên sâu về phát hiện đối tượng trong thời gian thực
Lĩnh vực phát hiện đối tượng đang không ngừng phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực cân bằng giữa các yêu cầu cạnh tranh về độ chính xác, tốc độ suy luận và hiệu quả tính toán. Hai kiến trúc đáng chú ý đã nổi lên trong lĩnh vực này là DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba, và YOLO11 , một phiên bản mạnh mẽ hơn từ Ultralytics .
Trong khi DAMO- YOLO đã giới thiệu các khái niệm mới trong Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) và tái tham số hóa chuyên sâu. YOLO11 Mô hình này thể hiện cách tiếp cận tinh tế, lấy người dùng làm trung tâm, tập trung vào khả năng sẵn sàng sản xuất và tính linh hoạt. Bài so sánh này sẽ khám phá những sắc thái kiến trúc, các chỉ số hiệu suất và những cân nhắc thực tiễn khi triển khai cho cả hai mô hình.
Tổng quan về DAMO-YOLO
DAMO- YOLO Đây là một bộ phát hiện đối tượng hiệu năng cao được đề xuất bởi các nhà nghiên cứu tại Học viện DAMO của Alibaba. Nó nổi bật nhờ sử dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) để tự động thiết kế các kiến trúc xương sống hiệu quả phù hợp với các ràng buộc cụ thể.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Kiến trúc này tích hợp một mạng RepGFPN (Reparameterized Generalized Feature Pyramid Network) chuyên dụng để kết hợp các đặc trưng và một phần đầu nhẹ có tên gọi "ZeroHead". Một thành phần quan trọng trong chiến lược huấn luyện của nó là "AlignedOTA", một phương pháp gán nhãn động được thiết kế để giải quyết các vấn đề sai lệch giữa các nhiệm vụ phân loại và hồi quy. Ngoài ra, nó dựa nhiều vào việc chắt lọc từ các mô hình "giáo viên" lớn hơn để nâng cao hiệu suất của các biến thể nhỏ hơn.
YOLO11 Tổng quan
YOLO11 xây dựng dựa trên di sản của Ultralytics YOLO dòng dõi, tinh chỉnh thiết kế mạng CSP (Cross Stage Partial) để tối đa hóa hiệu quả tham số. Không giống như các mô hình tập trung vào nghiên cứu có thể yêu cầu thiết lập phức tạp, YOLO11 Được thiết kế để ứng dụng ngay lập tức trong thế giới thực, mang đến trải nghiệm "đã bao gồm pin".
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2024-09-27
- Tài liệu:https://docs.ultralytics.com/models/yolo11/
- GitHub:https://github.com/ultralytics/ultralytics
YOLO11 Nó cải tiến thiết kế khối C3k2 và giới thiệu các mô-đun C2PSA (Cross Stage Partial with Spatial Attention) để nắm bắt ngữ cảnh toàn cục tốt hơn. Nó được tích hợp hoàn toàn vào... Ultralytics Hệ sinh thái này hỗ trợ quá trình đào tạo, xác thực và triển khai liền mạch trên nhiều loại phần cứng khác nhau, bao gồm CPU, GPU và các thiết bị biên.
So sánh kỹ thuật
Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa các mô hình. Trong khi DAMO- YOLO Thể hiện khả năng lý thuyết vượt trội. YOLO11 Thường mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác trong các tình huống thực tế, đặc biệt khi xem xét chi phí xuất khẩu và triển khai.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Kiến trúc và Phương pháp đào tạo
DAMO- YOLO sử dụng MAE-NAS (Masked Autoencoder Neural Architecture Search) để tìm ra cấu trúc xương sống tối ưu dưới các ràng buộc độ trễ cụ thể. Điều này dẫn đến các mô hình về mặt lý thuyết là hiệu quả nhưng có thể khó sửa đổi hoặc tinh chỉnh nếu không có quy trình NAS gốc. Quá trình huấn luyện rất phức tạp, thường yêu cầu phương pháp hai giai đoạn, trong đó một mô hình giáo viên lớn được huấn luyện trước để chắt lọc kiến thức vào mô hình mục tiêu nhỏ hơn.
Ngược lại, YOLO11 sử dụng kiến trúc được thiết kế thủ công nhưng được tối ưu hóa cao, cân bằng giữa chiều sâu, chiều rộng và độ phân giải. Quy trình huấn luyện được đơn giản hóa, sử dụng các phép tăng cường và hàm mất mát tiêu chuẩn mà không yêu cầu các mô hình giáo viên phụ trợ hoặc các giai đoạn chưng cất phức tạp. Điều này làm cho YOLO11 Việc huấn luyện trên các tập dữ liệu tùy chỉnh trở nên dễ dàng hơn đáng kể mà không cần kiến thức chuyên sâu về lĩnh vực đó.
Lời khuyên: Độ phức tạp so với tính khả dụng
Trong khi DAMO- YOLO Phương pháp dựa trên NAS của họ tạo ra các cấu trúc tối ưu về mặt toán học, Ultralytics Triết lý này ưu tiên tính khả dụng. Một mô hình như vậy YOLO11 có thể được huấn luyện chỉ với một CLI yêu cầu yolo trainTrong khi đó, các kho lưu trữ nghiên cứu thường yêu cầu các tệp cấu hình phức tạp và quy trình chuẩn bị nhiều bước.
Lợi thế của Ultralytics
Việc lựa chọn mô hình không chỉ dừng lại ở các yếu tố thô. mAP Nó bao gồm các con số; nó liên quan đến toàn bộ vòng đời của một dự án học máy. Ultralytics các mô hình như YOLO11 —và YOLO26 tiên tiến —mang lại những ưu điểm riêng biệt giúp đơn giản hóa quá trình phát triển.
Dễ sử dụng và Hệ sinh thái vượt trội
Cái Ultralytics Hệ sinh thái được thiết kế để giảm ma sát. Đào tạo một YOLO11 Mô hình này yêu cầu mã lệnh tối thiểu và API Python nhất quán trên tất cả các phiên bản mô hình. Điều này trái ngược với DAMO- YOLO , nơi người dùng thường phải làm việc với một codebase cấp độ nghiên cứu nhưng có thể thiếu tài liệu đầy đủ hoặc bảo trì lâu dài.
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)
Hơn nữa, nền tảng Ultralytics cung cấp giao diện liền mạch để quản lý tập dữ liệu, gắn nhãn và huấn luyện trên đám mây, giúp dân chủ hóa hiệu quả việc tiếp cận các khả năng thị giác máy tính tiên tiến.
Tính linh hoạt trên nhiều tác vụ
Một trong những lập luận mạnh mẽ nhất ủng hộ việc áp dụng Ultralytics Khung này có tính linh hoạt. Trong khi DAMO- YOLO Về cơ bản, nó là một thiết bị phát hiện đối tượng. YOLO11 Hỗ trợ nhiều tác vụ thị giác máy tính khác nhau trong cùng một mã nguồn:
- Phân đoạn đối tượng : Che phủ chính xác các đối tượng.
- Ước lượng tư thế : Phát hiện các điểm mấu chốt để theo dõi chuyển động xương người.
- Hộp giới hạn định hướng (OBB) : Lý tưởng cho ảnh chụp từ trên không và các vật thể nghiêng.
- Phân loại (Classification): Phân loại toàn bộ ảnh.
Cân bằng hiệu suất và Hiệu quả bộ nhớ
Ultralytics Các mô hình này nổi tiếng về khả năng sử dụng tài nguyên hiệu quả. YOLO11 thường yêu cầu ít hơn CUDA Bộ nhớ được sử dụng trong quá trình huấn luyện ít hơn so với các kiến trúc nặng về Transformer hoặc các mô hình phức tạp có nguồn gốc từ NAS. Điều này cho phép các nhà phát triển huấn luyện các lô dữ liệu lớn hơn trên GPU cấp độ người tiêu dùng, giúp tăng tốc chu kỳ lặp lại.
Đối với suy luận, YOLO11 Các mô hình được tối ưu hóa để xuất sang các định dạng như ONNX , TensorRT và... CoreML Điều này đảm bảo rằng độ chính xác cao được thấy trong các bài kiểm tra hiệu năng sẽ được chuyển hóa thành hiệu năng thời gian thực trên các thiết bị biên, từ... NVIDIA Mô-đun Jetson cho Raspberry Pis.
Nhìn về phía trước: Sức mạnh của YOLO26
Dành cho các nhà phát triển đang tìm kiếm hiệu năng tối ưu nhất, Ultralytics đã giới thiệu YOLO26 . Mẫu xe thế hệ tiếp theo này thay thế cho... YOLO11 với những tiến bộ mang tính cách mạng:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ quá trình xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Cách tiếp cận từ đầu đến cuối này giúp đơn giản hóa quy trình triển khai và giảm sự biến động độ trễ, một tính năng lần đầu tiên được khám phá trong YOLOv10 .
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) (như Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD để hội tụ nhanh hơn và ổn định huấn luyện tốt hơn.
- Tối ưu hóa ưu tiên cạnh: Với việc loại bỏ tổn hao tiêu điểm phân bố (DFL) và các yếu tố cụ thể khác. CPU Nhờ các tối ưu hóa, YOLO26 đạt được tốc độ suy luận nhanh hơn tới 43% trên CPU , trở thành lựa chọn vượt trội cho điện toán biên.
- ProgLoss + STAL: Các hàm mất mát mới cải thiện khả năng phát hiện vật thể nhỏ, một khả năng quan trọng đối với các ứng dụng máy bay không người lái và IoT.
Các trường hợp sử dụng lý tưởng
- Hãy chọn DAMO- YOLO nếu: Bạn là nhà nghiên cứu đang điều tra hiệu quả của NAS trong các hệ thống xử lý hình ảnh, hoặc nếu bạn có một ràng buộc phần cứng rất cụ thể yêu cầu kiến trúc tìm kiếm tùy chỉnh và bạn có đủ nguồn lực để quản lý một quy trình xử lý dữ liệu phức tạp.
- Hãy chọn YOLO11 nếu: Bạn cần một thiết bị dò tìm mạnh mẽ, đa năng, cân bằng hoàn hảo giữa tốc độ và độ chính xác. Thiết bị này lý tưởng cho các ứng dụng thương mại yêu cầu theo dõi , dễ dàng huấn luyện trên dữ liệu tùy chỉnh và khả năng tương thích nền tảng rộng.
- Chọn YOLO26 nếu: Bạn cần tốc độ suy luận nhanh nhất có thể, đặc biệt là trên các CPU biên, hoặc cần đơn giản hóa ngăn xếp triển khai của mình bằng cách loại bỏ NMS Đây là lựa chọn được khuyến nghị cho các dự án mới đòi hỏi hiệu quả và tính linh hoạt tiên tiến nhất.
Kết luận
Cả DAMO- YOLO Và YOLO11 Đóng góp đáng kể cho lĩnh vực thị giác máy tính. DAMO- YOLO Điều này chứng minh tiềm năng của việc tìm kiếm kiến trúc tự động, trong khi YOLO11 Hoàn thiện việc ứng dụng thực tiễn của học sâu với trọng tâm là tính khả dụng và hỗ trợ hệ sinh thái.
Đối với hầu hết các nhà phát triển và doanh nghiệp, hệ sinh thái Ultralytics —được neo bởi YOLO11 Và hệ thống YOLO26 tiên tiến – cung cấp con đường trực tiếp nhất để tạo ra giá trị. Với tài liệu đầy đủ, sự hỗ trợ tích cực từ cộng đồng và các công cụ như Nền tảng Ultralytics , người dùng có thể tự tin và nhanh chóng chuyển từ ý tưởng sang triển khai.
Đối với những ai quan tâm đến các loại hình kiến trúc khác, thì Ultralytics Tài liệu cũng cung cấp so sánh với các mô hình như RT-DETR (Real-Time DEtection TRansformer) và YOLOv9 , đảm bảo bạn có cái nhìn toàn diện khi lựa chọn công cụ phù hợp cho nhu cầu AI thị giác của mình.