YOLO11 vs. DAMO- YOLO So sánh các thiết bị dò vật thể thế hệ tiếp theo
Việc lựa chọn kiến trúc tối ưu là một bước quan trọng trong bất kỳ dự án thị giác máy tính nào. Hướng dẫn kỹ thuật này cung cấp một so sánh toàn diện giữa hai mô hình detect đối tượng mạnh mẽ: Ultralytics YOLO11 và DAMO-YOLO. Chúng tôi sẽ đi sâu vào các đổi mới kiến trúc, mô hình huấn luyện và khả năng ứng dụng thực tế của chúng để giúp bạn chọn công cụ tốt nhất cho nhu cầu triển khai của mình.
Tổng quan về mô hình
Ultralytics YOLO11
Được phát triển bởi nhóm tại Ultralytics, YOLO11 đại diện cho một phiên bản lặp lại rất tinh vi trong dòng YOLO, tối ưu hóa mạnh mẽ cả độ chính xác và hiệu quả. Nó được thiết kế cho các nhà nghiên cứu và kỹ sư đang tìm kiếm một hệ sinh thái thống nhất, sẵn sàng cho sản xuất, trải dài từ quản lý tập dữ liệu đến triển khai biên.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- Tài liệu:https://docs.ultralytics.com/models/yolo11/
YOLO11 Nó nổi bật nhờ tính linh hoạt. Trong khi nhiều mô hình truyền thống chỉ tập trung vào các hộp giới hạn, YOLO11 Nền tảng này hỗ trợ phát hiện đối tượng , phân đoạn đối tượng , phân loại hình ảnh và ước tính tư thế một cách tự nhiên. Khả năng đa phương thức này cho phép các nhà phát triển hợp nhất các quy trình AI thị giác của họ trong một khung nền tảng duy nhất, được bảo trì tốt.
DAMO-YOLO
DAMO-YOLO được phát triển bởi các nhà nghiên cứu tại Alibaba Group. Nó tận dụng Tìm kiếm Kiến trúc Nơ-ron (NAS) để khám phá các backbone hiệu quả cao được tùy chỉnh cho suy luận thời gian thực trên GPU và các bộ tăng tốc khác.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Tài liệu:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Triết lý cốt lõi của DAMO- YOLO Phương pháp này xoay quanh việc tham số hóa biểu diễn và tìm kiếm tự động. Bằng cách sử dụng MAE-NAS (Tìm kiếm kiến trúc mạng nơ-ron tiến hóa đa mục tiêu), các tác giả đã thiết kế một kiến trúc xương sống tùy chỉnh giúp tăng tốc độ suy luận đáng kể trên phần cứng chuyên dụng. Nó cũng tích hợp một phần cổ được tối ưu hóa cao gọi là Efficient RepGFPN và cấu trúc ZeroHead được đơn giản hóa để giảm thiểu độ trễ.
Các mô hình khác để xem xét
Trong khi so sánh YOLO11 và DAMO- YOLO Hãy cân nhắc xem xét Ultralytics YOLO26 phiên bản mới hơn. Nó tích hợp sẵn tính năng giám sát đầu cuối. NMS - Suy luận miễn phí và mang lại hiệu suất nhanh hơn tới 43% CPU tốc độ. Bạn cũng có thể xem xét so sánh với YOLOX hoặc YOLOv8 .
So sánh hiệu năng và kiến trúc
Hiểu rõ sự đánh đổi về hiệu năng là điều vô cùng quan trọng khi triển khai các ứng dụng AI biên . Bảng dưới đây nêu rõ các chỉ số chính như độ chính xác trung bình ( mAP ) , độ trễ và kích thước tính toán.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Tìm hiểu sâu về kiến trúc
YOLO11 dựa trên một kiến trúc backbone được thiết kế tùy chỉnh, hiệu quả cao, cân bằng hoàn hảo giữa số lượng tham số và khả năng biểu diễn. Nó được tối ưu hóa để hoạt động tốt trên nhiều loại phần cứng, vượt trội một cách tự nhiên với việc sử dụng bộ nhớ CUDA tối thiểu trong cả quá trình huấn luyện và suy luận. Điều này làm cho nó trở thành một lựa chọn tuyệt vời cho phần cứng tiêu dùng tiêu chuẩn hoặc các thiết bị IoT bị hạn chế tài nguyên.
Ngược lại, các backbone được tạo bởi MAE-NAS của DAMO-YOLO được tinh chỉnh cho môi trường GPU thông lượng cao. RepGFPN (Mạng kim tự tháp đặc trưng tổng quát) hiệu quả của nó tích hợp nhiều tỷ lệ một cách mạnh mẽ. Tuy nhiên, trong khi việc tái tham số hóa (rep-parameterization) tăng tốc suy luận, nó có thể làm phức tạp quá trình triển khai nếu ngăn xếp phần cứng của bạn không hỗ trợ rõ ràng các hoạt động này một cách tốt.
Tính khả dụng và hiệu quả đào tạo
Khi tính đến thời gian phát triển, tính dễ sử dụng của một mô hình trở nên quan trọng không kém gì các chỉ số hiệu năng thô của nó.
YOLO11 được xây dựng dựa trên nguyên tắc dễ tiếp cận đối với nhà phát triển. Toàn diện ultralytics Gói này giúp đơn giản hóa quá trình phân tích cú pháp tập dữ liệu, tăng cường dữ liệu và tinh chỉnh siêu tham số. Việc xuất mô hình sang các định dạng sản xuất như... ONNX, TensorRT, và OpenVINO Chỉ cần một lệnh duy nhất.
from ultralytics import YOLO
# Initialize YOLO11 object detection model
model = YOLO("yolo11s.pt")
# Train the model with mixed precision on COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for edge deployment
model.export(format="engine", device=0)
DAMO-YOLO, có nguồn gốc từ nền tảng học thuật và nghiên cứu chuyên sâu, đưa ra một đường cong học tập dốc hơn. Đạt được độ chính xác cao nhất của nó thường liên quan đến các pipeline chưng cất tri thức phức tạp—có nghĩa là bạn phải huấn luyện một mạng "giáo viên" khổng lồ trước khi truyền kiến thức đó cho một mạng "học sinh" nhỏ hơn. Điều này làm tăng đáng kể chi phí tính toán GPU cần thiết và tổng thời gian huấn luyện so với các vòng lặp huấn luyện tinh gọn của các mô hình Ultralytics.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLO11 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và các ưu tiên hệ sinh thái của bạn.
Khi nào nên chọn YOLO11
YOLO11 là một lựa chọn tốt cho:
- Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
- Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
- Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.
Khi nào nên chọn DAMO-YOLO
DAMO-YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Các ứng dụng và trường hợp sử dụng trong thực tế
Hệ thống Tự hành và Máy bay không người lái
Đối với chụp ảnh trên không và triển khai UAV, YOLO11 mang lại sự cân bằng hiệu năng vô cùng thuận lợi. Phát hiện vật thể nhỏ là một trở ngại lớn trong phân tích dữ liệu từ máy bay không người lái, nhưng YOLO11 Hỗ trợ xử lý nhiều thang đo khác nhau một cách tự nhiên ngay từ đầu. Ngoài ra, yêu cầu bộ nhớ thấp cho phép YOLO11 Các phiên bản Nano và Small được thiết kế để chạy trực tiếp trên các CPU biên nhẹ hoặc NPU gắn trên máy bay không người lái.
Tự động hóa công nghiệp và kiểm soát chất lượng
Trong các nhà máy thông minh, độ trễ là yếu tố tối quan trọng. Mặc dù DAMO- YOLO cung cấp tốc độ suy luận mạnh mẽ trên các GPU cấp máy chủ nhờ vào kiến trúc RepGFPN, nhưng việc tích hợp cứng nhắc có thể gây ra sự dư thừa. YOLO11 Nó thường đóng vai trò là một giải pháp thay thế vượt trội cho việc kiểm soát chất lượng tự động nhờ vào các API theo dõi đơn giản và khả năng chuyển đổi liền mạch từ việc phát hiện thuần túy sang các tác vụ hộp giới hạn định hướng (OBB) nếu các khuyết tật yêu cầu nhận dạng ranh giới góc cạnh.
Chăm sóc sức khỏe thông minh và hình ảnh y tế
Các tập dữ liệu hình ảnh y tế thường có kích thước tương đối nhỏ, và việc tránh hiện tượng quá khớp (overfitting) là một thách thức. Các kỹ thuật tăng cường chủ động, kết hợp với các quy trình học chuyển giao tiêu chuẩn được cung cấp bởi Hệ sinh thái được duy trì tốt (Well-Maintained Ecosystem of...), giúp giải quyết vấn đề này. Ultralytics Nó giúp các bác sĩ lâm sàng và nhà phát triển triển khai các mô hình phát hiện khối u chính xác một cách đáng tin cậy. Sự hỗ trợ rộng lớn từ cộng đồng đảm bảo rằng các vấn đề trong các lĩnh vực phức tạp như chăm sóc sức khỏe được giải quyết nhanh chóng.
Cùng YOLO26 đón nhận tương lai!
Nếu bạn đang xây dựng một ứng dụng mới từ đầu, hãy cân nhắc tìm hiểu YOLO26 . Được phát hành vào đầu năm 2026, nó sử dụng trình tối ưu hóa MuSGD và các hàm ProgLoss, mang lại độ chính xác vượt trội trên các đối tượng nhỏ và cung cấp một quy trình hoàn chỉnh không cần NMS ngay từ đầu!
Cuối cùng, trong khi DAMO- YOLO vẫn là một minh chứng mạnh mẽ cho Tìm kiếm Kiến trúc Thần kinh, YOLO11 và các công nghệ mở rộng. Ultralytics Dòng sản phẩm này vẫn là sự lựa chọn hàng đầu cho các tác vụ thị giác máy tính thực tế, ưu tiên triển khai nhanh chóng, dễ sử dụng cho nhà phát triển và hiệu năng đa phương thức hàng đầu.