So sánh kỹ thuật YOLO11 và DAMO-YOLO
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của dự án. Trang này trình bày so sánh kỹ thuật chi tiết giữa Ultralytics YOLO11 và DAMO- YOLO , hai kiến trúc hiệu suất cao được thiết kế cho tốc độ và độ chính xác. Trong khi DAMO- YOLO giới thiệu các kỹ thuật cải tiến từ nghiên cứu học thuật, YOLO11 nổi bật là giải pháp linh hoạt, sẵn sàng đưa vào sản xuất với sự hỗ trợ của hệ sinh thái mạnh mẽ.
Tóm tắt điều hành
Ultralytics YOLO11 đại diện cho sự phát triển mới nhất trong YOLO Dòng sản phẩm này tối ưu hóa suy luận thời gian thực trên nhiều phần cứng khác nhau, từ thiết bị biên đến máy chủ đám mây. Nó hỗ trợ đa tác vụ gốc—bao gồm phát hiện, phân đoạn và ước tính tư thế—biến nó thành giải pháp thống nhất cho các quy trình AI phức tạp.
DAMO- YOLO , do Tập đoàn Alibaba phát triển, tập trung vào việc cân bằng tốc độ và độ chính xác phát hiện bằng cách sử dụng Tìm kiếm Kiến trúc Nơ-ron (NAS) và các kỹ thuật hợp nhất tính năng mới. Đây chủ yếu là một bộ phát hiện hướng đến nghiên cứu, được tối ưu hóa cho GPU thông lượng.
Ultralytics YOLO11
Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolo11 /
YOLO11 Tinh chỉnh công nghệ tiên tiến bằng cách giới thiệu những cải tiến về kiến trúc, giúp nâng cao khả năng trích xuất đặc điểm mà vẫn duy trì hiệu suất cao. Sản phẩm sử dụng xương sống CSPNet đã được cải tiến và đầu dò không neo tiên tiến để mang lại độ chính xác vượt trội với ít tham số hơn so với các thế hệ trước.
Các Tính Năng và Điểm Mạnh Chủ Yếu
- Tính linh hoạt: Không giống như nhiều mô hình chuyên dụng, YOLO11 là một nền tảng đa tác vụ. Nó hỗ trợ phát hiện đối tượng , phân đoạn thực thể , phân loại hình ảnh , ước tính tư thế và hộp giới hạn định hướng (OBB) .
- Kiến trúc tinh tế: Kết hợp các khối C3k2 và các mô-đun C2PSA (Phân đoạn chéo với chú ý không gian) để nắm bắt các mẫu phức tạp một cách hiệu quả, cải thiện hiệu suất trên các vật thể nhỏ và nền khó.
- Hỗ trợ phần cứng rộng rãi: Tối ưu hóa cho CPU và GPU suy luận, cung cấp các thang đo mô hình khác nhau (Nano đến X-Large) để phù hợp với các ràng buộc từ Raspberry Pi đến NVIDIA Cụm A100.
- Dễ sử dụng: Ultralytics Python API và CLI cho phép các nhà phát triển đào tạo, xác thực và triển khai các mô hình với mã tối thiểu.
Hệ sinh thái sẵn sàng sản xuất
YOLO11 tích hợp liền mạch với hệ sinh thái Ultralytics , bao gồm các công cụ quản lý dữ liệu, đào tạo mô hình thông qua Ultralytics HUB và xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , TensorRT và CoreML .
DAMO-YOLO
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO
DAMO- YOLO được thiết kế tập trung vào độ trễ thấp và thông lượng cao cho các ứng dụng công nghiệp. Nó giới thiệu một số thành phần "công nghệ mới" cho YOLO gia đình phải đẩy mạnh sự đánh đổi giữa tốc độ và độ chính xác.
Đổi mới kiến trúc
- Xương sống MAE-NAS: Sử dụng Tìm kiếm kiến trúc nơ-ron (NAS) được hướng dẫn bởi Lỗi tuyệt đối trung bình (MAE) để tự động khám phá cấu trúc mạng hiệu quả.
- RepGFPN hiệu quả: Mạng kim tự tháp tính năng tổng quát (GFPN) sử dụng tham số hóa lại, cho phép hợp nhất tính năng phức tạp trong quá trình đào tạo trong khi thu gọn thành cấu trúc nhanh hơn, đơn giản hơn trong quá trình suy luận.
- ZeroHead: Đầu phát hiện nhẹ giúp tách biệt nhiệm vụ phân loại và hồi quy, giúp giảm đáng kể khối lượng tính toán của các lớp đầu ra cuối cùng.
- AlignedOTA: Chiến lược gán nhãn nâng cao giúp giải quyết tình trạng không khớp giữa độ tin cậy phân loại và độ chính xác hồi quy trong quá trình đào tạo.
Trong khi DAMO- YOLO Mặc dù vượt trội về các số liệu cụ thể, nhưng nó chủ yếu là một kho lưu trữ nghiên cứu. Nó thiếu tài liệu mở rộng, cập nhật liên tục và hỗ trợ cộng đồng rộng rãi như trong Ultralytics hệ sinh thái.
Chỉ số hiệu suất: Đối đầu
Bảng sau đây so sánh hiệu suất của YOLO11 và DAMO- YOLO trên tập dữ liệu COCO val2017 . Các số liệu chính bao gồm Độ chính xác trung bình ( mAP ) và tốc độ suy luận trên CPU Và GPU phần cứng.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích kết quả
- Sự thống trị của hiệu quả: YOLO11 thể hiện hiệu quả tham số vượt trội. Ví dụ, mô hình YOLO11m đạt 51,5 mAP chỉ với 20,1 triệu tham số, trong khi DAMO-YOLOm tương đương tụt hậu ở mức 49,2 mAP với phạm vi lớn hơn là 28,2 triệu tham số.
- Độ chính xác tối ưu: Biến thể lớn nhất, YOLO11x , đạt tới 54,7 mAP đáng kinh ngạc, vượt qua DAMO- lớn nhất YOLO mô hình được liệt kê. Điều này làm cho YOLO11 sự lựa chọn ưu tiên cho các nhiệm vụ có độ chính xác cao như chụp ảnh y tế hoặc phát hiện khuyết tật.
- Triển khai Edge: Mô hình YOLO11n (Nano) cực kỳ nhẹ (2,6 triệu tham số) và nhanh (1,5 ms trên T4), khiến nó trở nên hoàn hảo cho các hệ thống nhúng có bộ nhớ hạn chế. Ngược lại, DAMO- nhỏ nhất YOLO mô hình nặng hơn đáng kể (8,5M tham số).
- Hiệu suất CPU : Ultralytics cung cấp minh bạch CPU điểm chuẩn, làm nổi bật YOLO11 khả năng triển khai mà không cần bộ tăng tốc chuyên dụng. DAMO- YOLO không báo cáo chính thức CPU tốc độ, điều này hạn chế khả năng đánh giá của nó đối với các ứng dụng IoT công suất thấp.
Kỹ thuật chuyên sâu
Đào tạo và Kiến trúc
DAMO- YOLO dựa rất nhiều vào Tìm kiếm Kiến trúc Thần kinh (NAS) để xác định xương sống của nó. Mặc dù về mặt lý thuyết, điều này có thể tạo ra các cấu trúc tối ưu, nhưng nó thường dẫn đến các khối không đồng đều, có thể không thân thiện với phần cứng trên tất cả các thiết bị. Ngược lại, YOLO11 sử dụng các khối tinh chế, thủ công (C3k2, C2PSA) được thiết kế trực quan cho GPU tiêu chuẩn và CPU thư viện tăng tốc.
YOLO11 cũng nhấn mạnh hiệu quả đào tạo . Nó hội tụ nhanh chóng nhờ các siêu tham số được tối ưu hóa và các chiến lược tăng cường dữ liệu. Yêu cầu bộ nhớ trong quá trình đào tạo thường thấp hơn so với các kiến trúc phức tạp dựa trên máy biến áp hoặc NAS, cho phép các nhà nghiên cứu đào tạo các mô hình hiệu quả trên phần cứng tiêu dùng.
Hệ sinh thái và khả năng sử dụng
Một trong những yếu tố khác biệt quan trọng nhất là hệ sinh thái. DAMO- YOLO chủ yếu là kho lưu trữ mã để tái tạo kết quả nghiên cứu.
Ultralytics YOLO11 Tuy nhiên, đây là một nền tảng cung cấp dịch vụ đầy đủ:
- Tài liệu: Hướng dẫn toàn diện về mọi khía cạnh của đường ống.
- Tích hợp: Hỗ trợ gốc cho MLFlow , TensorBoard và Weights & Biases để theo dõi thử nghiệm.
- Cộng đồng: Một cộng đồng lớn và năng động trên GitHub và Discord đảm bảo lỗi được sửa nhanh chóng và câu hỏi được trả lời.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for deployment
path = model.export(format="onnx")
Đề xuất trường hợp sử dụng
Khi nào nên chọn Ultralytics YOLO11
- Triển khai trong thế giới thực: Nếu bạn cần triển khai trên nhiều phần cứng khác nhau ( iOS , Android , Bờ rìa TPU , Jetson), YOLO11 Khả năng xuất khẩu của là vô song.
- Đường ống tầm nhìn phức tạp: Khi dự án của bạn yêu cầu nhiều hơn là chỉ các hộp giới hạn—chẳng hạn như theo dõi các đối tượng hoặc ước tính tư thế cơ thể — YOLO11 xử lý những điều này một cách tự nhiên.
- Tạo mẫu nhanh: Tính dễ sử dụng cho phép các nhà phát triển chuyển từ dữ liệu sang bản demo hoạt động chỉ trong vài phút.
- Hạn chế về tài nguyên: Các mẫu Nano và Small cung cấp tỷ lệ độ chính xác trên kích thước tốt nhất cho các thiết bị chạy bằng pin.
Khi nào nên cân nhắc DAMO-YOLO
- Nghiên cứu học thuật: Các nhà nghiên cứu nghiên cứu hiệu quả của NAS trong các kỹ thuật phát hiện đối tượng hoặc tham số hóa lại có thể tìm thấy DAMO- YOLO một cơ sở có giá trị.
- Thiết lập GPU cụ thể: Trong các tình huống mà các khối kiến trúc cụ thể của DAMO- YOLO nếu tình cờ phù hợp hoàn hảo với hệ thống phân cấp bộ nhớ đệm của bộ tăng tốc mục tiêu, nó có thể cung cấp thông lượng cạnh tranh.
Kết luận
Trong khi DAMO- YOLO Giới thiệu các khái niệm học thuật ấn tượng như MAE-NAS và RepGFPN, Ultralytics YOLO11 vẫn là lựa chọn hàng đầu cho đại đa số các nhà phát triển và doanh nghiệp. Sự kết hợp giữa độ chính xác tiên tiến, kiến trúc gọn nhẹ và hệ sinh thái phát triển mạnh mẽ đảm bảo các dự án không chỉ hiệu suất cao mà còn có khả năng bảo trì và mở rộng.
Đối với các nhà phát triển đang tìm kiếm một giải pháp thị giác máy tính đáng tin cậy, linh hoạt và hiệu suất cao, YOLO11 cung cấp các công cụ và số liệu cần thiết để thành công vào năm 2025 và sau đó.
Khám Phá Các So Sánh Mô Hình Khác
Để hiểu rõ hơn về bối cảnh của các mô hình phát hiện đối tượng, hãy khám phá những so sánh liên quan sau:
- YOLO11 so với YOLOv10
- YOLO11 so với YOLOv8
- DAMO-YOLO so với RT-DETR
- DAMO-YOLO so với YOLOX
- YOLO11 so với EfficientDet