DAMO- YOLO so với YOLOv6 -3.0: So sánh kỹ thuật
Việc lựa chọn kiến trúc phát hiện đối tượng lý tưởng là một quyết định then chốt đối với các kỹ sư thị giác máy tính, thường đòi hỏi sự cân bằng cẩn thận giữa độ chính xác, độ trễ suy luận và các hạn chế về phần cứng. Hướng dẫn này cung cấp một phân tích kỹ thuật toàn diện so sánh DAMO- YOLO , một mô hình có độ chính xác cao của Tập đoàn Alibaba, và YOLOv6 , một nền tảng tập trung vào hiệu quả của Meituan.
Chúng tôi xem xét những cải tiến về kiến trúc, hiệu suất chuẩn trên các tập dữ liệu tiêu chuẩn và tính phù hợp để triển khai trong thực tế. Ngoài ra, chúng tôi cũng khám phá cách Ultralytics YOLO11 cung cấp một giải pháp thay thế hiện đại và linh hoạt cho các nhà phát triển đang tìm kiếm một giải pháp thống nhất.
Tổng quan về DAMO-YOLO
DAMO- YOLO là một phương pháp phát hiện đối tượng tiên tiến do Tập đoàn Alibaba phát triển. Phương pháp này ưu tiên sự cân bằng giữa tốc độ và độ chính xác bằng cách kết hợp Tìm kiếm Kiến trúc Nơ-ron (NAS) và một số mô-đun mới được thiết kế để loại bỏ các điểm nghẽn tính toán.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO
Tài liệu: https://github.com/tinyvision/DAMO- YOLO /blob/master/README.md
Kiến trúc và các tính năng chính
DAMO- YOLO giới thiệu chiến lược mở rộng quy mô "Từ nhỏ đến lớn" được hỗ trợ bởi thiết kế kiến trúc độc đáo. Các thành phần chính bao gồm:
- Xương sống MAE-NAS: Sử dụng Tìm kiếm kiến trúc nơ-ron (NAS) , mô hình này sử dụng xương sống MazeNet có cấu trúc đa dạng để tối đa hóa hiệu quả trích xuất tính năng trong các ngân sách tính toán khác nhau.
- RepGFPN hiệu quả: Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) được tăng cường với tham số hóa lại (Rep) cho phép hợp nhất đặc trưng đa thang đo vượt trội. Thiết kế này đảm bảo thông tin không gian cấp thấp và thông tin ngữ nghĩa cấp cao được kết hợp hiệu quả mà không phát sinh chi phí độ trễ lớn.
- ZeroHead: Thiết kế đầu phát hiện tối giản ("ZeroHead") giúp giảm đáng kể số lượng tham số. Bằng cách tách biệt hiệu quả các tác vụ phân loại và hồi quy, nó duy trì hiệu suất cao đồng thời tinh giản các lớp dự đoán cuối cùng.
- AlignedOTA: Một chiến lược gán nhãn nâng cao giúp giải quyết sự sai lệch giữa điểm phân loại và IoU (Intersection over Union) hồi quy, đảm bảo mô hình tập trung vào các anchor chất lượng cao trong quá trình huấn luyện.
Điểm mạnh và Điểm yếu
DAMO- YOLO tỏa sáng trong những tình huống mà việc tận dụng tối đa từng phần trăm mAP là rất quan trọng.
Ưu điểm:
- Độ chính xác cao: Thường vượt trội hơn các mô hình tương đương trong mAP dành cho các kích thước vừa và nhỏ nhờ hệ thống xương sống được tối ưu hóa cho NAS.
- Thiết kế sáng tạo: Khái niệm ZeroHead giúp giảm tải tính toán nặng nề thường thấy ở các đầu phát hiện.
- Chưng cất mạnh: Bao gồm cơ chế chưng cất mạnh (Chưng cất kiến thức) giúp cải thiện hiệu suất của các mô hình học sinh nhỏ hơn khi sử dụng mạng lưới giáo viên lớn hơn.
Nhược điểm:
- Kiến trúc phức tạp: Việc sử dụng xương sống do NAS tạo ra có thể khiến kiến trúc khó tùy chỉnh hoặc gỡ lỗi hơn so với các thiết kế dựa trên CSP tiêu chuẩn.
- Hệ sinh thái hạn chế: Là bản phát hành tập trung vào nghiên cứu, phiên bản này thiếu khả năng tích hợp công cụ của bên thứ ba rộng rãi thường thấy trong các hệ sinh thái rộng hơn.
- Độ trễ thay đổi: Mặc dù được tối ưu hóa, cấu trúc NAS không phải lúc nào cũng tương thích hoàn hảo với các bộ tăng tốc phần cứng cụ thể như CNN tiêu chuẩn.
Các trường hợp sử dụng lý tưởng
- Giám sát thành phố thông minh: Nơi cần độ chính xác cao detect các vật thể nhỏ như người đi bộ hoặc phương tiện ở xa.
- Kiểm tra chất lượng tự động: Xác định các lỗi nhỏ trong dây chuyền sản xuất nơi độ chính xác là tối quan trọng.
YOLOv6 -3.0 Tổng quan
YOLOv6-3.0 là phiên bản thứ ba của framework YOLOv6 do Meituan phát triển. Nó được thiết kế đặc biệt cho các ứng dụng công nghiệp, nhấn mạnh vào thông lượng cao trên GPU và dễ triển khai.
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/ YOLOv6
Tài liệu: https://docs. ultralytics .com/models/yolov6/
Kiến trúc và các tính năng chính
YOLOv6 -3.0 tập trung vào thiết kế thân thiện với phần cứng giúp tối đa hóa việc sử dụng GPU :
- EfficientRep Backbone: Xương sống sử dụng các khối có thể tham số hóa lại để cô đọng các cấu trúc thời gian đào tạo phức tạp thành các phép tích chập 3x3 đơn giản để suy luận, tăng tốc độ trên phần cứng như NVIDIA TensorRT .
- Cổ Rep-PAN: Kiến trúc cổ cân bằng khả năng kết hợp tính năng với hiệu quả của phần cứng, đảm bảo dữ liệu truyền tải trơn tru qua mạng mà không bị tắc nghẽn.
- Ghép nối hai chiều (BiC): Nâng cao độ chính xác định vị bằng cách cải thiện cách tổng hợp các tính năng trên nhiều thang đo khác nhau.
- Huấn luyện có hỗ trợ Anchor (AAT): Một chiến lược kết hợp những lợi thế của các mô hình dựa trên anchor và không anchor trong giai đoạn huấn luyện để ổn định sự hội tụ và cải thiện độ chính xác cuối cùng.
Điểm mạnh và Điểm yếu
YOLOv6 -3.0 là một công cụ mạnh mẽ cho các môi trường công nghiệp đòi hỏi tiêu chuẩn GPU triển khai.
Ưu điểm:
- Tốc độ suy luận: Hàm
nanoBiến thể này cực kỳ nhanh, lý tưởng cho các yêu cầu FPS cao. - Tối ưu hóa phần cứng: Được thiết kế rõ ràng cho GPU thông lượng, hoạt động tốt với TensorRT lượng tử hóa .
- Triển khai đơn giản: Việc tham số hóa lại giúp đơn giản hóa biểu đồ cuối cùng, giảm các vấn đề về khả năng tương thích trong quá trình xuất.
- Tốc độ suy luận: Hàm
Nhược điểm:
- Tập trung vào một nhiệm vụ: Chủ yếu có khả năng phát hiện đối tượng , thiếu hỗ trợ gốc cho phân đoạn hoặc ước tính tư thế trong kho lưu trữ cốt lõi so với các khuôn khổ đa nhiệm vụ.
- Hiệu quả tham số: Các biến thể lớn hơn có thể nặng hơn về mặt tham số so với một số đối thủ cạnh tranh nhưng vẫn đạt được độ chính xác tương tự.
Các trường hợp sử dụng lý tưởng
- Tự động hóa công nghiệp: Phân loại và lắp ráp tốc độ cao trên dây chuyền sản xuất.
- Phân tích bán lẻ: Suy luận theo thời gian thực để theo dõi kệ hàng và phân tích hành vi khách hàng.
- Điện toán biên: Triển khai các mô hình nhẹ như YOLOv6 -Lite trên thiết bị di động hoặc thiết bị nhúng.
Phân tích hiệu suất
So sánh dưới đây làm nổi bật hiệu suất của cả hai mô hình trên tập dữ liệu COCO . Các số liệu tập trung vào việc xác thực mAP (Độ chính xác trung bình trung bình) tại IoU 0,5-0,95, tốc độ suy luận trên GPU T4 sử dụng TensorRT và độ phức tạp của mô hình (Tham số và FLOP).
Thông tin chi tiết về hiệu suất
YOLOv6 nổi bật là nhà vô địch về tốc độ, cung cấp khả năng suy luận dưới 2ms, khiến nó trở nên hoàn hảo cho các ứng dụng cực kỳ nhạy cảm với độ trễ. Tuy nhiên, các mô hình DAMO- YOLO (cụ thể là các biến thể Nhỏ và Vừa) thường đạt được tốc độ cao hơn. mAP điểm số cao hơn của họ YOLOv6 các đối tác, chứng minh hiệu quả kiến trúc mạnh mẽ có được từ xương sống NAS của họ.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6 -3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6 -3.0 giây | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6 -3,0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6 -3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Các Ultralytics Lợi thế
Trong khi DAMO- YOLO Và YOLOv6 -3.0 cung cấp các tính năng hấp dẫn cho các phân khúc cụ thể, Ultralytics YOLO11 đại diện cho một sự phát triển toàn diện trong lĩnh vực AI thị giác máy tính. Được thiết kế cho các nhà phát triển cần nhiều hơn một mô hình phát hiện, YOLO11 tích hợp hiệu suất tiên tiến với trải nghiệm người dùng vô song.
Tại sao chọn Ultralytics YOLO ?
- Hệ sinh thái thống nhất: Không giống như các kho lưu trữ nghiên cứu độc lập, Ultralytics cung cấp một nền tảng toàn diện. Từ chú thích dữ liệu đến đào tạo và triển khai mô hình, quy trình làm việc liền mạch. Cộng đồng năng động trên GitHub và Discord đảm bảo bạn không bao giờ bị cô lập khi phát triển.
- Tính linh hoạt vô song: Một YOLO11 Kiến trúc mô hình hỗ trợ một loạt các tác vụ thị giác máy tính , bao gồm Phát hiện Đối tượng, Phân đoạn Thực thể , Ước tính Tư thế , Hộp Giới hạn Định hướng (OBB) và Phân loại . Tính linh hoạt này cho phép bạn xử lý các dự án phức tạp mà không cần chuyển đổi nền tảng.
- Hiệu quả đào tạo: Ultralytics các mô hình được tối ưu hóa để đào tạo hiệu quả , thường yêu cầu ít hơn đáng kể GPU bộ nhớ hơn so với các giải pháp thay thế dựa trên bộ biến áp. Các tính năng như tự động xác định kích thước lô và đào tạo độ chính xác hỗn hợp (AMP) được bật theo mặc định, giúp đơn giản hóa quá trình từ dữ liệu đến triển khai.
- Dễ sử dụng: Python API được thiết kế đơn giản. Bạn có thể tải một mô hình đã được đào tạo trước, chạy suy luận trên hình ảnh và xuất nó sang các định dạng như ONNX hoặc TensorRT chỉ với vài dòng mã.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
model.export(format="onnx")
Kết luận
Đối với các dự án đòi hỏi thông lượng cao nhất trên GPU công nghiệp, YOLOv6 là một ứng cử viên sáng giá. Nếu bạn tập trung tối đa hóa độ chính xác trong phạm vi tham số cụ thể khi sử dụng NAS, DAMO- YOLO là một lựa chọn tuyệt vời cho nghiên cứu.
Tuy nhiên, đối với đại đa số các ứng dụng thương mại và nghiên cứu, Ultralytics YOLO11 mang lại sự cân bằng tốt nhất giữa hiệu suất, khả năng sử dụng và khả năng bảo trì lâu dài. Khả năng xử lý nhiều tác vụ, kết hợp với hệ sinh thái mạnh mẽ và được bảo trì tốt, khiến nó trở thành lựa chọn được khuyến nghị để xây dựng các giải pháp thị giác máy tính có khả năng mở rộng.
Khám phá các Mô hình Khác
Mở rộng hiểu biết của bạn về bối cảnh phát hiện đối tượng bằng cách khám phá những so sánh chi tiết khác sau:
- YOLOv8 so với DAMO-YOLO
- YOLOv10 so với DAMO- YOLO
- RT-DETR so với DAMO-YOLO
- YOLOv8 so với YOLOv6
- YOLOv5 so với YOLOv6
- PP-YOLOE so với DAMO-YOLO
- EfficientDet so với YOLOv6
- YOLO11 so với RT-DETR