YOLOv5 so với DAMO-YOLO: So sánh Kỹ thuật Toàn diện
Lĩnh vực thị giác máy tính thời gian thực đang liên tục phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực tìm kiếm sự cân bằng hoàn hảo giữa độ chính xác, tốc độ và tính khả dụng. Hai mô hình nổi bật đã định hình hành trình này là Ultralytics YOLOv5 và DAMO- YOLO của Alibaba.
Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về kiến trúc, các chỉ số hiệu suất và phương pháp đào tạo của chúng để giúp bạn chọn mô hình phù hợp cho lần triển khai tiếp theo.
Hình nền mẫu
Trước khi đi sâu vào các chi tiết kỹ thuật, điều quan trọng là phải hiểu nguồn gốc và triết lý thiết kế chính đằng sau mỗi mô hình tầm nhìn có tầm ảnh hưởng này.
Ultralytics YOLOv5
Được phát triển bởi Glenn Jocher và nhóm tại Ultralytics , YOLOv5 Nó đã trở thành một tiêu chuẩn trong ngành kể từ khi ra mắt. Được xây dựng nguyên bản trên nền tảng PyTorch , nó ưu tiên trải nghiệm phát triển đơn giản và khả năng triển khai mạnh mẽ ngay từ đầu.
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Tài liệu:Tài liệu Ultralytics YOLOv5
DAMO-YOLO
Được tạo ra bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO Tập trung mạnh vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và các kỹ thuật chưng cất nâng cao. Nó đẩy giới hạn lý thuyết về hiệu năng phần cứng cụ thể, phục vụ mạnh mẽ cho các môi trường nghiên cứu và biên cần tinh chỉnh tối đa.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
Đổi mới Kiến trúc
Cả hai mô hình đều tận dụng các khái niệm cấu trúc độc đáo để đạt được hiệu suất thời gian thực, mặc dù phương pháp tiếp cận của chúng khác nhau đáng kể.
YOLOv5 Tính ổn định và tính linh hoạt
YOLOv5 Nó sử dụng kiến trúc xương sống CSP (Cross Stage Partial) được sửa đổi kết hợp với phần cổ PANet (Path Aggregation Network). Cấu trúc này rất hiệu quả, giảm thiểu việc sử dụng bộ nhớ CUDA trong cả quá trình huấn luyện và suy luận.
Một trong số YOLOv5 Điểm mạnh lớn nhất của nó là tính linh hoạt trong nhiều tác vụ . Ngoài việc dự đoán hộp giới hạn, nó còn cung cấp các kiến trúc chuyên dụng cho phân đoạn ảnh và phân loại ảnh , cho phép các nhà phát triển chuẩn hóa quy trình xử lý hình ảnh của họ xung quanh một khung sườn duy nhất, thống nhất.
DAMO- YOLO Tìm kiếm kiến trúc tự động
DAMO- YOLO Điểm đột phá cốt lõi của hệ thống là kiến trúc MAE-NAS Backbone . Sử dụng thuật toán tìm kiếm tiến hóa đa mục tiêu, nhóm nghiên cứu của Alibaba đã phát hiện ra các kiến trúc mạng lưới cân bằng giữa độ chính xác phát hiện và tốc độ suy luận một cách linh hoạt.
Ngoài ra, nó còn có phần cổ Efficient RepGFPN giúp cải thiện khả năng kết hợp đặc trưng — rất có lợi cho các biến thể tỷ lệ phức tạp thường thấy trong phân tích ảnh vệ tinh . Thiết kế ZeroHead của nó đơn giản hóa các lớp dự đoán cuối cùng để giảm độ trễ, mặc dù việc tạo cấu trúc phức tạp này có thể làm cho kiến trúc trở nên cứng nhắc và khó sửa đổi hơn cho các ứng dụng tùy chỉnh.
Yêu cầu bộ nhớ
Các kiến trúc dựa trên Transformer thường gặp khó khăn với việc tiêu thụ VRAM cao. Cả hai YOLOv5 và DAMO- YOLO Sử dụng các thiết kế tích chập hiệu quả để giữ cho dung lượng bộ nhớ ở mức thấp, nhưng Ultralytics Các mô hình này được tối ưu hóa đáng kể cho GPU dành cho người tiêu dùng, giúp chúng dễ tiếp cận hơn nhiều đối với các nhà nghiên cứu độc lập và các công ty khởi nghiệp.
Hiệu suất và số liệu
Việc đánh giá các bộ phát hiện vật thể thời gian thực đòi hỏi phải xem xét một ma trận các yếu tố sau: mAP (Độ chính xác trung bình), tốc độ suy luận và các tham số kích thước mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Trong khi DAMO- YOLO đạt được khả năng cạnh tranh cao mAP điểm số ở các mức tham số nhất định, YOLOv5 Nó luôn thể hiện tốc độ TensorRT vượt trội và số lượng tham số cực thấp cho các cấu hình nano và nhỏ. Sự cân bằng hiệu năng này đảm bảo YOLOv5 Hoạt động hiệu quả trong nhiều kịch bản triển khai tại biên khác nhau.
Hiệu quả huấn luyện và hệ sinh thái
Độ chính xác về mặt lý thuyết của một mô hình chỉ tốt khi nó có thể được áp dụng trong thực tế. Đây là điểm khác biệt đáng kể giữa các mô hình.
Sự phức tạp của quá trình chưng cất
DAMO- YOLO Nó dựa rất nhiều vào phương pháp huấn luyện nhiều giai đoạn. Nó triển khai kỹ thuật chưng cất kiến thức thầy-trò được gọi là AlignedOTA. Mặc dù điều này giúp khai thác tối đa hiệu năng từ mô hình học sinh, nhưng ban đầu nó yêu cầu huấn luyện một mô hình giáo viên khổng lồ. Điều này làm tăng đáng kể thời gian tính toán, chi phí năng lượng và phần cứng cần thiết, tạo ra nút thắt cổ chai cho các nhóm học máy linh hoạt.
Cái Ultralytics Ưu điểm: Dễ sử dụng
Ngược lại, hệ sinh thái Ultralytics nổi tiếng toàn cầu nhờ các API trực quan và hiệu quả đào tạo . Được hỗ trợ bởi quá trình phát triển tích cực và một cộng đồng mã nguồn mở khổng lồ, các nhà phát triển có thể đào tạo, xác thực và triển khai các mô hình một cách liền mạch.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
Ultralytics Ngoài ra, nó còn cung cấp hỗ trợ tích hợp cho việc theo dõi thí nghiệm thông qua các công cụ như... Weights & Biases Và Comet Học máy (ML), tạo ra quy trình làm việc liền mạch.
Các trường hợp sử dụng thực tế
- YOLOv5 hoạt động xuất sắc trong môi trường sản xuất tốc độ cao. Khả năng xuất dữ liệu dễ dàng của nó khiến nó trở thành lựa chọn hàng đầu cho phân tích bán lẻ thông minh , phát hiện lỗi sản xuất tốc độ cao và tích hợp vào các ứng dụng di động thông qua CoreML .
- DAMO- YOLO rất phù hợp cho việc đánh giá chuẩn mực học thuật nghiêm ngặt và các trường hợp có sẵn nguồn tài nguyên tính toán khổng lồ để thực hiện các quá trình huấn luyện dài, được tinh chỉnh nhằm mục đích tối ưu hóa từng phần nhỏ. mAP Cải tiến dành cho các mục tiêu phần cứng cụ thể, cố định.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv5 và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv5
YOLOv5 là một lựa chọn tốt cho:
- Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có trong đó YOLOv5 Dài track Lịch sử hoạt động ổn định, hệ thống tài liệu đầy đủ và sự ủng hộ mạnh mẽ từ cộng đồng được đánh giá cao.
- Đào tạo trong điều kiện nguồn lực hạn chế: Môi trường có nguồn lực hạn chế GPU nguồn lực ở đâu YOLOv5 Quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn là những lợi thế của nó.
- Hỗ trợ định dạng xuất khẩu đa dạng: Các dự án yêu cầu triển khai trên nhiều định dạng khác nhau, bao gồm ONNX , TensorRT , CoreML và TFLite .
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Bước tiến tiếp theo: YOLO26
Nếu bạn đang bắt đầu một dự án mới, điều rất nên làm là hướng đến tương lai. Ultralytics YOLO26 được xây dựng dựa trên nền tảng vững chắc của... YOLOv5 , tích hợp những tiến bộ mang tính cách mạng, định nghĩa lại trí tuệ nhân tạo thị giác tiên tiến nhất.
Tại sao nên nâng cấp lên YOLO26?
Được phát hành và nhận được sự hoan nghênh rộng rãi, YOLO26 là một hệ thống end-to-end hoàn chỉnh. Nó sở hữu thiết kế End-to-End NMS -Free , loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression, giúp triển khai nhanh hơn và đơn giản hơn đáng kể.
Những cải tiến chính trong YOLO26 bao gồm:
- MuSGD Optimizer: Lấy cảm hứng từ những đổi mới trong đào tạo LLM, công cụ lai này bao gồm... SGD và Muon đảm bảo quá trình huấn luyện cực kỳ ổn định và sự hội tụ nhanh chóng.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho điện toán biên, lý tưởng cho các thiết bị IoT hoạt động mà không cần GPU chuyên dụng.
- ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện đáng kể khả năng nhận dạng các vật thể nhỏ, điều này rất quan trọng đối với hình ảnh từ máy bay không người lái và robot.
- Cải tiến chuyên biệt cho từng tác vụ: Từ việc tính toán tổn thất góc chuyên dụng cho hộp giới hạn định hướng (OBB) đến ước lượng logarit khả năng dư (RLE) để ước lượng tư thế chính xác, YOLO26 xử lý các lĩnh vực phức tạp một cách dễ dàng.
Kết luận
Cả hai YOLOv5 và DAMO- YOLO đã khẳng định vị trí của mình trong lịch sử phát hiện đối tượng. DAMO- YOLO Đây vẫn là một lĩnh vực nghiên cứu hấp dẫn trong tìm kiếm và chắt lọc kiến trúc mạng thần kinh. Tuy nhiên, đối với các tổ chức ưu tiên một hệ sinh thái được duy trì tốt , dễ sử dụng và con đường nhanh chóng để đưa vào sản xuất, Ultralytics Các mẫu mã vẫn không có đối thủ.
Chúng tôi đặc biệt khuyên bạn nên sử dụng Nền tảng Ultralytics để chú thích, huấn luyện và triển khai các mô hình thế hệ tiếp theo, chẳng hạn như YOLO26, đảm bảo quy trình xử lý hình ảnh máy tính của bạn luôn sẵn sàng cho tương lai, nhanh chóng và có độ chính xác vượt trội.
Đọc thêm
- Khám phá công nghệ RT-DETR dựa trên biến áp cho các ứng dụng đòi hỏi độ chính xác cao.
- Tìm hiểu về mẫu YOLO11 thế hệ trước.
- Khám phá cách tối ưu hóa việc triển khai với OpenVINO .