YOLOv10 vs DAMO- YOLO So sánh kỹ thuật giữa các thiết bị phát hiện vật thể thời gian thực
Khi xây dựng các hệ thống xử lý hình ảnh máy tính hiện đại, việc lựa chọn kiến trúc phát hiện đối tượng thời gian thực phù hợp là vô cùng quan trọng. Trong phân tích kỹ thuật toàn diện này, chúng tôi sẽ khám phá các kiến trúc, chỉ số hiệu suất và các trường hợp sử dụng lý tưởng cho YOLOv10 và DAMO- YOLO . Cả hai mô hình đều thể hiện những bước tiến đáng kể trong khả năng phát hiện đối tượng, nhưng chúng lại đi theo những con đường kiến trúc khác nhau để đạt được mục tiêu của mình.
Cho dù dự án của bạn yêu cầu triển khai trên phần cứng AI biên có tài nguyên hạn chế hay đòi hỏi độ chính xác tối đa trên GPU đám mây, việc hiểu rõ những điểm khác biệt tinh tế của các kiến trúc này sẽ giúp bạn đưa ra quyết định sáng suốt.
Khám phá YOLOv10
Được giới thiệu bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã tạo nên một cuộc cách mạng trong lĩnh vực này. YOLO gia đình bằng cách giới thiệu một phương pháp tiếp cận từ đầu đến cuối tự nhiên, loại bỏ hiệu quả nhu cầu về Non-Maximum Suppression ( NMS ) trong quá trình xử lý hậu kỳ.
YOLOv10 Chi tiết:
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức: Đại học Thanh Hoa
- Ngày: 23-05-2024
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Tài liệu: ultralytics
Các tính năng kiến trúc chính
YOLOv10 Điểm đổi mới chính của công ty là chiến lược Phân công kép nhất quán dành cho... NMS - Đào tạo miễn phí. Các thuật toán phát hiện vật thể truyền thống phụ thuộc rất nhiều vào... NMS Việc lọc các hộp giới hạn chồng chéo gây ra độ trễ không thể dự đoán được — một nút thắt cổ chai đáng kể đối với các ứng dụng thời gian thực như xe tự hành và robot tốc độ cao. Bằng cách dự đoán trực tiếp một hộp giới hạn tối ưu duy nhất cho mỗi đối tượng, YOLOv10 Đạt được khả năng suy luận có độ trễ cực thấp và dự đoán được.
Hơn nữa, mô hình này sử dụng thiết kế hướng đến hiệu quả và độ chính xác toàn diện . Kiến trúc tối ưu hóa nhiều thành phần khác nhau, bao gồm đầu phân loại nhẹ và lấy mẫu giảm không gian-kênh tách rời, giúp giảm đáng kể sự dư thừa tính toán. Điều này dẫn đến một kiến trúc có số lượng tham số thấp hơn và ít phép tính FLOP hơn trong khi vẫn duy trì độ chính xác trung bình ( mAP ) cạnh tranh.
Quy trình xuất khẩu được tối ưu hóa cho sản xuất
Bởi vì YOLOv10 loại bỏ NMS Các thao tác từ đồ thị suy luận, việc xuất mô hình sang các định dạng như ONNX hoặc TensorRT được đơn giản hóa tối đa, khiến nó đặc biệt phù hợp cho việc triển khai ở biên mạng.
Ví dụ Sử dụng
YOLOv10 được tích hợp sâu sắc vào Ultralytics Hệ sinh thái này cực kỳ dễ sử dụng thông qua gói Python Ultralytics .
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)
Khám phá DAMO- YOLO
Được phát triển bởi Tập đoàn Alibaba, DAMO- YOLO Tập trung vào việc khám phá các cấu trúc mạng hiệu quả cao thông qua Tìm kiếm Kiến trúc Mạng Thần kinh tự động (NAS), nhằm mục đích đẩy giới hạn Pareto về tốc độ và độ chính xác.
Chi tiết DAMO-YOLO:
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 23/11/2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO- YOLO
Các tính năng kiến trúc chính
DAMO- YOLO Mô hình này giới thiệu một số công nghệ mới được thiết kế riêng cho các ứng dụng công nghiệp. Nền tảng của mô hình là MAE-NAS Backbone , được tạo ra thông qua thuật toán tìm kiếm tiến hóa đa mục tiêu. Quá trình tự động này khám phá các cấu trúc xương sống tuân thủ nghiêm ngặt các ngân sách tính toán được xác định trước, tạo ra sự cân bằng tối ưu giữa độ chính xác và độ trễ suy luận.
Ngoài ra, kiến trúc này sử dụng một cổ Efficient RepGFPN . Mạng kim tự tháp đặc trưng này được thiết kế để cải thiện sự kết hợp đặc trưng trên các tỷ lệ khác nhau, điều này rất quan trọng đối với các tác vụ phức tạp như phân tích ảnh chụp từ trên không, nơi các đối tượng có kích thước khác nhau đáng kể. Để bổ sung cho điều này, DAMO- YOLO Nó triển khai ZeroHead , một đầu phát hiện tối giản giúp giảm đáng kể độ phức tạp của các lớp dự đoán cuối cùng, tiết kiệm thời gian tính toán quý giá trong quá trình suy luận.
So sánh hiệu suất
Khi đánh giá các kiến trúc phát hiện đối tượng, việc tìm ra sự cân bằng phù hợp giữa tốc độ suy luận, hiệu quả tham số và độ chính xác phát hiện là vô cùng quan trọng. Bảng dưới đây so sánh hiệu suất của YOLOv10 và DAMO- YOLO trên các kích thước mô hình tương ứng của chúng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Như đã được ghi nhận trong các bài kiểm tra so sánh, YOLOv10 Luôn cung cấp cấu hình độ trễ vượt trội. TensorRT Đặc biệt là ở phiên bản nano, yêu cầu số tham số và FLOPs ít hơn đáng kể so với DAMO- YOLO các mô hình tương đương của . Trong khi DAMO- YOLO cung cấp mạnh mẽ mAP ở dạng thu nhỏ, hiệu quả tham số và độ trễ suy luận của YOLOv10 Dòng sản phẩm này mang lại lợi thế rõ rệt cho các môi trường triển khai bị hạn chế.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv10 và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv10
YOLOv10 là một lựa chọn tốt cho:
- NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
- Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
- Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Lợi thế của Ultralytics
Mặc dù cả hai mô hình đều rất ấn tượng về mặt kỹ thuật, việc lựa chọn kiến trúc cho môi trường sản xuất cần phải xem xét nhiều hơn là chỉ các số liệu thô. Xây dựng bằng các mô hình được hỗ trợ sẵn bởi hệ sinh thái Ultralytics mang lại những lợi thế vượt trội cho cả nhà phát triển và nhà nghiên cứu.
Dễ sử dụng và hệ sinh thái được duy trì tốt
Không giống như các kho lưu trữ học thuật độc lập thường bị bỏ rơi, Ultralytics cung cấp một hệ sinh thái mạnh mẽ, được duy trì tích cực. Việc thiết lập các môi trường phức tạp cho các mô hình phụ thuộc nhiều vào các đường dẫn NAS có thể rất khó khăn. Ngược lại, Ultralytics cung cấp một giải pháp tiêu chuẩn hóa, trực quan. Python API và mạnh mẽ CLI Được hỗ trợ bởi tài liệu đầy đủ. Điều này giúp giảm đáng kể thời gian đưa các giải pháp thị giác tùy chỉnh ra thị trường.
Hiệu quả đào tạo và yêu cầu về bộ nhớ
Việc huấn luyện các mô hình lớn có thể nhanh chóng trở nên tốn kém về mặt tính toán. Ultralytics YOLO Kiến trúc từ xưa đến nay nổi tiếng với chiều cao thấp. CUDA Mức tiêu thụ bộ nhớ trong quá trình huấn luyện và suy luận. Hiệu quả này cho phép các nhà phát triển huấn luyện mô hình trên phần cứng cấp người tiêu dùng hoặc các phiên bản đám mây tiết kiệm chi phí mà không gặp phải lỗi hết bộ nhớ thường gặp khi làm việc với các mô hình dựa trên Transformer như RT-DETR .
Theo dõi thí nghiệm
Ultralytics Tích hợp sẵn với các công cụ MLOps hàng đầu. Bạn có thể dễ dàng track Bạn có thể theo dõi tiến trình huấn luyện mô hình của mình bằng cách tích hợp với Weights & Biases , Comet hoặc ClearML mà không cần thêm bất kỳ đoạn mã bổ sung nào.
Tính linh hoạt trên nhiều tác vụ
Một hạn chế đáng kể của nhiều mô hình phát hiện chuyên biệt là phạm vi tập trung hẹp của chúng. Trong phạm vi đó... Ultralytics Với hệ sinh thái này, bạn không chỉ giới hạn ở việc phát hiện đối tượng. Các công cụ có thể mở rộng liền mạch sang nhiều tác vụ thị giác máy tính khác , bao gồm phân đoạn đối tượng , phân loại hình ảnh , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) .
Hướng tới tương lai: Sự tiến hóa của YOLO26
Trong khi YOLOv10 tiên phong NMS -suy luận tự do và DAMO- YOLO Sức mạnh của NAS đã được chứng minh, lĩnh vực thị giác máy tính đang phát triển nhanh chóng. Đối với các nhà phát triển đang tìm kiếm giải pháp tiên tiến nhất, chúng tôi khuyên bạn nên xem xét Ultralytics YOLO26 .
Được phát hành như phiên bản kế nhiệm hoàn chỉnh của YOLO11 , YOLO26 được xây dựng dựa trên nền tảng của YOLO11. NMS - Bộ kem nền miễn phí của YOLOv10 nhưng nó còn tiến xa hơn đáng kể.
Những cải tiến quan trọng trong YOLO26 bao gồm:
- Tăng tốc độ suy luận CPU lên đến 43%: Được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị tiêu thụ điện năng thấp.
- Loại bỏ DFL: Chức năng Distribution Focal Loss (Mất tiêu điểm phân phối) đã được loại bỏ, đảm bảo việc xuất dữ liệu đơn giản hơn và tăng cường khả năng tương thích với nhiều mục tiêu triển khai khác nhau.
- MuSGD Optimizer: Một sự kết hợp của... SGD và Muon, mang lại sự ổn định trong huấn luyện LLM tiên tiến và khả năng hội tụ nhanh hơn trực tiếp vào thị giác máy tính.
- ProgLoss + STAL: Các hàm mất mát được cải tiến đáng kể, mang lại những nâng cao rõ rệt trong nhận dạng vật thể nhỏ, điều cần thiết cho các trường hợp sử dụng như nông nghiệp và viễn thám.
Bằng cách sử dụng Nền tảng Ultralytics được cải tiến hoàn toàn mới, các nhà phát triển có thể dễ dàng chú thích, huấn luyện và triển khai các mô hình thế hệ tiếp theo như YOLO26 chỉ với vài cú nhấp chuột, đảm bảo quy trình xử lý hình ảnh máy tính của bạn vừa hiện đại vừa có khả năng đáp ứng nhu cầu trong tương lai.