DAMO- YOLO so với YOLOv10 Sự tiến hóa của phương pháp phát hiện đối tượng hiệu quả trong thời gian thực
Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển nhanh chóng trong các kiến trúc phát hiện đối tượng thời gian thực. Khi so sánh DAMO- YOLO và YOLOv10 , chúng ta nhận thấy hai triết lý khác biệt trong thiết kế mô hình: tìm kiếm kiến trúc tự động so với phương pháp từ đầu đến cuối. NMS - Tối ưu hóa miễn phí. Mặc dù cả hai đều đẩy giới hạn về độ chính xác và tốc độ, nhưng cấu trúc cơ bản và trường hợp sử dụng lý tưởng của chúng lại khác nhau đáng kể.
DAMO- YOLO Tìm kiếm kiến trúc mạng nơ-ron ở quy mô lớn
Được phát triển bởi Tập đoàn Alibaba , DAMO- YOLO Nổi lên như một công cụ dò tìm mạnh mẽ tập trung vào việc tận dụng khả năng khám phá tự động để đạt hiệu quả về mặt cấu trúc.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Ngày: 23 tháng 11 năm 2022
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Điểm nổi bật về kiến trúc
DAMO- YOLO Nó dựa rất nhiều vào Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để cân bằng hiệu suất và độ trễ. Hệ thống cốt lõi của nó, được gọi là MAE-NAS, sử dụng tìm kiếm tiến hóa đa mục tiêu với ngân sách tính toán nghiêm ngặt để tìm ra độ sâu và chiều rộng lớp tối ưu.
Để xử lý việc kết hợp các đặc trưng trên nhiều tỷ lệ, mô hình sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả. Thiết kế cổ dày này đặc biệt giỏi trong việc trích xuất các hệ thống phân cấp không gian phức tạp, khiến nó hữu ích trong các kịch bản như phân tích ảnh chụp từ trên không . Ngoài ra, DAMO- YOLO Giới thiệu ZeroHead, một đầu phát hiện được tinh giản giúp giảm đáng kể độ phức tạp của các lớp dự đoán cuối cùng, dựa trên quy trình tăng cường chưng cất mạnh mẽ trong quá trình huấn luyện.
Đào tạo về chưng cất
DAMO- YOLO Phương pháp này thường sử dụng quy trình chưng cất kiến thức nhiều giai đoạn. Nó yêu cầu huấn luyện một mô hình "giáo viên" mạnh hơn để hướng dẫn mô hình "học sinh" nhỏ hơn, từ đó thu được mAP (độ chính xác trung bình) cao hơn nhưng làm tăng đáng kể thời gian tính toán GPU cần thiết.
YOLOv10 Tiên phong trong phát hiện đối tượng từ đầu đến cuối
Được phát hành một năm rưỡi sau đó, YOLOv10 đã tạo ra một sự thay đổi mô hình bằng cách loại bỏ hoàn toàn nhu cầu về việc loại bỏ tối đa không cần thiết (Non-Maximum Suppression) NMS ) trong quá trình suy luận.
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức:Đại học Thanh Hoa
- Ngày: 23 tháng 5 năm 2024
- Arxiv:2405.14458
- Tài liệu: Ultralytics YOLOv10
Điểm nổi bật về kiến trúc
Đặc điểm nổi bật của YOLOv10 là nhiệm vụ kép nhất quán của nó cho NMS - huấn luyện miễn phí. Các bộ dò truyền thống dự đoán nhiều hộp giới hạn chồng chéo cho một đối tượng duy nhất, đòi hỏi NMS để lọc các bản ghi trùng lặp. Bước xử lý hậu kỳ này tạo ra điểm nghẽn, đặc biệt là trên các thiết bị biên. YOLOv10 Giải quyết vấn đề này bằng cách cho phép mô hình tự nhiên dự đoán một hộp giới hạn chính xác duy nhất cho mỗi đối tượng.
Các tác giả cũng tập trung vào thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác. Bằng cách phân tích cẩn thận sự dư thừa tính toán trong các kiến trúc hiện có, họ đã tối ưu hóa phần xương sống và phần đầu để giảm số lượng FLOPs và tham số. Thiết kế gọn nhẹ này đảm bảo YOLOv10 Cung cấp độ trễ suy luận đặc biệt tốt khi xuất sang các định dạng như TensorRT hoặc OpenVINO .
Hiệu năng và điểm chuẩn
Bảng dưới đây minh họa các chỉ số hiệu suất thô trên tập dữ liệu COCO . Các giá trị tổng thể tốt nhất trong mỗi cột được in đậm .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Trong khi DAMO- YOLO Nó giữ vững vị thế về độ chính xác. YOLOv10 Luôn cung cấp độ trễ thấp hơn và trọng số mô hình nhỏ hơn đáng kể. Ví dụ, YOLOv10s đạt được hiệu suất cao hơn một chút. mAP (46,7%) so với DAMO-YOLO (46,0%) trong khi sử dụng ít hơn một nửa số tham số (7,2 triệu so với 16,3 triệu). Yêu cầu bộ nhớ thấp hơn giúp YOLOv10 Một lựa chọn vô cùng linh hoạt cho các hệ thống nhúng.
Hiệu quả và tính khả dụng của đào tạo
Khi chuyển đổi từ nghiên cứu học thuật sang sản xuất thực tế, tính dễ sử dụng là yếu tố tối quan trọng. DAMO- YOLO Quy trình chưng cất nhiều giai đoạn và cấu hình NAS phức tạp của hệ thống có thể tạo ra những thách thức lớn về mặt học hỏi cho các nhóm kỹ sư.
Ngược lại, YOLOv10 Việc tích hợp hoàn toàn vào Ultralytics Python SDK mang lại lợi ích rất lớn. Huấn luyện một mô hình tùy chỉnh chỉ cần rất ít mã mẫu. Ultralytics Tự động xử lý việc tăng cường dữ liệu , tinh chỉnh siêu tham số và theo dõi thí nghiệm .
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()
Tạo mẫu nhanh
Sử dụng Ultralytics Hệ sinh thái này cho phép các nhà phát triển chuyển từ bản mẫu sang mô hình ONNX hoàn chỉnh chỉ với vài dòng mã, bỏ qua các thiết lập môi trường phức tạp mà các framework cũ yêu cầu.
Các trường hợp sử dụng thực tế
- Bán lẻ thông minh (DAMO- YOLO ): DAMO- YOLO Độ chính xác của phương pháp này rất phù hợp với môi trường máy chủ mật độ cao, nơi phân tích hành vi khách hàng có nhiều GPU và hoạt động theo thời gian thực. NMS Các điểm nghẽn có thể được xử lý.
- Xe tự hành ( YOLOv10 ): The NMS Kiến trúc không phụ thuộc vào bộ nhớ đảm bảo độ trễ có thể dự đoán được và mang tính xác định, điều này rất quan trọng đối với các hệ thống an toàn trong lái xe tự động .
- Tự động hóa công nghiệp ( YOLOv10 ): Việc phát hiện lỗi trên các dây chuyền lắp ráp tốc độ cao đòi hỏi các mô hình tối đa hóa tốc độ suy luận thời gian thực mà không tiêu tốn quá nhiều VRAM, điều này làm cho YOLOv10 Một ứng cử viên hàng đầu cho việc triển khai tại biên mạng.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa DAMO- YOLO Và YOLOv10 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO là một lựa chọn tốt cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên chọn YOLOv10
YOLOv10 được khuyến nghị cho:
- NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
- Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
- Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Thế hệ tiếp theo: Bước vào Ultralytics YOLO26
Trong khi YOLOv10 đặt nền móng cho NMS - Công nghệ phát hiện không cần bảo mật đã phát triển nhanh chóng. Đối với các ứng dụng hiện đại, model Ultralytics YOLO26 mang đến hiệu suất và khả năng sử dụng vượt trội, kế thừa những ưu điểm tốt nhất của các thế hệ trước và tinh chỉnh chúng cho môi trường sản xuất.
YOLO26 sở hữu thiết kế hoàn toàn khép kín, loại bỏ mọi rào cản. NMS Xử lý hậu kỳ giúp đơn giản hóa quy trình triển khai trên các thiết bị biên. Hơn nữa, việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL) đã cải thiện đáng kể khả năng tương thích với phần cứng AI biên công suất thấp.
Về khía cạnh huấn luyện, YOLO26 giới thiệu bộ tối ưu hóa MuSGD , một mô hình lai được lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM). Điều này đảm bảo quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn. Kết hợp với các hàm mất mát ProgLoss + STAL , YOLO26 thể hiện những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một tính năng quan trọng đối với bảo tồn động vật hoang dã và hoạt động của máy bay không người lái .
Điều quan trọng là, YOLO26 không chỉ là một công cụ phát hiện đối tượng. Nó cung cấp những cải tiến chuyên biệt cho từng tác vụ, hỗ trợ nguyên bản Phân đoạn đối tượng ( Instance Segmentation ), Ước tính tư thế bằng cách sử dụng Ước tính logarit khả năng dư (Residual Log-Likelihood Estimation - RLE) và các hàm mất mát góc chuyên dụng cho Hộp giới hạn định hướng (Oriented Bounding Boxes - OBB) . Với tốc độ nhanh hơn tới 43% CPU Với khả năng suy luận vượt trội so với các phiên bản trước, đây là sự lựa chọn tối ưu cho các nhóm kỹ thuật linh hoạt.
Để quản lý tập trung, chú thích và huấn luyện trên đám mây các mô hình YOLO26, Nền tảng Ultralytics cung cấp giao diện trực quan giúp đơn giản hóa toàn bộ vòng đời thị giác máy tính.
Các nhà phát triển quan tâm đến việc khám phá những tiến bộ gần đây khác cũng có thể đánh giá Ultralytics YOLO11 hoặc khung RT-DETR dựa trên transformer cho các trường hợp yêu cầu các giải pháp kiến trúc khác nhau.