YOLOv8 vs. DAMO- YOLO So sánh kỹ thuật toàn diện các mô hình phát hiện đối tượng
Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến trúc mới liên tục mở rộng giới hạn về khả năng trên các thiết bị biên và các cụm máy chủ đám mây khổng lồ. Trong bài phân tích chuyên sâu này, chúng ta sẽ so sánh hai mô hình phát hiện đối tượng thời gian thực nổi bật: YOLOv8 và DAMO- YOLO . Bằng cách xem xét kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng, các kỹ sư học máy có thể đưa ra quyết định sáng suốt cho quy trình triển khai của mình.
Thông tin về nguồn gốc và xuất thân của người mẫu
Cả hai mẫu đều được giới thiệu vào khoảng cùng thời điểm nhưng xuất phát từ những triết lý thiết kế và mục tiêu nghiên cứu khác nhau.
Chi tiết YOLOv8
- Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 10/01/2023
- GitHub: Kho lưu trữ GitHub Ultralytics
- Tài liệu: Tài liệu chính thức của YOLOv8
DAMO- YOLO Chi tiết
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 23/11/2022
- Arxiv: Tài liệu nghiên cứu DAMO- YOLO
- GitHub: Kho lưu trữ GitHub DAMO- YOLO
Đổi mới Kiến trúc
YOLOv8 Thiết kế đa năng không cần neo
Ultralytics YOLOv8 đã mang đến những cải tiến đáng kể so với các phiên bản trước đó, củng cố vị thế của nó như một mô hình hiện đại và đáng tin cậy. Nó sở hữu một đầu phát hiện không cần neo, giúp giảm số lượng dự đoán hộp và tăng tốc độ suy luận. Kiến trúc sử dụng một đầu tách rời, phân tách các tác vụ xác định đối tượng, phân loại và hồi quy, dẫn đến các dự đoán hộp giới hạn chính xác hơn.
Hơn nữa, YOLOv8 triển khai Suy hao tiêu điểm phân tán (DFL) cùng với CIoU sự mất mát, tăng cường khả năng của mô hình trong việc định vị chính xác ranh giới đối tượng, đặc biệt là đối với các mục tiêu nhỏ hơn hoặc bị che khuất. Cấu trúc xương sống được tinh giản của nó được tối ưu hóa cao cho cả hai GPU Và CPU thi hành.
DAMO- YOLO Được thúc đẩy bởi Tìm kiếm Kiến trúc
DAMO- YOLO Phương pháp này khác biệt, dựa nhiều vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) để tự động thiết kế cấu trúc xương sống. Nhóm Alibaba đã giới thiệu "MAE-NAS" để tìm ra các cấu trúc cung cấp sự cân bằng tối ưu giữa độ trễ và độ chính xác, đặc biệt là dưới sự tăng tốc TensorRT .
Mô hình này tích hợp RepGFPN (Reparameterized Generalized Feature Pyramid Network) để kết hợp đặc trưng hiệu quả và thiết kế "ZeroHead" nhằm giảm thiểu gánh nặng tính toán của bộ phận phát hiện. Trong quá trình huấn luyện, nó sử dụng AlignedOTA để gán nhãn và dựa nhiều vào một quy trình chắt lọc kiến thức phức tạp, đòi hỏi một mô hình giáo viên lớn hơn để giám sát mô hình học sinh mục tiêu.
Độ phức tạp của huấn luyện
Trong khi DAMO- YOLO Đạt được các chỉ số độ trễ ấn tượng thông qua NAS và quá trình chưng cất, điều này đòi hỏi nhiều hơn đáng kể. CUDA thời gian xử lý và bộ nhớ trong quá trình huấn luyện so với quy trình huấn luyện một giai đoạn được tối ưu hóa cao của... YOLOv8 .
Hiệu suất và số liệu
Khi triển khai các mô hình thị giác máy tính vào sản xuất, cần cân bằng độ chính xác ( mAP Tốc độ suy luận là yếu tố then chốt. Bảng dưới đây minh họa hiệu suất của cả hai mô hình trên các kích thước khác nhau.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv8 Thể hiện sự cân bằng hiệu suất vượt trội. YOLOv8n Mô hình (nano) chỉ yêu cầu 3,2 triệu tham số so với 8,5 triệu tham số của DAMO-YOLOt, điều này khiến nó vượt trội hơn hẳn đối với các thiết bị di động hoặc môi trường có yêu cầu bộ nhớ nghiêm ngặt. Hơn nữa, YOLOv8 cung cấp nhiều kích thước hơn, mở rộng đến độ chính xác cao. YOLOv8x Dành cho các khối lượng công việc dựa trên đám mây.
Trải nghiệm và hệ sinh thái của nhà phát triển
Dễ sử dụng và Hiệu quả huấn luyện
Một trong những yếu tố khác biệt lớn nhất là trải nghiệm người dùng. Ultralytics Hệ sinh thái được thiết kế để thúc đẩy tốc độ phát triển của nhà phát triển. Đào tạo một hệ thống tùy chỉnh YOLOv8 Mô hình này yêu cầu mức sử dụng bộ nhớ rất thấp và có thể được thực thi thông qua một giao thức thống nhất. Python API hoặc giao diện dòng lệnh.
Ngược lại, việc tái tạo quá trình huấn luyện tăng cường chưng cất của DAMO- YOLO Việc này thường đòi hỏi phải điều hướng các tệp cấu hình phức tạp và xử lý việc theo dõi thí nghiệm nhiều giai đoạn giữa giáo viên và học sinh.
Đây là một ví dụ minh họa cho thấy việc huấn luyện, xác thực và xuất khẩu dễ dàng như thế nào. YOLOv8 sử dụng Python :
from ultralytics import YOLO
# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")
# Export the trained model to ONNX format
path = model.export(format="onnx")
Tính linh hoạt trong các nhiệm vụ thị giác
DAMO- YOLO được xây dựng chuyên dụng cho việc phát hiện đối tượng dựa trên khung bao. Ngược lại, YOLOv8 Kiến trúc này hỗ trợ nhiều tác vụ một cách tự nhiên. Bằng cách đơn giản hoán đổi trọng số mô hình, các nhà phát triển có thể thực hiện Phân đoạn đối tượng , Phân loại hình ảnh và Ước tính tư thế mà không cần thay đổi mã nguồn triển khai cơ bản. Tính linh hoạt này giúp Ultralytics Các mô hình này thực tế hơn nhiều đối với các ứng dụng phức tạp.
Các trường hợp sử dụng thực tế
Khi nào nên sử dụng YOLOv8
YOLOv8 Sự kết hợp giữa tốc độ, độ chính xác và tính dễ sử dụng khiến nó trở nên lý tưởng cho:
- Phân tích bán lẻ thông minh: Thực hiện theo dõi đối tượng để giám sát hành vi khách hàng hoặc tự động kiểm tra hàng tồn kho.
- Robot nông nghiệp: Tận dụng hiệu năng mạnh mẽ trên nhiều loại phần cứng khác nhau để nhận diện cây trồng hoặc sâu bệnh trong thời gian thực.
- Chẩn đoán y tế: Sử dụng phân đoạn đối tượng để nhanh chóng và chính xác xác định các bất thường trong hình ảnh y tế.
- Triển khai tại biên: Khả năng tích hợp liền mạch với các định dạng xuất như OpenVINO và CoreML cho phép YOLOv8 để tỏa sáng trên các thiết bị có cấu hình hạn chế.
Khi nào nên sử dụng DAMO-YOLO
DAMO- YOLO có thể mang lại lợi ích trong những trường hợp đặc thù, cụ thể là:
- Nghiên cứu NAS học thuật: Dành cho các nhóm nghiên cứu về tham số hóa biểu diễn hoặc các phương pháp thiết kế kiến trúc tự động.
- Các đường dẫn xử lý phụ thuộc hoàn toàn vào GPU : Các ứng dụng chỉ chạy trên các GPU cụ thể. NVIDIA phần cứng nơi các cấu trúc NAS được tối ưu hóa tối đa. TensorRT giới hạn thực thi.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv8 và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv8
YOLOv8 là một lựa chọn tốt cho:
- Triển khai đa nhiệm linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh để phát hiện , phân đoạn , phân loại và ước tính tư thế trong phạm vi... Ultralytics hệ sinh thái.
- Hệ thống sản xuất hiện có: Môi trường sản xuất hiện tại đã được xây dựng trên hệ thống này. YOLOv8 kiến trúc với các quy trình triển khai ổn định, đã được kiểm thử kỹ lưỡng.
- Hỗ trợ cộng đồng và hệ sinh thái rộng rãi: Các ứng dụng được hưởng lợi từ YOLOv8 Hệ thống này có các hướng dẫn chi tiết, tích hợp với bên thứ ba và nguồn lực cộng đồng năng động.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Hướng tới tương lai: Mới hơn Ultralytics Mô hình
Trong khi YOLOv8 Mặc dù vẫn là một công cụ làm việc đáng tin cậy, lĩnh vực thị giác máy tính đang phát triển rất nhanh. Người dùng cũng nên cân nhắc khám phá các thế hệ mới hơn:
YOLO26: Thế hệ mới nhất, Ultralytics YOLO26 , đại diện cho một sự thay đổi mang tính đột phá. Nó giới thiệu thiết kế hoàn toàn không sử dụng NMS từ đầu đến cuối , loại bỏ hoàn toàn các điểm nghẽn độ trễ liên quan đến xử lý hậu kỳ Non-Maximum Suppression. Được hỗ trợ bởi trình tối ưu hóa MuSGD mới (một sự kết hợp giữa...). SGD Với các hàm mất mát chuyên dụng như ProgLoss + STAL (và Muon), YOLO26 đạt được khả năng huấn luyện ổn định đáng kể và cải thiện vượt trội khả năng nhận dạng vật thể nhỏ. Nhờ loại bỏ DFL (Distribution Focal Loss để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với thiết bị biên/công suất thấp), các tinh chỉnh kiến trúc giúp tăng tốc độ suy luận CPU lên đến 43% so với các thế hệ trước, biến nó trở thành lựa chọn tối ưu cho điện toán biên hiện đại.
YOLO11 : Một lựa chọn thay thế tuyệt vời khác, Ultralytics YOLO11 cung cấp những cải tiến kiến trúc tăng dần so với phiên bản trước. YOLOv8 và vẫn là một mô hình mạnh mẽ, được áp dụng rộng rãi trong cộng đồng.
Tối ưu hóa quy trình làm việc của bạn
Bạn đã sẵn sàng đưa mô hình của mình từ nguyên mẫu lên sản phẩm hoàn chỉnh chưa? Hãy tận dụng Nền tảng Ultralytics để tự động chú thích các tập dữ liệu. track thực hiện các thí nghiệm và triển khai mô hình một cách liền mạch lên đám mây hoặc các thiết bị biên.
Tóm lại, trong khi DAMO- YOLO Cung cấp những hiểu biết học thuật thú vị về tìm kiếm kiến trúc. Ultralytics Các mô hình này cung cấp một hệ sinh thái trưởng thành hơn, linh hoạt hơn và thân thiện hơn với nhà phát triển. Cho dù bạn tiếp tục sử dụng sự ổn định đã được chứng minh của... YOLOv8 hoặc nâng cấp lên phiên bản siêu nhanh, NMS - Kiến trúc tự do của YOLO26, Ultralytics Suite vẫn là lựa chọn hàng đầu cho trí tuệ nhân tạo xử lý hình ảnh thời gian thực.