YOLOv8 vs. DAMO- YOLO So sánh kỹ thuật toàn diện các mô hình phát hiện đối tượng

Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến trúc mới liên tục mở rộng giới hạn về khả năng trên các thiết bị biên và các cụm máy chủ đám mây khổng lồ. Trong bài phân tích chuyên sâu này, chúng ta sẽ so sánh hai mô hình phát hiện đối tượng thời gian thực nổi bật: YOLOv8 và DAMO- YOLO . Bằng cách xem xét kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng, các kỹ sư học máy có thể đưa ra quyết định sáng suốt cho quy trình triển khai của mình.

Thông tin về nguồn gốc và xuất thân của người mẫu

Cả hai mô hình đều được giới thiệu vào khoảng cùng thời điểm nhưng bắt nguồn từ các triết lý thiết kế và mục tiêu nghiên cứu khác nhau.

Chi tiết YOLOv8

Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 10/01/2023
GitHub: Kho lưu trữ GitHub Ultralytics
Tài liệu: Tài liệu chính thức YOLOv8

Tìm hiểu thêm về YOLOv8

Chi tiết DAMO-YOLO

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: Bài báo nghiên cứu DAMO-YOLO
GitHub: Kho lưu trữ GitHub DAMO- YOLO

Tìm hiểu thêm về DAMO-YOLO

Đổi mới Kiến trúc

YOLOv8 Thiết kế đa năng không cần neo

Ultralytics YOLOv8 đã giới thiệu những cải tiến đáng kể so với các phiên bản tiền nhiệm, củng cố vị thế là một mô hình hiện đại có độ tin cậy cao. Nó có đầu dò không neo, giúp giảm số lượng dự đoán hộp và tăng tốc suy luận. Kiến trúc này sử dụng một đầu tách rời, tách biệt các tác vụ nhận diện đối tượng, phân loại và hồi quy, dẫn đến các dự đoán hộp giới hạn chính xác hơn.

Hơn nữa, YOLOv8 triển khai Suy hao tiêu điểm phân tán (DFL) cùng với CIoU sự mất mát, tăng cường khả năng của mô hình trong việc định vị chính xác ranh giới đối tượng, đặc biệt là đối với các mục tiêu nhỏ hơn hoặc bị che khuất. Cấu trúc xương sống được tinh giản của nó được tối ưu hóa cao cho cả hai GPU Và CPU thi hành.

DAMO-YOLO: Được thúc đẩy bởi tìm kiếm kiến trúc

DAMO-YOLO áp dụng một cách tiếp cận khác, phụ thuộc nhiều vào Neural Architecture Search (NAS) để tự động thiết kế kiến trúc xương sống (backbone) của nó. Nhóm Alibaba đã giới thiệu "MAE-NAS" để tìm ra các cấu trúc mang lại sự đánh đổi tối ưu giữa độ trễ và độ chính xác, đặc biệt dưới sự tăng tốc của TensorRT.

Mô hình này tích hợp RepGFPN (Reparameterized Generalized Feature Pyramid Network) để kết hợp đặc trưng hiệu quả và thiết kế "ZeroHead" nhằm giảm thiểu gánh nặng tính toán của bộ phận phát hiện. Trong quá trình huấn luyện, nó sử dụng AlignedOTA để gán nhãn và dựa nhiều vào một quy trình chắt lọc kiến thức phức tạp, đòi hỏi một mô hình giáo viên lớn hơn để giám sát mô hình học sinh mục tiêu.

Độ phức tạp của huấn luyện

Trong khi DAMO- YOLO Đạt được các chỉ số độ trễ ấn tượng thông qua NAS và quá trình chưng cất, điều này đòi hỏi nhiều hơn đáng kể. CUDA thời gian xử lý và bộ nhớ trong quá trình huấn luyện so với quy trình huấn luyện một giai đoạn được tối ưu hóa cao của... YOLOv8 .

Hiệu suất và số liệu

Khi triển khai các mô hình thị giác máy tính vào sản xuất, cần cân bằng độ chính xác ( mAP Tốc độ suy luận là yếu tố then chốt. Bảng dưới đây minh họa hiệu suất của cả hai mô hình trên các kích thước khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8 Thể hiện sự cân bằng hiệu suất vượt trội. YOLOv8n mô hình (nano) chỉ yêu cầu 3.2 triệu tham số so với 8.5 triệu của DAMO-YOLOt, làm cho nó vượt trội hơn hẳn cho các thiết bị di động hoặc môi trường có yêu cầu bộ nhớ nghiêm ngặt. Hơn nữa, YOLOv8 cung cấp một phạm vi kích thước rộng hơn, mở rộng đến mô hình có độ chính xác cao YOLOv8x Dành cho các khối lượng công việc dựa trên đám mây.

Trải nghiệm nhà phát triển và Hệ sinh thái

Dễ sử dụng và Hiệu quả huấn luyện

Một trong những yếu tố khác biệt lớn nhất là trải nghiệm người dùng. Ultralytics Hệ sinh thái được thiết kế để thúc đẩy tốc độ phát triển của nhà phát triển. Đào tạo một hệ thống tùy chỉnh YOLOv8 Mô hình này yêu cầu mức sử dụng bộ nhớ rất thấp và có thể được thực thi thông qua một giao thức thống nhất. Python API hoặc giao diện dòng lệnh.

Ngược lại, việc tái tạo quá trình huấn luyện tăng cường chưng cất của DAMO-YOLO thường yêu cầu điều hướng các tệp cấu hình phức tạp và xử lý việc theo dõi thử nghiệm thầy-trò nhiều giai đoạn.

Đây là một ví dụ minh họa cho thấy việc huấn luyện, xác thực và xuất khẩu dễ dàng như thế nào. YOLOv8 sử dụng Python :

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

Tính linh hoạt trong các nhiệm vụ thị giác

DAMO-YOLO được xây dựng nghiêm ngặt cho object detection hộp giới hạn (bounding-box). Ngược lại, kiến trúc YOLOv8 hỗ trợ đa nhiệm một cách tự nhiên. Bằng cách đơn giản hoán đổi trọng số mô hình, các nhà phát triển có thể thực hiện Instance Segmentation, Image Classification và Pose Estimation mà không cần thay đổi codebase triển khai cơ bản của họ. Tính linh hoạt này làm cho các mô hình Ultralytics thực tế hơn nhiều cho các ứng dụng phức tạp.

Các trường hợp sử dụng thực tế

Khi nào nên sử dụng YOLOv8

YOLOv8 Sự kết hợp giữa tốc độ, độ chính xác và tính dễ sử dụng khiến nó trở nên lý tưởng cho:

Phân tích bán lẻ thông minh: Thực hiện track đối tượng để giám sát hành vi khách hàng hoặc tự động hóa kiểm tra hàng tồn kho.
Robot Nông nghiệp: Tận dụng hiệu suất mạnh mẽ của nó trên nhiều loại phần cứng khác nhau để nhận dạng cây trồng hoặc sâu bệnh trong thời gian thực.
Chẩn đoán y tế: Sử dụng phân đoạn đối tượng để lập bản đồ các bất thường trong hình ảnh y tế một cách nhanh chóng và chính xác.
Triển khai biên: Khả năng tích hợp liền mạch với các định dạng xuất như OpenVINO và CoreML cho phép YOLOv8 tỏa sáng trên các thiết bị hạn chế.

Khi nào nên sử dụng DAMO-YOLO

DAMO-YOLO có thể mang lại lợi ích trong các kịch bản chuyên biệt, đặc biệt là:

Academic NAS Research: Dành cho các nhóm nghiên cứu tái tham số hóa hoặc các phương pháp thiết kế kiến trúc tự động.
Các pipeline bị ràng buộc chặt chẽ bởi GPU: Các ứng dụng chạy độc quyền trên phần cứng NVIDIA cụ thể, nơi các cấu trúc NAS được tối ưu hóa cao cho giới hạn thực thi TensorRT.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv8 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv8

YOLOv8 là một lựa chọn tốt cho:

Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho detection, segmentation, classification và ước tính tư thế trong hệ sinh thái Ultralytics.
Hệ thống sản xuất đã được thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử kỹ lưỡng.
Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng hưởng lợi từ các hướng dẫn mở rộng của YOLOv8, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Hướng tới tương lai: Mới hơn Ultralytics Mô hình

Trong khi YOLOv8 Mặc dù vẫn là một công cụ làm việc đáng tin cậy, lĩnh vực thị giác máy tính đang phát triển rất nhanh. Người dùng cũng nên cân nhắc khám phá các thế hệ mới hơn:

YOLO26: Thế hệ mới nhất, Ultralytics YOLO26, đại diện cho một sự thay đổi mô hình. Nó giới thiệu Thiết kế không NMS đầu cuối nguyên bản, loại bỏ hoàn toàn các nút thắt độ trễ liên quan đến xử lý hậu kỳ Non-Maximum Suppression. Được hỗ trợ bởi Bộ tối ưu hóa MuSGD mới (một sự kết hợp giữa SGD và Muon) và các hàm mất mát ProgLoss + STAL chuyên biệt, YOLO26 đạt được quá trình huấn luyện ổn định đáng kể và cải thiện đáng kể khả năng nhận diện vật thể nhỏ. Với Loại bỏ DFL (Distribution Focal Loss được loại bỏ để đơn giản hóa việc xuất và tương thích tốt hơn với thiết bị biên/công suất thấp), các điều chỉnh kiến trúc mang lại Suy luận CPU nhanh hơn 43% so với các thế hệ trước, biến nó thành lựa chọn tối ưu cho điện toán biên hiện đại.

YOLO11: Một lựa chọn thay thế tuyệt vời khác, Ultralytics YOLO11 mang đến những cải tiến kiến trúc tăng dần so với YOLOv8 và vẫn là một mô hình mạnh mẽ, được cộng đồng đón nhận rộng rãi.

Tối ưu hóa quy trình làm việc của bạn

Bạn đã sẵn sàng đưa mô hình của mình từ nguyên mẫu lên sản phẩm hoàn chỉnh chưa? Hãy tận dụng Nền tảng Ultralytics để tự động chú thích các tập dữ liệu. track thực hiện các thí nghiệm và triển khai mô hình một cách liền mạch lên đám mây hoặc các thiết bị biên.

Tóm lại, trong khi DAMO- YOLO Cung cấp những hiểu biết học thuật thú vị về tìm kiếm kiến trúc. Ultralytics Các mô hình này cung cấp một hệ sinh thái trưởng thành hơn, linh hoạt hơn và thân thiện hơn với nhà phát triển. Cho dù bạn tiếp tục sử dụng sự ổn định đã được chứng minh của... YOLOv8 hoặc nâng cấp lên phiên bản siêu nhanh, NMS - Kiến trúc tự do của YOLO26, Ultralytics Suite vẫn là lựa chọn hàng đầu cho trí tuệ nhân tạo xử lý hình ảnh thời gian thực.