YOLOv5 vs. DAMO- YOLO Phân tích chuyên sâu về mặt kỹ thuật sự tiến hóa của công nghệ phát hiện đối tượng:

Trong thế giới thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của dự án. Hướng dẫn này so sánh YOLOv5 , kho lưu trữ huyền thoại đã dân chủ hóa trí tuệ nhân tạo dễ tiếp cận, và DAMO- YOLO , một kiến trúc tập trung vào nghiên cứu từ nhóm TinyVision của Alibaba. Mặc dù cả hai mô hình đều hướng đến hiệu quả cao, nhưng chúng tiếp cận vấn đề với các triết lý khác nhau về kiến trúc, tính dễ sử dụng và khả năng triển khai.

Tổng quan và Nguồn gốc Mô hình

YOLOv5

Được Ultralytics phát hành vào giữa năm 2020. YOLOv5 Nó trở thành tiêu chuẩn ngành không chỉ về kiến trúc mà còn về kỹ thuật. Nó nhấn mạnh vào tính dễ sử dụng, quy trình huấn luyện mạnh mẽ và khả năng xuất khẩu liền mạch. Nó vẫn là một trong những mô hình AI thị giác được triển khai rộng rãi nhất trên toàn cầu.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:ultralytics/yolov5

Tìm hiểu thêm về YOLOv5

DAMO-YOLO

Được đề xuất vào cuối năm 2022 bởi Tập đoàn Alibaba, DAMO- YOLO (Mô hình tăng cường chưng cất) tích hợp các công nghệ tiên tiến như Tìm kiếm kiến trúc thần kinh (NAS), FPN tổng quát được tham số hóa lại hiệu quả (RepGFPN) và dựa nhiều vào quá trình chưng cất để nâng cao hiệu suất.

Tác giả: Xianzhe Xu, Yiqi Jiang, et al.
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

So sánh Kiến trúc Kỹ thuật

Sự khác biệt về kiến trúc giữa hai mô hình này làm nổi bật sự chuyển dịch từ các thiết kế dựa trên kinh nghiệm kiểu "túi quà tặng miễn phí" sang các kiến trúc tự động hóa, dựa trên tìm kiếm.

YOLOv5 Tiêu chuẩn CSP-Darknet

YOLOv5 Nó sử dụng kiến trúc xương sống CSP-Darknet53 đã được sửa đổi kết nối với phần cổ của Mạng tổng hợp đường dẫn (PANet). Điểm mạnh chính của nó nằm ở thiết kế mô-đun và "gói tài nguyên miễn phí" được áp dụng trong quá trình huấn luyện, chẳng hạn như tăng cường Mosaic và tiến hóa siêu tham số bằng thuật toán di truyền.

Mạng lưới xương sống: CSP-Darknet
Cổ: PANet với các khối CSP
Đầu: Đầu ghép nối dựa trên neo kiểu YOLOv3

DAMO- YOLO NAS và quá trình chưng cất

DAMO- YOLO Khác biệt so với các thiết kế thủ công tiêu chuẩn bằng cách sử dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) để tìm ra cấu trúc xương sống tối ưu (MAE-NAS).

Hệ thống xương sống: MAE-NAS (Dựa trên tìm kiếm)
Vùng cổ: RepGFPN (FPN tổng quát được tham số hóa lại) cho phép kết hợp các đặc trưng một cách hiệu quả.
Phần đầu: ZeroHead (các lớp chiếu nhiệm vụ kép) kết hợp với AlignedOTA để gán nhãn.
Quá trình chưng cất: Một thành phần cốt lõi trong đó mô hình "giáo viên" lớn hơn hướng dẫn việc huấn luyện mô hình "học sinh" nhỏ hơn, điều này làm tăng độ phức tạp cho quy trình huấn luyện nhưng cải thiện độ chính xác cuối cùng.

Độ phức tạp của quá trình chưng cất

Trong khi quá trình chưng cất giúp cải thiện độ chính xác cho DAMO- YOLO Điều này làm cho quy trình đào tạo trở nên phức tạp hơn đáng kể so với... YOLOv5 Người dùng thường phải huấn luyện hoặc tải xuống mô hình giáo viên trước, điều này làm tăng rào cản gia nhập đối với các tập dữ liệu tùy chỉnh.

Các chỉ số hiệu suất

Bảng sau đây so sánh hiệu suất của các tỷ lệ mô hình khác nhau trên... COCO Bộ dữ liệu val2017. Trong khi DAMO- YOLO Thể hiện kết quả học tập xuất sắc. YOLOv5 vẫn duy trì tính cạnh tranh về hiệu suất và tính linh hoạt trong triển khai.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Phân tích Kết quả

Hiệu quả: YOLOv5n (Nano) vẫn là "vua" của suy luận nhẹ, với số lượng tham số (2,6 triệu so với 8,5 triệu) và số phép tính FLOPs thấp hơn đáng kể so với DAMO-. YOLO -Kích thước nhỏ gọn, giúp nó phù hợp hơn nhiều cho các trường hợp đặc biệt trên CPU tiêu chuẩn.
Độ chính xác: DAMO- YOLO Công ty tận dụng quy trình chưng cất của mình để đạt được mAP cao hơn từ các thông số tương tự, đặc biệt là trong phạm vi Nhỏ và Trung bình.
Tốc độ suy luận: YOLOv5 thường cung cấp nhanh hơn CPU suy luận thông qua ONNX Thời gian chạy được rút ngắn nhờ các khối kiến trúc đơn giản hơn, được tối ưu hóa cao trong các thư viện chuẩn.

Huấn luyện và Khả năng sử dụng

Đây là điểm khác biệt chính dành cho các nhà phát triển. Hệ sinh thái Ultralytics ưu tiên trải nghiệm "từ con số không đến chuyên gia", trong khi các kho lưu trữ nghiên cứu thường yêu cầu cấu hình phức tạp.

YOLOv5 Trải nghiệm được tối ưu hóa

YOLOv5 đã giới thiệu giao diện dòng lệnh thân thiện với người dùng và Python API đã trở thành tiêu chuẩn ngành. Việc huấn luyện trên tập dữ liệu tùy chỉnh chỉ cần thiết lập tối thiểu.

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

DAMO- YOLO Độ phức tạp của nghiên cứu

Đào tạo DAMO- YOLO Thông thường, nó liên quan đến một hệ thống cấu hình phức tạp hơn. Sự phụ thuộc vào lịch trình chưng cất có nghĩa là người dùng thường cần quản lý hai mô hình (giáo viên và học sinh) trong giai đoạn đào tạo, điều này làm tăng chi phí. GPU yêu cầu bộ nhớ và chi phí cấu hình.

Cái Ultralytics Ưu điểm: Hệ sinh thái & Tính linh hoạt

Trong khi DAMO- YOLO là một bộ dò vật thể thuần túy mạnh mẽ, Ultralytics Khung phần mềm này cung cấp một bộ tính năng rộng hơn mà các dự án AI hiện đại yêu cầu.

Tính linh hoạt: Vượt xa các khung bao đơn giản, Ultralytics Hỗ trợ phân đoạn đối tượng , ước lượng tư thế , phân loại và phát hiện hộp giới hạn định hướng (OBB) . DAMO- YOLO Tập trung chủ yếu vào việc phát hiện theo tiêu chuẩn.
Triển khai: Ultralytics Các mô hình được xuất khẩu liền mạch sang các định dạng như TensorRT , CoreML , TFLite , Và OpenVINO thông qua một lệnh duy nhất.
Hỗ trợ cộng đồng: Với hàng triệu người dùng, Ultralytics Cộng đồng cung cấp nguồn tài nguyên phong phú, hướng dẫn và tích hợp với bên thứ ba mà các kho lưu trữ nghiên cứu không thể sánh kịp.

Thế hệ tiếp theo: YOLO26

Dành cho các nhà phát triển ấn tượng bởi hiệu quả của các mô hình dựa trên NAS nhưng cần sự dễ sử dụng của YOLOv5 YOLO26 được xem là phiên bản kế nhiệm được đề xuất. Ra mắt vào năm 2026, nó kết hợp những ưu điểm tốt nhất của cả hai phiên bản trước.

Giải pháp NMS từ đầu đến cuối - Không cần: Giống như những đột phá học thuật gần đây, YOLO26 loại bỏ Non-Maximum Suppression ( NMS ) , đơn giản hóa quy trình triển khai.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ huấn luyện LLM, trình tối ưu hóa lai này đảm bảo sự hội tụ ổn định.
Tối ưu hóa cho điện toán biên: YOLO26 nhanh hơn tới 43% trên CPU , khiến nó trở thành lựa chọn vượt trội cho điện toán biên so với cả hai. YOLOv5 và DAMO- YOLO .

Tìm hiểu thêm về YOLO26

Kết luận

DAMO- YOLO là một đóng góp xuất sắc cho lĩnh vực nghiên cứu thị giác máy tính, thể hiện sức mạnh của tìm kiếm và chắt lọc kiến trúc mạng nơ-ron. Đây là một ứng cử viên sáng giá cho các nhà nghiên cứu muốn nghiên cứu các phương pháp tìm kiếm kiến trúc tiên tiến hoặc tối ưu hóa độ chính xác từ các ràng buộc phần cứng cụ thể, nơi độ phức tạp huấn luyện không phải là nút thắt cổ chai.

YOLOv5 và phiên bản kế nhiệm hiện đại YOLO26 vẫn là lựa chọn ưu tiên cho hầu hết các triển khai sản xuất. Sự kết hợp giữa mức sử dụng bộ nhớ thấp, hỗ trợ nhiều tác vụ (phân đoạn, tư thế, OBB) và nền tảng Ultralytics mạnh mẽ đảm bảo các dự án chuyển từ giai đoạn nguyên mẫu sang sản xuất với mức độ cản trở tối thiểu.

Đối với những ai yêu cầu hiệu năng và tính năng tiên tiến nhất, chúng tôi đặc biệt khuyên dùng YOLO26 , phần mềm mang đến hiệu quả toàn diện mà các nhà nghiên cứu yêu thích cùng với tính dễ sử dụng. Ultralytics Nổi tiếng vì điều đó.

Đọc thêm

Khám phá tài liệu YOLO26 mới nhất.
Hãy xem kho lưu trữ GitHub YOLOv5 .
Tìm hiểu về các nguyên tắc cơ bản của phát hiện đối tượng trong thời gian thực .
So sánh với các mô hình khác như RT-DETR cho các giải pháp dựa trên biến áp.