DAMO-YOLO vs YOLOv7: Đánh giá các Bộ phát hiện đối tượng thời gian thực

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra các mô hình phát hiện đối tượng hiệu quả cao, được thiết kế để cân bằng giữa độ chính xác và chi phí tính toán. Hai mô hình đáng chú ý được giới thiệu vào năm 2022 là DAMO- YOLO và YOLOv7 . Mặc dù cả hai đều hướng đến việc vượt qua giới hạn của các tác vụ thị giác thời gian thực, nhưng chúng đạt được kết quả thông qua các mô hình kiến trúc và phương pháp huấn luyện rất khác nhau.

Bản so sánh kỹ thuật toàn diện này khám phá những cách tiếp cận khác biệt của cả hai mô hình, xem xét kiến trúc, tiềm năng triển khai và các chỉ số hiệu suất của chúng để giúp các kỹ sư máy học lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính cụ thể của họ.

Nguồn gốc và siêu dữ liệu của mô hình

Trước khi đi sâu vào phân tích kỹ thuật chuyên sâu, điều cần thiết là phải đặt trong bối cảnh nguồn gốc của hai mô hình thị giác máy tính này.

DAMO-YOLO

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO được giới thiệu để tối ưu hóa cả tốc độ và độ chính xác thông qua tìm kiếm kiến trúc tự động và chưng cất.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày: 23 tháng 11 năm 2022
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

YOLOv7

Được ra mắt vào giữa năm 2022 với tư cách là sản phẩm tiên tiến nhất, YOLOv7 Đã thúc đẩy khả năng suy luận thời gian thực hơn nữa bằng cách giới thiệu "túi quà tặng miễn phí" có thể huấn luyện được mà không làm tăng chi phí triển khai.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức:Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 6 tháng 7 năm 2022
Arxiv:2207.02696
Tài liệu:Tài liệu YOLOv7

Tìm hiểu thêm về YOLOv7

Hệ sinh thái được hỗ trợ

YOLOv7 được hỗ trợ chính thức trong Ultralytics Hệ sinh thái này cho phép đào tạo, xác thực và xuất dữ liệu liền mạch với API thống nhất.

Đổi mới Kiến trúc

DAMO- YOLO NAS và quá trình chưng cất

DAMO-YOLO tích hợp một số kỹ thuật tiên tiến hướng tới hiệu quả tối đa:

Backbone NAS: Sử dụng Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để tự động thiết kế các backbone tối ưu (MAE-NAS) được tùy chỉnh cho các môi trường nhạy cảm về độ trễ.
RepGFPN hiệu quả: Một Mạng Kim tự tháp Đặc trưng Tổng quát được sửa đổi giúp tăng cường đáng kể hiệu quả hợp nhất đặc trưng trên nhiều tỷ lệ.
ZeroHead & AlignedOTA: Tích hợp một đầu detect nhẹ và một chiến lược gán nhãn được tối ưu hóa (AlignedOTA) để giảm chi phí tính toán.
Cải tiến chưng cất: Tận dụng mạnh mẽ chưng cất tri thức trong quá trình huấn luyện để tăng hiệu suất của các biến thể mô hình nhỏ hơn mà không làm tăng số lượng tham số của chúng.

YOLOv7 : E-ELAN và Túi Quà Tặng Miễn Phí

YOLOv7 Họ đã áp dụng cách tiếp cận kỹ thuật kết cấu hơn, tập trung vào tối ưu hóa đường dẫn gradient và các chiến lược huấn luyện mạnh mẽ.

Kiến trúc E-ELAN: Mạng tổng hợp lớp hiệu quả mở rộng cho phép mô hình học các đặc trưng đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, đảm bảo hội tụ học tập hiệu quả.
Mở rộng mô hình: Giới thiệu một phương pháp mở rộng phức hợp được thiết kế riêng cho các mô hình dựa trên nối, mở rộng độ sâu và chiều rộng đồng thời để căn chỉnh cấu trúc.
Túi quà miễn phí có thể huấn luyện: Áp dụng các kỹ thuật như tích chập tái tham số hóa (RepConv) không có kết nối đồng nhất và các chiến lược gán nhãn động, giúp tăng độ chính xác trong quá trình huấn luyện mà không ảnh hưởng đến tốc độ suy luận.

Phân tích hiệu suất

Khi đánh giá độ chính xác trung bình ( mAP ) , tốc độ và hiệu quả, cả hai mô hình đều thể hiện các chỉ số ấn tượng, mặc dù chúng nhắm đến các phân khúc hơi khác nhau. YOLOv7 tập trung mạnh vào độ chính xác cao GPU triển khai, trong khi DAMO- YOLO Các cấu trúc có nguồn gốc từ NAS của 's hướng đến độ trễ thấp mạnh mẽ. CPU và triển khai tại biên.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Như đã thấy trong các số liệu, trong khi DAMO-YOLO cung cấp các biến thể cực kỳ nhẹ (như mô hình tiny chỉ với 8.5M tham số), YOLOv7 đạt đỉnh độ chính xác tổng thể cao hơn, với YOLOv7x đạt 53.1 mAP ấn tượng trên tập dữ liệu COCO.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù kiến trúc lý thuyết rất quan trọng, nhưng tính thực tiễn của một mô hình lại phụ thuộc vào hệ sinh thái của nó. Các mô hình được hỗ trợ bởi Ultralytics , chẳng hạn như YOLOv7 , được hưởng lợi từ hệ sinh thái được duy trì tốt và sự dễ sử dụng vượt trội.

Cân bằng hiệu suất: Các mô hình Ultralytics luôn đạt được sự đánh đổi tối ưu giữa tốc độ suy luận và độ chính xác detect, khiến chúng lý tưởng cho cả thiết bị biên và triển khai mô hình dựa trên đám mây.
Yêu cầu bộ nhớ: Không giống như các mô hình dựa trên Transformer nặng hơn, các mô hình Ultralytics YOLO duy trì yêu cầu bộ nhớ CUDA thấp trong quá trình huấn luyện. Điều này cho phép kích thước batch lớn hơn, hợp lý hóa quá trình huấn luyện ngay cả trên phần cứng phổ thông.
Tính linh hoạt: Framework Ultralytics mở rộng vượt ra ngoài object detection sang các tác vụ như Phân đoạn đối tượng (Instance Segmentation) và Ước tính tư thế (Pose Estimation), mang đến cho các nhà phát triển một bộ công cụ thị giác máy tính hoàn chỉnh.

Hiệu quả huấn luyện

Cái Ultralytics Gói phần mềm này cho phép bạn chuyển đổi liền mạch từ tập dữ liệu sang mô hình đã được huấn luyện hoàn chỉnh chỉ trong vài phút, tận dụng các trình tải dữ liệu được tối ưu hóa cao và trọng số được huấn luyện trước.

Ví dụ mã: Huấn luyện YOLOv7 với Ultralytics

Tích hợp YOLOv7 Việc tích hợp nó vào quy trình xử lý hình ảnh máy tính của bạn vô cùng đơn giản bằng cách sử dụng... Ultralytics Python API.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Tiêu chuẩn mới: Giới thiệu YOLO26

Trong khi YOLOv7 và DAMO- YOLO Đã có những bước đột phá đáng kể trong năm 2022, lĩnh vực trí tuệ nhân tạo thị giác đang phát triển nhanh chóng. Đối với các nhóm bắt đầu các dự án mới hiện nay, mô hình được khuyến nghị là Ultralytics YOLO26 tiên tiến, được phát hành vào tháng 1 năm 2026.

YOLO26 mang đến một bước tiến vượt bậc về hiệu năng và khả năng sử dụng, tích hợp những cải tiến hiện đại nhất:

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 có tính đầu cuối tự nhiên. Bằng cách loại bỏ hậu xử lý Non-Maximum Suppression (NMS), nó mang lại logic triển khai nhanh hơn, đơn giản hơn—một sự thay đổi mô hình ban đầu được tiên phong bởi YOLOv10.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong mô hình ngôn ngữ lớn như Kimi K2 của Moonshot AI, YOLO26 sử dụng một sự kết hợp giữa SGD và Muon. Trình tối ưu hóa này đảm bảo động lực huấn luyện rất ổn định và tốc độ hội tụ nhanh hơn đáng kể.
Suy luận trên CPU nhanh hơn tới 43%: Với việc loại bỏ có chủ đích Distribution Focal Loss (DFL) và những cải tiến cấu trúc sâu rộng, YOLO26 được tối ưu hóa mạnh mẽ cho điện toán biên công suất thấp, vượt trội hơn các thế hệ trước trên phần cứng không có GPU.
ProgLoss + STAL: Tích hợp các hàm mất mát mới tiên tiến nhắm mục tiêu rõ rệt và cải thiện khả năng nhận diện vật thể nhỏ, một khả năng thiết yếu cho các ứng dụng trong hình ảnh từ trên không, robot học và giám sát an ninh.
Cải tiến chuyên biệt theo tác vụ: Ngoài detect tiêu chuẩn, YOLO26 có các cải tiến tùy chỉnh cho các tác vụ đa dạng, bao gồm tạo mẫu đa tỷ lệ cho segment, RLE cho ước tính tư thế và các hàm mất mát góc cụ thể cho Hộp giới hạn định hướng (OBB).

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng lý tưởng

Việc lựa chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào môi trường triển khai mục tiêu và các ràng buộc của dự án của bạn.

Khi nào nên chọn DAMO-YOLO:

Bạn đang làm việc trong môi trường biên có nhiều hạn chế về tài nguyên, nơi số lượng tham số thô phải được giữ ở mức cực kỳ thấp (ví dụ: bộ vi điều khiển).
Bạn đang sử dụng các quy trình học máy tự động được tích hợp đặc biệt với các dịch vụ đám mây độc quyền của Alibaba.

Khi nào nên lựa chọn YOLOv7 :

Bạn có di sản GPU các quy trình đã được tối ưu hóa cho suy luận dựa trên điểm neo, với độ chính xác cao.
Bạn đang hoạt động trong môi trường mà độ chính xác theo thời gian thực là tối quan trọng, chẳng hạn như xe tự hành tốc độ cao hoặc robot tiên tiến.

Khi nào nên chọn YOLO26 (Khuyến nghị):

Bạn đang xây dựng một ứng dụng thị giác máy tính mới từ đầu và cần những công nghệ tiên tiến nhất về cả độ chính xác và khả năng xử lý. CPU Tốc độ suy luận cạnh.
Bạn cần triển khai nhanh chóng, liền mạch (chẳng hạn như xuất sang CoreML hoặc TensorRT ) mà không cần phải xử lý các vấn đề phức tạp. NMS Các ràng buộc của toán tử.
Bạn muốn tận dụng tối đa khả năng của Nền tảng Ultralytics cho việc đào tạo trên đám mây, quản lý tập dữ liệu và triển khai tự động.

Bằng cách tận dụng hệ sinh thái mạnh mẽ của các mô hình Ultralytics, các nhà phát triển có thể giảm đáng kể thời gian kỹ thuật đồng thời đảm bảo hiệu suất dự đoán hàng đầu cho các ứng dụng thực tế của họ.