Link to this sectionSo sánh DAMO-YOLO và YOLOv7#

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra các mô hình phát hiện đối tượng hiệu quả cao, được thiết kế để cân bằng giữa độ chính xác và chi phí tính toán. Hai mô hình nổi bật được giới thiệu vào năm 2022 là DAMO-YOLO và YOLOv7. Mặc dù cả hai đều nhằm mục đích vượt qua các giới hạn của các tác vụ thị giác thời gian thực, nhưng chúng đạt được kết quả thông qua các mô hình kiến trúc và phương pháp huấn luyện hoàn toàn khác biệt.

Bài so sánh kỹ thuật toàn diện này khám phá các cách tiếp cận riêng biệt của cả hai mô hình, kiểm tra kiến trúc, tiềm năng triển khai và các chỉ số hiệu năng để giúp các kỹ sư học máy chọn đúng công cụ cho các ứng dụng thị giác máy tính cụ thể của họ.

Link to this sectionNguồn gốc và Metadata của mô hình#

Trước khi đi sâu vào phân tích kỹ thuật chi tiết, việc đặt bối cảnh về nguồn gốc của hai mô hình thị giác máy tính này là điều cần thiết.

Link to this sectionDAMO-YOLO#

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO được giới thiệu nhằm tối ưu hóa cả tốc độ và độ chính xác thông qua tìm kiếm kiến trúc tự động và chưng cất mô hình.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23 tháng 11 năm 2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionYOLOv7#

Được ra mắt với tư cách là công nghệ tiên tiến nhất vào giữa năm 2022, YOLOv7 đã thúc đẩy suy luận thời gian thực hơn nữa bằng cách giới thiệu "bag-of-freebies" (tập hợp các thủ thuật) có thể huấn luyện mà không làm tăng chi phí triển khai.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica, Taiwan
Ngày: 6 tháng 7, 2022
Arxiv: 2207.02696
Tài liệu: Tài liệu về YOLOv7

Tìm hiểu thêm về YOLOv7

Hệ sinh thái được hỗ trợ

YOLOv7 được hỗ trợ chính thức trong hệ sinh thái Ultralytics, cho phép huấn luyện, xác thực và xuất mô hình liền mạch với một API thống nhất.

Link to this sectionCải tiến kiến trúc#

Link to this sectionDAMO-YOLO: NAS và chưng cất mô hình#

DAMO-YOLO tích hợp một số kỹ thuật tiên tiến hướng tới hiệu quả tối đa:

NAS Backbones: Sử dụng Neural Architecture Search (NAS) để tự động thiết kế các backbone tối ưu (MAE-NAS) được tùy chỉnh cho các môi trường yêu cầu độ trễ thấp.
Efficient RepGFPN: Một Generalized Feature Pyramid Network đã sửa đổi giúp tăng đáng kể hiệu quả hợp nhất đặc trưng trên nhiều thang đo.
ZeroHead & AlignedOTA: Tích hợp đầu dò (detection head) nhẹ và chiến lược gán nhãn được tối ưu hóa (AlignedOTA) để giảm chi phí tính toán.
Distillation Enhancement: Tận dụng mạnh mẽ chưng cất kiến thức (knowledge distillation) trong quá trình huấn luyện để tăng cường hiệu suất của các biến thể mô hình nhỏ hơn mà không làm tăng số lượng tham số.

Link to this sectionYOLOv7: E-ELAN và Bag-of-Freebies#

YOLOv7 thực hiện cách tiếp cận kỹ thuật cấu trúc hơn, tập trung vào tối ưu hóa đường dẫn gradient và các chiến lược huấn luyện mạnh mẽ.

Kiến trúc E-ELAN: Extended Efficient Layer Aggregation Network cho phép mô hình học các đặc trưng đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, đảm bảo sự hội tụ học tập hiệu quả.
Model Scaling: Giới thiệu phương pháp mở rộng quy mô hỗn hợp (compound scaling) được tùy chỉnh cho các mô hình dựa trên ghép nối (concatenation), mở rộng độ sâu và chiều rộng đồng thời để căn chỉnh cấu trúc.
Trainable Bag-of-Freebies: Sử dụng các kỹ thuật như tích chập tái tham số hóa (RepConv) mà không có kết nối danh tính (identity connections), và các chiến lược gán nhãn động, giúp tăng độ chính xác trong quá trình huấn luyện mà không ảnh hưởng đến tốc độ suy luận.

Link to this sectionPhân tích Hiệu suất#

Khi đánh giá mean Average Precision (mAP), tốc độ và hiệu quả, cả hai mô hình đều thể hiện các chỉ số ấn tượng, mặc dù chúng nhắm đến các phân khúc hơi khác nhau. YOLOv7 tập trung mạnh vào triển khai GPU với độ chính xác cao, trong khi các cấu trúc dẫn xuất từ NAS của DAMO-YOLO hướng tới triển khai trên CPU và thiết bị biên với độ trễ thấp.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Như đã thấy trong các số liệu, trong khi DAMO-YOLO cung cấp các biến thể cực nhẹ (như mô hình tiny chỉ với 8,5 triệu tham số), YOLOv7 đạt được đỉnh độ chính xác tổng thể cao hơn, với YOLOv7x đạt 53,1 mAP ấn tượng trên tập dữ liệu COCO.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Mặc dù kiến trúc lý thuyết là quan trọng, tính thực tiễn của một mô hình được quyết định bởi hệ sinh thái của nó. Các mô hình được hỗ trợ bởi Ultralytics, như YOLOv7, hưởng lợi từ một hệ sinh thái được bảo trì tốt và dễ sử dụng chưa từng có.

Cân bằng hiệu suất: Các mô hình Ultralytics liên tục đạt được sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác phát hiện, khiến chúng trở nên lý tưởng cho cả thiết bị biên và triển khai mô hình trên đám mây.
Yêu cầu bộ nhớ: Không giống như các mô hình dựa trên Transformer nặng nề hơn, các mô hình Ultralytics YOLO duy trì yêu cầu bộ nhớ CUDA thấp trong quá trình huấn luyện. Điều này cho phép kích thước batch lớn hơn, hợp lý hóa quy trình huấn luyện ngay cả trên phần cứng tiêu dùng.
Tính linh hoạt: Khung làm việc Ultralytics mở rộng vượt ra ngoài phát hiện đối tượng sang các tác vụ như Phân đoạn thực thể và Ước tính tư thế, mang đến cho các nhà phát triển một bộ công cụ thị giác máy tính hoàn chỉnh.

Hiệu quả huấn luyện

Gói phần mềm Ultralytics cho phép bạn di chuyển liền mạch từ tập dữ liệu đến một mô hình được huấn luyện đầy đủ chỉ trong vài phút, tận dụng các bộ nạp dữ liệu và trọng số được huấn luyện sẵn tối ưu hóa cao.

Link to this sectionVí dụ mã: Huấn luyện YOLOv7 với Ultralytics#

Việc tích hợp YOLOv7 vào đường ống thị giác máy tính của bạn cực kỳ đơn giản bằng cách sử dụng API Python của Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Link to this sectionTiêu chuẩn mới: Giới thiệu YOLO26#

Mặc dù YOLOv7 và DAMO-YOLO đại diện cho những bước đột phá đáng kể vào năm 2022, lĩnh vực AI thị giác đang chuyển động nhanh chóng. Đối với các nhóm bắt đầu dự án mới ngay hôm nay, mô hình được khuyến nghị là Ultralytics YOLO26 tiên tiến, được phát hành vào tháng 1 năm 2026.

YOLO26 mang đến một bước nhảy vọt về hiệu suất và khả năng sử dụng, kết hợp các đổi mới hiện đại nhất:

Thiết kế End-to-End NMS-Free: YOLO26 là end-to-end tự nhiên. Bằng cách loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS), nó cung cấp logic triển khai nhanh hơn, đơn giản hơn—một bước ngoặt kiến trúc được tiên phong bởi YOLOv10.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các đổi mới mô hình ngôn ngữ lớn như Kimi K2 của Moonshot AI, YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Bộ tối ưu hóa này đảm bảo động lực huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn đáng kể.
Suy luận CPU nhanh hơn tới 43%: Với việc loại bỏ có mục tiêu Distribution Focal Loss (DFL) và các cải tiến cấu trúc sâu sắc, YOLO26 được tối ưu hóa mạnh mẽ cho điện toán biên công suất thấp, vượt trội so với các thế hệ trước trên phần cứng không có GPU.
ProgLoss + STAL: Tích hợp các hàm mất mát (loss functions) mới tiên tiến nhắm mục tiêu và cải thiện khả năng nhận dạng đối tượng nhỏ, một khả năng thiết yếu cho các ứng dụng trong hình ảnh trên không, robot và giám sát an ninh.
Cải tiến theo tác vụ: Ngoài việc phát hiện tiêu chuẩn, YOLO26 có các cải tiến tùy chỉnh cho các tác vụ đa dạng, bao gồm tạo mẫu đa thang đo cho phân đoạn, RLE cho ước tính tư thế và các mất mát góc cụ thể cho Oriented Bounding Boxes (OBB).

Tìm hiểu thêm về YOLO26

Link to this sectionCác trường hợp sử dụng lý tưởng#

Việc chọn đúng kiến trúc hoàn toàn phụ thuộc vào môi trường triển khai mục tiêu và các ràng buộc dự án của bạn.

Khi nào nên chọn DAMO-YOLO:

Bạn đang làm việc trong các môi trường biên bị hạn chế tài nguyên nghiêm trọng, nơi số lượng tham số thô phải được giữ ở mức cực thấp (ví dụ: vi điều khiển).
Bạn đang sử dụng các đường ống học máy tự động được tích hợp cụ thể với các dịch vụ đám mây độc quyền của Alibaba.

Khi nào nên chọn YOLOv7:

Bạn có các đường ống GPU cũ đã được tối ưu hóa cho suy luận dựa trên neo (anchor-based) với độ chính xác cao.
Bạn đang hoạt động trong các môi trường đòi hỏi độ chính xác thời gian thực là tối quan trọng, chẳng hạn như phương tiện tự hành tốc độ cao hoặc robot tiên tiến.

Khi nào nên chọn YOLO26 (Khuyến nghị):

Bạn đang xây dựng một ứng dụng thị giác máy tính mới từ đầu và cần công nghệ tiên tiến nhất về cả độ chính xác và tốc độ suy luận CPU/thiết bị biên.
Bạn yêu cầu triển khai nhanh chóng, liền mạch (chẳng hạn như xuất sang CoreML hoặc TensorRT) mà không phải xử lý các ràng buộc toán tử NMS.
Bạn muốn tận dụng toàn bộ khả năng của Nền tảng Ultralytics để huấn luyện trên đám mây, quản lý tập dữ liệu và triển khai tự động.

Bằng cách tận dụng hệ sinh thái mạnh mẽ của các mô hình Ultralytics, các nhà phát triển có thể cắt giảm đáng kể thời gian kỹ thuật trong khi vẫn đảm bảo hiệu suất dự đoán hàng đầu cho các ứng dụng thực tế của họ.

Người đóng góp

GLglenn-jocher¹³ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 4 tuần trước