Link to this sectionSo sánh DAMO-YOLO và RTDETRv2#

Bối cảnh thị trường computer vision đang phát triển nhanh chóng đã tạo ra hàng loạt kiến trúc ấn tượng được thiết kế để cân bằng giữa tốc độ, độ chính xác và hiệu quả tính toán. Hai mô hình nổi bật đóng góp các phương pháp độc đáo để giải quyết những thách thức này là DAMO-YOLO và RTDETRv2. Mặc dù cả hai mô hình đều hướng tới việc cung cấp các giải pháp tiên tiến cho inference thời gian thực, chúng khác biệt căn bản về triết lý kiến trúc.

Hướng dẫn toàn diện này đi sâu vào các thông số kỹ thuật, đổi mới kiến trúc và các trường hợp sử dụng thực tế của cả hai mô hình, đồng thời khám phá cách các giải pháp hiện đại như Ultralytics Platform và YOLO26 tiên tiến nhất đã định nghĩa lại các tiêu chuẩn ngành về triển khai và khả năng sử dụng.

Link to this sectionTổng quan về mô hình#

Link to this sectionTìm hiểu về DAMO-YOLO#

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO giới thiệu một phương pháp phát hiện đối tượng nhanh và chính xác, dựa nhiều vào Neural Architecture Search (NAS). Nó thay thế các backbone thủ công truyền thống bằng các cấu trúc tạo bởi NAS được thiết kế để đạt độ trễ thấp. Ngoài ra, nó kết hợp RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả và thiết kế ZeroHead để hợp lý hóa việc tổng hợp đặc trưng và dự đoán bounding box.

Chi tiết chính về mô hình:

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
Tài liệu: Tài liệu DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionTìm hiểu về RTDETRv2#

RTDETRv2 của Baidu đại diện cho một bước tiến đáng kể đối với Real-Time Detection Transformers. Khác với các Convolutional Neural Networks (CNNs) truyền thống dựa vào anchor box và Non-Maximum Suppression (NMS), RTDETRv2 sử dụng các cơ chế self-attention để xem xét toàn bộ ngữ cảnh hình ảnh. Nó trực tiếp xuất ra bounding box, bỏ qua hoàn toàn bước hậu xử lý NMS. Mô hình này giới thiệu chiến lược huấn luyện "bag of freebies" để cải thiện độ chính xác cơ sở mà không làm tăng độ trễ inference.

Chi tiết chính về mô hình:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: Kho lưu trữ RT-DETR
Tài liệu: Tài liệu RTDETRv2

Tìm hiểu thêm về RTDETRv2

Ứng dụng Transformer trong Vision AI

Mặc dù các transformer yêu cầu tài nguyên tính toán cao hơn, khả năng xử lý ngữ cảnh toàn cục khiến chúng cực kỳ hiệu quả trong việc hiểu các cảnh phức tạp, đây là thế mạnh chính của RTDETRv2.

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình này cho triển khai thực tế, các thông số như Mean Average Precision (mAP), tốc độ inference và dung lượng bộ nhớ là rất quan trọng. Các mô hình dựa trên transformer như RTDETRv2 thường yêu cầu bộ nhớ CUDA cao hơn trong quá trình huấn luyện và inference so với các CNN gọn nhẹ như DAMO-YOLO.

Dưới đây là so sánh chi tiết về các chỉ số hiệu suất của chúng.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Link to this sectionCác trường hợp sử dụng lý tưởng#

Điểm mạnh của DAMO-YOLO: Nhờ backbone được tối ưu hóa bởi NAS và số lượng tham số cực thấp trong các biến thể nhỏ hơn (như DAMO-YOLOt), nó rất phù hợp để triển khai trên các phần cứng bị hạn chế. Nếu bạn đang xây dựng giải pháp cho các thiết bị nhúng sử dụng runtime như ONNX hoặc các engine TensorRT chuyên dụng cho edge computing, DAMO-YOLO cung cấp một framework có độ phản hồi cao.

Điểm mạnh của RTDETRv2: RTDETRv2 tỏa sáng trong các kịch bản có sẵn GPU cấp máy chủ và ngữ cảnh hình ảnh toàn cục là ưu tiên hàng đầu. Kiến trúc transformer cho phép nó giải quyết các bounding box chồng chéo một cách tự nhiên mà không cần NMS, khiến nó trở thành lựa chọn mạnh mẽ cho quản lý đám đông dày đặc hoặc theo dõi đối tượng phức tạp nơi các mối quan hệ không gian giữa các vật thể ở xa là rất quan trọng.

Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#

Mặc dù DAMO-YOLO và RTDETRv2 đại diện cho những thành tựu học thuật đáng kể, việc chuyển đổi các mô hình này thành các ứng dụng có khả năng mở rộng, sẵn sàng cho sản xuất có thể gặp nhiều khó khăn. Các nhà phát triển thường đối mặt với codebase bị phân mảnh, thiếu hỗ trợ cho multi-task learning và các pipeline triển khai phức tạp.

Đây là nơi hệ sinh thái Ultralytics thực sự tạo nên sự khác biệt. Bằng cách ưu tiên tính dễ sử dụng, Python API được bảo trì tốt và tính linh hoạt vượt trội, Ultralytics đảm bảo các nhà phát triển dành ít thời gian hơn để debug và nhiều thời gian hơn để xây dựng.

Mô hình Ultralytics YOLO26 mới ra mắt đưa những lợi thế này lên một tầm cao mới, mang đến những đột phá vượt xa cả DAMO-YOLO và RTDETRv2:

Thiết kế End-to-End không cần NMS: Được tiên phong lần đầu trong YOLOv10, YOLO26 là end-to-end nguyên bản. Điều này loại bỏ hoàn toàn hậu xử lý NMS, giúp việc triển khai nhanh hơn và đơn giản hơn đáng kể so với các CNN truyền thống, đồng thời mang lại lợi ích xuất kết quả trực tiếp như RTDETRv2.
Inference CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các thiết bị edge AI không có GPU rời, biến nó thành lựa chọn vượt trội cho các ứng dụng IoT so với các transformer ngốn bộ nhớ.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang các đổi mới trong huấn luyện Large Language Model (LLM) vào computer vision, dẫn đến việc huấn luyện ổn định đáng kinh ngạc và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm loss tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một lĩnh vực mà các mô hình truyền thống thường gặp khó khăn. Điều này rất quan trọng đối với các ứng dụng ảnh hàng không và drone.
Loại bỏ DFL: Distribution Focal Loss đã bị loại bỏ để đảm bảo các định dạng xuất đơn giản hóa và khả năng tương thích tốt hơn với các thiết bị edge công suất thấp.
Tính linh hoạt vượt trội: Không giống như các mô hình cạnh tranh chỉ giới hạn ở việc phát hiện, YOLO26 bao gồm những cải tiến cụ thể cho từng tác vụ, chẳng hạn như loss góc chuyên dụng cho Oriented Bounding Boxes (OBB), loss phân đoạn ngữ nghĩa để đạt độ chính xác đến từng pixel và Residual Log-Likelihood Estimation (RLE) cho Pose estimation.

Tìm hiểu thêm về YOLO26

Hiệu quả bộ nhớ là quan trọng

Huấn luyện các mô hình dựa trên transformer như RTDETRv2 đòi hỏi dung lượng bộ nhớ CUDA khổng lồ, thường cần đến các thiết lập nhiều GPU tốn kém. Các mô hình Ultralytics YOLO duy trì yêu cầu bộ nhớ thấp đáng kể trong cả quá trình huấn luyện và inference, giúp dân chủ hóa việc phát triển AI cho cả các nhà nghiên cứu và người đam mê.

Link to this sectionVí dụ mã: Unified Ultralytics API#

Một trong những lợi ích lớn nhất của hệ sinh thái Ultralytics là API hợp nhất. Bạn có thể tải, huấn luyện và xác thực liền mạch nhiều loại mô hình—bao gồm cả triển khai PyTorch của RTDETR và các mô hình YOLO tiên tiến—mà không cần thay đổi workflow của mình.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

Sự đơn giản này mở rộng đến cả việc huấn luyện trên tập dữ liệu tùy chỉnh và xuất mô hình. Sử dụng gói Python của Ultralytics, các nhà phát triển có thể dễ dàng đẩy các trọng số đã được huấn luyện lên các nền tảng triển khai như CoreML hoặc OpenVINO chỉ với một lệnh duy nhất.

Link to this sectionKết luận và Khám phá thêm#

Cả DAMO-YOLO và RTDETRv2 đều đã không thể phủ nhận việc mở rộng giới hạn của những gì có thể đạt được trong phát hiện đối tượng thời gian thực. DAMO-YOLO cung cấp các cấu trúc mạng được tự động tìm kiếm và tối ưu hóa cao cho hiệu suất thô, trong khi RTDETRv2 chứng minh rằng các transformer có thể cạnh tranh trong không gian thời gian thực bằng cách loại bỏ các nút thắt cổ chai truyền thống như NMS.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tối ưu về hiệu suất, tài liệu toàn diện và khả năng sẵn sàng sản xuất, các mô hình Ultralytics YOLO vẫn là tiêu chuẩn vàng. Với sự ra mắt của YOLO26, người dùng có quyền truy cập vào khả năng phát hiện end-to-end giống transformer, hiệu quả huấn luyện lấy cảm hứng từ LLM và tốc độ CPU vô song—tất cả đều được gói gọn trong một hệ sinh thái mạnh mẽ và trực quan.

Nếu bạn đang đánh giá các mô hình cho dự án tiếp theo của mình, bạn cũng có thể thấy hữu ích khi đọc các so sánh của chúng tôi về EfficientDet và RTDETR, khám phá thế hệ trước YOLO11, hoặc xem lại các baseline học thuật như YOLOX. Bắt đầu xây dựng ngay hôm nay bằng cách khám phá hướng dẫn nhanh Ultralytics.

Người đóng góp

GLglenn-jocher¹³ SEsergiuwaxmann¹ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước