Cuộc đối đầu kỹ thuật: DAMO-YOLO vs RTDETRv2 cho phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đang phát triển nhanh chóng, tạo ra một loạt các kiến trúc ấn tượng được thiết kế để cân bằng tốc độ, độ chính xác và hiệu quả tính toán. Hai mô hình nổi bật đã đóng góp những cách tiếp cận độc đáo để giải quyết những thách thức này là DAMO- YOLO và RTDETRv2. Mặc dù cả hai mô hình đều hướng đến việc cung cấp các giải pháp tiên tiến cho suy luận thời gian thực, nhưng chúng khác biệt về cơ bản trong triết lý kiến trúc của mình.

Hướng dẫn toàn diện này đi sâu vào các thông số kỹ thuật, cải tiến kiến trúc và các trường hợp sử dụng thực tế của cả hai mô hình, đồng thời khám phá cách các giải pháp hiện đại như Nền tảng Ultralytics và YOLO26 tiên tiến đã định nghĩa lại các tiêu chuẩn ngành về triển khai và tính dễ sử dụng.

Tổng quan về mô hình

Tìm hiểu về DAMO- YOLO

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO giới thiệu một phương pháp phát hiện đối tượng nhanh và chính xác, phụ thuộc nhiều vào Neural Architecture Search (NAS). Nó thay thế các backbone thủ công truyền thống bằng các cấu trúc do NAS tạo ra, được thiết kế cho độ trễ thấp. Ngoài ra, nó còn tích hợp một RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả và thiết kế ZeroHead để hợp lý hóa việc tổng hợp đặc trưng và dự đoán hộp giới hạn.

Thông tin chi tiết quan trọng về mẫu sản phẩm:

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO
Tài liệu:Tài liệu DAMO-YOLO

Tìm hiểu thêm về DAMO-YOLO

Tìm hiểu về RTDETRv2

RTDETRv2 của Baidu đại diện cho một bước tiến đáng kể đối với các bộ biến đổi phát hiện thời gian thực (Real-Time Detection Transformers). Không giống như các Mạng nơ-ron tích chập (CNNs) truyền thống dựa vào anchor box và Non-Maximum Suppression (NMS), RTDETRv2 sử dụng cơ chế tự chú ý để xem toàn bộ hình ảnh theo ngữ cảnh. Nó trực tiếp xuất ra các bounding box, hoàn toàn bỏ qua bước hậu xử lý NMS. Mô hình này giới thiệu chiến lược huấn luyện "bag of freebies" để cải thiện độ chính xác cơ bản mà không làm tăng độ trễ suy luận.

Thông tin chi tiết quan trọng về mẫu sản phẩm:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 2024-07-24
Arxiv:2407.17140
GitHub:Kho lưu trữ RT-DETR
Tài liệu:Tài liệu RTDETRv2

Tìm hiểu thêm về RTDETRv2

Ứng dụng công nghệ Transformers trong Trí tuệ nhân tạo thị giác

Mặc dù các mô hình Transformer đòi hỏi tài nguyên tính toán cao hơn, nhưng khả năng xử lý ngữ cảnh toàn cục của chúng khiến chúng trở nên vô cùng hiệu quả trong việc hiểu các cảnh phức tạp, đây là một thế mạnh chính của RTDETRv2.

So sánh hiệu suất

Khi đánh giá các mô hình này để triển khai trong thực tế, các tham số như Độ chính xác trung bình (Mean Average Precision) mAP Tốc độ xử lý, tốc độ suy luận và dung lượng bộ nhớ là những yếu tố rất quan trọng. Các mô hình dựa trên Transformer như RTDETRv2 thường đòi hỏi dung lượng bộ nhớ cao hơn. CUDA khả năng ghi nhớ trong quá trình huấn luyện và suy luận so với các mạng CNN nhẹ như DAMO- YOLO .

Dưới đây là bảng so sánh chi tiết về các chỉ số hiệu suất của chúng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Các trường hợp sử dụng lý tưởng

DAMO-YOLO vượt trội ở đâu: Nhờ kiến trúc backbone được tối ưu hóa bằng NAS và số lượng tham số cực thấp trong các biến thể nhỏ hơn của nó (như DAMO-YOLOt), nó rất phù hợp để triển khai trên các phần cứng bị hạn chế cao. Nếu bạn đang xây dựng các giải pháp cho thiết bị nhúng sử dụng các runtime như ONNX hoặc các engine TensorRT chuyên dụng cho điện toán biên, DAMO-YOLO cung cấp một framework có khả năng phản hồi cao.

RTDETRv2 vượt trội ở đâu: RTDETRv2 tỏa sáng trong các kịch bản có sẵn GPU cấp máy chủ và ngữ cảnh hình ảnh toàn cục là tối quan trọng. Kiến trúc transformer của nó cho phép nó tự nhiên giải quyết các hộp giới hạn chồng chéo mà không cần NMS, làm cho nó trở thành một lựa chọn mạnh mẽ cho quản lý đám đông dày đặc hoặc theo dõi đối tượng phức tạp, nơi các mối quan hệ không gian giữa các đối tượng ở xa là rất quan trọng.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi DAMO- YOLO Mặc dù RTDETRv2 đại diện cho những thành tựu học thuật đáng kể, việc chuyển đổi các mô hình này thành các ứng dụng có khả năng mở rộng và sẵn sàng cho sản xuất có thể gặp nhiều thách thức. Các nhà phát triển thường phải đối mặt với mã nguồn phân mảnh, thiếu hỗ trợ cho học tập đa nhiệm và các quy trình triển khai phức tạp.

Đây chính là điểm mà hệ sinh thái Ultralytics thực sự tạo nên sự khác biệt. Bằng cách ưu tiên tính dễ sử dụng, một hệ thống được bảo trì tốt... Python API và tính linh hoạt vượt trội, Ultralytics Đảm bảo các nhà phát triển dành ít thời gian hơn cho việc gỡ lỗi và nhiều thời gian hơn cho việc xây dựng.

Mẫu Ultralytics YOLO26 mới ra mắt gần đây đã nâng những ưu điểm này lên một tầm cao mới, mang đến những đột phá vượt trội so với cả DAMO- YOLO và RTDETRv2:

Thiết kế NMS-Free End-to-End: Được tiên phong ban đầu trong YOLOv10, YOLO26 là end-to-end nguyên bản. Điều này loại bỏ hoàn toàn xử lý hậu kỳ NMS, giúp việc triển khai nhanh hơn và đơn giản hơn đáng kể so với các CNN truyền thống, đồng thời phù hợp với lợi ích đầu ra trực tiếp của RTDETRv2.
Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho thiết bị AI biên không có GPU rời, làm cho nó trở thành lựa chọn vượt trội hơn hẳn cho các ứng dụng IoT so với các mô hình transformer tiêu tốn bộ nhớ.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang những đổi mới trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào thị giác máy tính, dẫn đến quá trình huấn luyện ổn định đáng kể và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, một lĩnh vực mà các mô hình truyền thống thường gặp khó khăn. Điều này rất quan trọng đối với hình ảnh từ trên không và các ứng dụng máy bay không người lái.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đảm bảo các định dạng xuất đơn giản hóa và khả năng tương thích tốt hơn với các thiết bị biên công suất thấp.
Tính linh hoạt vô song: Không giống như các mô hình cạnh tranh chỉ giới hạn nghiêm ngặt ở detect, YOLO26 bao gồm các cải tiến dành riêng cho tác vụ trên toàn diện, chẳng hạn như hàm mất góc chuyên biệt cho Hộp giới hạn định hướng (OBB), hàm mất phân đoạn ngữ nghĩa để đạt độ chính xác hoàn hảo đến từng pixel và Ước tính Log-Likelihood dư (RLE) cho ước tính tư thế.

Tìm hiểu thêm về YOLO26

Hiệu quả bộ nhớ rất quan trọng

Việc huấn luyện các mô hình dựa trên transformer như RTDETRv2 đòi hỏi rất lớn. CUDA phân bổ bộ nhớ, thường đòi hỏi nhiều thao tác tốn kém. GPU thiết lập. Ultralytics YOLO Các mô hình này duy trì yêu cầu bộ nhớ thấp hơn đáng kể trong cả quá trình huấn luyện và suy luận, giúp việc phát triển AI trở nên dễ dàng hơn đối với cả các nhà nghiên cứu và người đam mê.

Ví dụ mã: API Ultralytics hợp nhất

Một trong những lợi ích lớn nhất của Ultralytics Điểm nổi bật của hệ sinh thái này chính là API thống nhất. Bạn có thể dễ dàng tải, huấn luyện và xác thực nhiều mô hình khác nhau—bao gồm cả... PyTorch triển khai RTDETR và công nghệ tiên tiến nhất YOLO mô hình—mà không cần thay đổi quy trình làm việc của bạn.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

Sự đơn giản này cũng được thể hiện trong việc huấn luyện và xuất dữ liệu tùy chỉnh . Bằng cách sử dụng gói Python Ultralytics , các nhà phát triển có thể dễ dàng đẩy các trọng số đã được huấn luyện của họ lên các nền tảng triển khai như CoreML hoặc OpenVINO chỉ bằng một lệnh duy nhất.

Kết luận và khám phá sâu hơn

Cả DAMO-YOLO và RTDETRv2 đều đã đẩy lùi ranh giới của những gì có thể trong detect vật thể thời gian thực. DAMO-YOLO cung cấp các cấu trúc mạng được tối ưu hóa cao, tự động tìm kiếm để đạt hiệu quả thô, trong khi RTDETRv2 chứng minh rằng các mô hình transformer có thể cạnh tranh trong không gian thời gian thực bằng cách loại bỏ các nút thắt cổ chai truyền thống như NMS.

Tuy nhiên, đối với các nhà phát triển tìm kiếm sự cân bằng tối ưu giữa hiệu năng, tài liệu đầy đủ và khả năng sẵn sàng sản xuất, các mô hình Ultralytics YOLO vẫn là tiêu chuẩn vàng. Với sự ra mắt của YOLO26, người dùng có được quyền truy cập vào khả năng phát hiện từ đầu đến cuối giống như Transformer, hiệu quả huấn luyện được lấy cảm hứng từ LLM và khả năng vượt trội chưa từng có. CPU Tốc độ—tất cả được gói gọn trong một hệ sinh thái trực quan và mạnh mẽ.

Nếu bạn đang đánh giá các mô hình cho dự án tiếp theo của mình, bạn cũng có thể thấy hữu ích khi đọc các bài so sánh của chúng tôi về EfficientDet so với RTDETR , tìm hiểu về thế hệ trước YOLO11 , hoặc xem xét các mô hình chuẩn học thuật như YOLOX . Hãy bắt đầu xây dựng ngay hôm nay bằng cách khám phá hướng dẫn nhanh Ultralytics .