Chuyển đến nội dung

Một cuộc đối đầu kỹ thuật: DAMO- YOLO So sánh với RTDETRv2 để phát hiện đối tượng trong thời gian thực

Lĩnh vực thị giác máy tính đang phát triển nhanh chóng, tạo ra một loạt các kiến ​​trúc ấn tượng được thiết kế để cân bằng tốc độ, độ chính xác và hiệu quả tính toán. Hai mô hình nổi bật đã đóng góp những cách tiếp cận độc đáo để giải quyết những thách thức này là DAMO- YOLO và RTDETRv2. Mặc dù cả hai mô hình đều hướng đến việc cung cấp các giải pháp tiên tiến cho suy luận thời gian thực, nhưng chúng khác biệt về cơ bản trong triết lý kiến ​​trúc của mình.

Hướng dẫn toàn diện này đi sâu vào các thông số kỹ thuật, cải tiến kiến ​​trúc và các trường hợp sử dụng thực tế của cả hai mô hình, đồng thời khám phá cách các giải pháp hiện đại như Nền tảng UltralyticsYOLO26 tiên tiến đã định nghĩa lại các tiêu chuẩn ngành về triển khai và tính dễ sử dụng.

Tổng quan về mô hình

Tìm hiểu về DAMO- YOLO

Được phát triển bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO Phương pháp này giới thiệu một cách tiếp cận phát hiện đối tượng nhanh và chính xác, dựa nhiều vào Tìm kiếm Kiến trúc Mạng nơ-ron (Neural Architecture Search - NAS). Nó thay thế các kiến ​​trúc mạng nơ-ron truyền thống được xây dựng thủ công bằng các cấu trúc do NAS tạo ra, được thiết kế để có độ trễ thấp. Ngoài ra, nó còn tích hợp một mạng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả và thiết kế ZeroHead để tối ưu hóa việc tổng hợp đặc trưng và dự đoán hộp giới hạn.

Thông tin chi tiết quan trọng về mẫu sản phẩm:

Tìm hiểu thêm về DAMO-YOLO

Tìm hiểu về RTDETRv2

RTDETRv2 của Baidu đại diện cho một bước tiến đáng kể đối với các mô-đun Transformer phát hiện thời gian thực. Không giống như các mạng nơ-ron tích chập (CNN) truyền thống dựa vào các hộp neo và loại bỏ cực đại cục bộ (Non-Maximum Suppression) ( NMS RTDETRv2 sử dụng cơ chế tự chú ý để xem toàn bộ hình ảnh theo ngữ cảnh. Nó trực tiếp xuất ra các hộp giới hạn, hoàn toàn bỏ qua... NMS Bước xử lý hậu kỳ. Mô hình này giới thiệu chiến lược huấn luyện "túi quà tặng" để cải thiện độ chính xác cơ bản mà không làm tăng độ trễ suy luận.

Thông tin chi tiết quan trọng về mẫu sản phẩm:

Tìm hiểu thêm về RTDETRv2

Ứng dụng công nghệ Transformers trong Trí tuệ nhân tạo thị giác

Mặc dù các mô hình Transformer đòi hỏi tài nguyên tính toán cao hơn, nhưng khả năng xử lý ngữ cảnh toàn cục của chúng khiến chúng trở nên vô cùng hiệu quả trong việc hiểu các cảnh phức tạp, đây là một thế mạnh chính của RTDETRv2.

So sánh hiệu suất

Khi đánh giá các mô hình này để triển khai trong thực tế, các tham số như Độ chính xác trung bình (Mean Average Precision) mAP Tốc độ xử lý, tốc độ suy luận và dung lượng bộ nhớ là những yếu tố rất quan trọng. Các mô hình dựa trên Transformer như RTDETRv2 thường đòi hỏi dung lượng bộ nhớ cao hơn. CUDA khả năng ghi nhớ trong quá trình huấn luyện và suy luận so với các mạng CNN nhẹ như DAMO- YOLO .

Dưới đây là bảng so sánh chi tiết các chỉ số hiệu suất của họ.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Các trường hợp sử dụng lý tưởng

Ưu điểm vượt trội của DAMO- YOLO : Nhờ kiến ​​trúc nền tảng được tối ưu hóa cho NAS và số lượng tham số cực thấp trong các biến thể nhỏ hơn (như DAMO-YOLOt), nó rất phù hợp để triển khai trên phần cứng có tài nguyên hạn chế. Nếu bạn đang xây dựng giải pháp cho các thiết bị nhúng sử dụng các runtime như ONNX hoặc các engine TensorRT chuyên dụng cho điện toán biên, DAMO-YOLO là lựa chọn tối ưu. YOLO Cung cấp một khung làm việc có khả năng phản hồi cao.

Ưu điểm vượt trội của RTDETRv2: RTDETRv2 tỏa sáng trong các trường hợp có sẵn GPU cấp máy chủ và ngữ cảnh hình ảnh toàn cục là tối quan trọng. Kiến trúc transformer của nó cho phép giải quyết tự nhiên các hộp giới hạn chồng chéo mà không cần NMS , khiến nó trở thành lựa chọn mạnh mẽ cho việc quản lý đám đông dày đặc hoặc theo dõi đối tượng phức tạp, nơi mối quan hệ không gian giữa các đối tượng ở xa là rất quan trọng.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi DAMO- YOLO Mặc dù RTDETRv2 đại diện cho những thành tựu học thuật đáng kể, việc chuyển đổi các mô hình này thành các ứng dụng có khả năng mở rộng và sẵn sàng cho sản xuất có thể gặp nhiều thách thức. Các nhà phát triển thường phải đối mặt với mã nguồn phân mảnh, thiếu hỗ trợ cho học tập đa nhiệm và các quy trình triển khai phức tạp.

Đây chính là điểm mà hệ sinh thái Ultralytics thực sự tạo nên sự khác biệt. Bằng cách ưu tiên tính dễ sử dụng, một hệ thống được bảo trì tốt... Python API và tính linh hoạt vượt trội, Ultralytics Đảm bảo các nhà phát triển dành ít thời gian hơn cho việc gỡ lỗi và nhiều thời gian hơn cho việc xây dựng.

Mẫu Ultralytics YOLO26 mới ra mắt gần đây đã nâng những ưu điểm này lên một tầm cao mới, mang đến những đột phá vượt trội so với cả DAMO- YOLO và RTDETRv2:

  • Thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối: Được tiên phong lần đầu tiên trong YOLOv10 , YOLO26 có thiết kế hoàn toàn từ đầu đến cuối. Điều này loại bỏ hoàn toàn... NMS Xử lý hậu kỳ, giúp triển khai nhanh hơn và đơn giản hơn đáng kể so với các mạng CNN truyền thống, đồng thời vẫn đảm bảo lợi ích đầu ra trực tiếp tương tự như RTDETRv2.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các thiết bị AI biên không có GPU rời, khiến nó trở thành lựa chọn vượt trội hơn hẳn cho các ứng dụng IoT so với các bộ chuyển đổi cần nhiều bộ nhớ.
  • MuSGD Optimizer: Lấy cảm hứng từ Kimi K2 của Moonshot AI, đây là sự kết hợp của... SGD Và Muon mang đến những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào lĩnh vực thị giác máy tính, giúp quá trình huấn luyện ổn định hơn đáng kể và tốc độ hội tụ nhanh hơn.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một lĩnh vực mà các mô hình truyền thống thường gặp khó khăn. Điều này rất quan trọng đối với ảnh chụp từ trên không và các ứng dụng máy bay không người lái.
  • Loại bỏ DFL: Hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL) đã được loại bỏ để đảm bảo định dạng xuất đơn giản hơn và khả năng tương thích tốt hơn với các thiết bị biên công suất thấp.
  • Tính linh hoạt vượt trội: Không giống như các mô hình cạnh tranh chỉ giới hạn ở việc phát hiện đối tượng, YOLO26 bao gồm các cải tiến chuyên biệt cho từng nhiệm vụ, chẳng hạn như hàm mất mát góc chuyên dụng cho hộp giới hạn định hướng (OBB) , hàm mất mát phân đoạn ngữ nghĩa cho độ chính xác hoàn hảo đến từng pixel và ước lượng logarit khả năng còn lại (RLE) cho ước lượng tư thế .

Tìm hiểu thêm về YOLO26

Hiệu quả bộ nhớ rất quan trọng

Việc huấn luyện các mô hình dựa trên transformer như RTDETRv2 đòi hỏi rất lớn. CUDA phân bổ bộ nhớ, thường đòi hỏi nhiều thao tác tốn kém. GPU thiết lập. Ultralytics YOLO Các mô hình này duy trì yêu cầu bộ nhớ thấp hơn đáng kể trong cả quá trình huấn luyện và suy luận, giúp việc phát triển AI trở nên dễ dàng hơn đối với cả các nhà nghiên cứu và người đam mê.

Ví dụ mã: Thống nhất Ultralytics API

Một trong những lợi ích lớn nhất của Ultralytics Điểm nổi bật của hệ sinh thái này chính là API thống nhất. Bạn có thể dễ dàng tải, huấn luyện và xác thực nhiều mô hình khác nhau—bao gồm cả... PyTorch triển khai RTDETR và công nghệ tiên tiến nhất YOLO mô hình—mà không cần thay đổi quy trình làm việc của bạn.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

Sự đơn giản này cũng được thể hiện trong việc huấn luyện và xuất dữ liệu tùy chỉnh . Bằng cách sử dụng gói Python Ultralytics , các nhà phát triển có thể dễ dàng đẩy các trọng số đã được huấn luyện của họ lên các nền tảng triển khai như CoreML hoặc OpenVINO chỉ bằng một lệnh duy nhất.

Kết luận và hướng nghiên cứu tiếp theo

Cả DAMO- YOLO và RTDETRv2 đã không thể phủ nhận việc đẩy mạnh giới hạn của những gì có thể đạt được trong phát hiện đối tượng thời gian thực. DAMO- YOLO Cung cấp các cấu trúc mạng được tối ưu hóa cao, tự động tìm kiếm để đạt hiệu quả tối đa, trong khi RTDETRv2 chứng minh rằng các bộ chuyển đổi có thể cạnh tranh trong không gian thời gian thực bằng cách loại bỏ các nút thắt cổ chai truyền thống như NMS .

Tuy nhiên, đối với các nhà phát triển tìm kiếm sự cân bằng tối ưu giữa hiệu năng, tài liệu đầy đủ và khả năng sẵn sàng sản xuất, các mô hình Ultralytics YOLO vẫn là tiêu chuẩn vàng. Với sự ra mắt của YOLO26, người dùng có được quyền truy cập vào khả năng phát hiện từ đầu đến cuối giống như Transformer, hiệu quả huấn luyện được lấy cảm hứng từ LLM và khả năng vượt trội chưa từng có. CPU Tốc độ—tất cả được gói gọn trong một hệ sinh thái trực quan và mạnh mẽ.

Nếu bạn đang đánh giá các mô hình cho dự án tiếp theo của mình, bạn cũng có thể thấy hữu ích khi đọc các bài so sánh của chúng tôi về EfficientDet so với RTDETR , tìm hiểu về thế hệ trước YOLO11 , hoặc xem xét các mô hình chuẩn học thuật như YOLOX . Hãy bắt đầu xây dựng ngay hôm nay bằng cách khám phá hướng dẫn nhanh Ultralytics .


Bình luận