RTDETRv2 so với DAMO- YOLO Hướng dẫn toàn diện về phát hiện đối tượng thời gian thực hiện đại
Lĩnh vực thị giác máy tính không ngừng phát triển, với các nhà nghiên cứu và kỹ sư nỗ lực xây dựng các mô hình cân bằng hoàn hảo giữa tốc độ, độ chính xác và hiệu quả. Hai kiến trúc nổi bật đã tạo nên những bước tiến đáng kể trong lĩnh vực này là RTDETRv2, được phát triển bởi Baidu, và DAMO- YOLO Được chế tạo bởi Tập đoàn Alibaba. Cả hai mô hình đều vượt qua giới hạn của việc phát hiện đối tượng theo thời gian thực, nhưng chúng lại áp dụng những triết lý kiến trúc khác biệt về cơ bản để đạt được kết quả ấn tượng.
Trong bài so sánh kỹ thuật này, chúng ta sẽ đi sâu vào kiến trúc, phương pháp đào tạo và khả năng triển khai thực tế của chúng. Chúng ta cũng sẽ xem xét cách các mô hình này so sánh với hệ sinh thái rộng lớn hơn, đặc biệt là Nền tảng Ultralytics được tối ưu hóa cao và kiến trúc YOLO26 tiên tiến.
Đổi mới Kiến trúc
Hiểu rõ cơ chế cốt lõi của các mô hình này là điều vô cùng quan trọng đối với các kỹ sư máy học, những người có nhiệm vụ lựa chọn công cụ phù hợp cho môi trường sản xuất.
RTDETRv2: Phương pháp tiếp cận Transformer
Tiếp nối thành công của phiên bản gốc. RT-DETR RTDETRv2 sử dụng bộ mã hóa lai và bộ giải mã Transformer . Thiết kế này cho phép mô hình xử lý ngữ cảnh toàn cục một cách hiệu quả cao, giúp nó đặc biệt tốt trong việc phân biệt giữa các đối tượng chồng chéo trong các cảnh phức tạp. Ưu điểm quan trọng nhất của kiến trúc này là khả năng xử lý tự nhiên của nó. NMS Thiết kế không có (Không triệt tiêu tối đa). Bằng cách loại bỏ NMS Bước xử lý hậu kỳ, RTDETRv2 giúp tối ưu hóa quy trình suy luận và đảm bảo độ trễ ổn định hơn trên các cấu hình phần cứng khác nhau.
DAMO- YOLO Nâng cao hiệu quả của mạng nơ-ron tích chập (CNN):
DAMO- YOLO Mặt khác, nó vẫn bám rễ vào nền tảng CNN vốn đã rất thành công. YOLO Kế thừa những tính năng từ DAMO nhưng giới thiệu một số cải tiến đột phá. Nó tận dụng Tìm kiếm Kiến trúc Thần kinh ( NAS ) để tối ưu hóa cấu trúc xương sống, đảm bảo hiệu quả trích xuất đặc trưng tối đa. Hơn nữa, nó tích hợp RepGFPN (Mạng Kim tự tháp Đặc trưng Tổng quát Tham số hóa lại) hiệu quả và thiết kế ZeroHead, cùng với AlignedOTA và các kỹ thuật tăng cường chưng cất. Những cải tiến này cho phép DAMO- YOLO để đạt được tốc độ suy luận nhanh chóng trong khi vẫn duy trì tính cạnh tranh cao. mAP điểm val .
Sự khác biệt về kiến trúc
Trong khi RTDETRv2 tập trung vào việc tận dụng các cơ chế chú ý để hiểu các đặc điểm toàn cục mà không cần NMS , DAMO- YOLO Phương pháp này tối ưu hóa hiệu quả của mạng CNN truyền thống thông qua NAS và kỹ thuật chưng cất nâng cao, yêu cầu xử lý hậu kỳ tiêu chuẩn nhưng mang lại lợi thế tốc độ rõ rệt trên một số phần cứng nhất định.
So sánh hiệu năng và số liệu
Khi đánh giá các mô hình để triển khai, các chỉ số hiệu suất như Độ chính xác trung bình (Average Precision) ( mAP Tốc độ suy luận và số lượng tham số là vô cùng quan trọng. Dưới đây là bảng so sánh chi tiết giữa hai nhóm mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích Kết quả
Như thể hiện trong bảng, RTDETRv2-x đạt độ chính xác cao nhất với... mAP Giá trị val là 54,3, thể hiện sức mạnh của kiến trúc Transformer trên các bài toán xác thực phức tạp như tập dữ liệu COCO . Tuy nhiên, điều này phải trả giá bằng số lượng tham số (76 triệu) và FLOPs cao hơn đáng kể.
Ngược lại, DAMO-YOLOt (Tiny) cực kỳ nhẹ, chỉ yêu cầu 8,5 triệu tham số, khiến nó trở thành một lựa chọn cực kỳ nhanh cho các môi trường mà... CUDA Bộ nhớ bị hạn chế nghiêm trọng. DAMO- YOLO Nhìn chung, giải pháp này mang lại sự cân bằng tối ưu giữa tốc độ và độ chính xác cho các thiết bị biên cũ.
Hệ sinh thái, Khả năng sử dụng và The Ultralytics Lợi thế
Mặc dù các kho lưu trữ độc lập như GitHub chính thức của RT-DETR và GitHub của DAMO- YOLO cung cấp mã nguồn thô để huấn luyện các mô hình này, việc tích hợp chúng vào quy trình sản xuất thường đòi hỏi nhiều mã mẫu và tối ưu hóa thủ công.
Đây chính là điểm mà hệ sinh thái Ultralytics đơn giản hóa đáng kể trải nghiệm của nhà phát triển. Ultralytics Nó tích hợp các mô hình như RTDETRv2 trực tiếp vào API thống nhất của mình, cho phép người dùng huấn luyện, xác thực và xuất mô hình chỉ với một dòng mã. Hơn nữa, Ultralytics Các mô hình này nổi tiếng với yêu cầu bộ nhớ tối thiểu trong quá trình huấn luyện so với các kho lưu trữ độc lập dựa trên transformer có dung lượng lớn.
Ví dụ mã: Tích hợp liền mạch
Đây là cách bạn có thể dễ dàng tận dụng Ultralytics Python Thư viện này dùng để chạy suy luận. API vẫn nhất quán cho dù bạn đang sử dụng mô hình transformer hay mạng CNN hiện đại.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()
Xuất mô hình để sản xuất
Sử dụng Ultralytics API, bạn có thể dễ dàng xuất các mô hình đã được huấn luyện của bạn sang các định dạng như TensorRT , ONNX , hoặc CoreML với một cách đơn giản model.export(format="engine") chỉ huy, giúp giảm đáng kể ma sát trong quá trình triển khai.
Các trường hợp sử dụng lý tưởng
Việc lựa chọn giữa các kiến trúc này hoàn toàn phụ thuộc vào yêu cầu cụ thể của dự án của bạn:
- RTDETRv2 hoạt động xuất sắc trong xử lý phía máy chủ khi bộ nhớ VRAM dồi dào. Khả năng nhận biết ngữ cảnh toàn cục của nó rất phù hợp cho hình ảnh y tế và phân tích đám đông dày đặc, nơi thường xuyên xảy ra hiện tượng che khuất.
- DAMO- YOLO rất phù hợp cho các ứng dụng IoT nhúng và các dây chuyền kiểm tra công nghiệp tốc độ cao, nơi yêu cầu số lượng tham số thấp và FPS cao là rất nghiêm ngặt.
Tương lai: Ultralytics YOLO26
Trong khi cả RTDETRv2 và DAMO- YOLO Mặc dù có những ưu điểm riêng, lĩnh vực thị giác máy tính vẫn đang phát triển nhanh chóng. Đối với các dự án mới, Ultralytics YOLO26 mới nhất đại diện cho sự tổng hợp tối ưu giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển.
YOLO26 áp dụng thiết kế không cần NMS từ đầu đến cuối , nắm bắt được lợi ích chính của các mô hình Transformer mà không gây ra gánh nặng tính toán khổng lồ. Nó tích hợp bộ tối ưu hóa MuSGD tiên tiến —lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn —để đạt được sự hội tụ ổn định và nhanh chóng. Hơn nữa, với việc loại bỏ DFL (Distribution Focal Loss - loại bỏ tổn thất tiêu điểm phân phối để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với thiết bị biên/thiết bị công suất thấp), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành nhà vô địch không thể tranh cãi trong điện toán biên . Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát được cải tiến với những cải thiện đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với IoT, robot và hình ảnh trên không.
Không giống như các mô hình chỉ giới hạn ở hộp giới hạn, dòng sản phẩm YOLO26 mang đến tính linh hoạt vượt trội, hỗ trợ các tác vụ từ phân đoạn đối tượng và ước tính tư thế đến hộp giới hạn định hướng (OBB) , tất cả đều được quản lý liền mạch thông qua Nền tảng Ultralytics trực quan.
Khám phá YOLO26 trên nền tảng này.
Thông tin chi tiết và tham khảo về mô hình
RTDETRv2
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức:Baidu
- Ngày: 2024-07-24
- Arxiv:2407.17140
- GitHub:Kho lưu trữ RT-DETR
DAMO-YOLO
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:Kho lưu trữ DAMO-YOLO
Đối với người dùng quan tâm đến việc tìm hiểu các so sánh khác, hãy xem các hướng dẫn của chúng tôi về RTDETRv2 so với YOLO11 hoặc DAMO- YOLO so với YOLOv8 để xem các mô hình này hoạt động như thế nào so với các thế hệ trước đó. Ultralytics gia đình.