YOLOv10 So với RTDETRv2: Kiến trúc và hiệu năng trong phát hiện thời gian thực
Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là một quyết định quan trọng đối với các nhà phát triển xây dựng ứng dụng thị giác máy tính . Hướng dẫn này sẽ đi sâu vào hai cách tiếp cận khác nhau để phát hiện đối tượng trong thời gian thực: YOLOv10 , một sự phát triển của mạng nơ-ron tích chập (CNN). YOLO Chúng tôi phân tích hai mô hình này: một mô hình thuộc họ CNN, giới thiệu các khả năng từ đầu đến cuối, và RTDETRv2 , một mô hình dựa trên Transformer được thiết kế để thách thức sự thống trị của CNN. Chúng tôi xem xét kiến trúc, điểm chuẩn và tính phù hợp của chúng trong các kịch bản triển khai khác nhau.
Tổng quan và Nguồn gốc Mô hình
Việc hiểu rõ nguồn gốc của các mẫu thiết kế này giúp làm sáng tỏ triết lý thiết kế và mục đích sử dụng của chúng.
YOLOv10 : Cái NMS -CNN miễn phí
Được các nhà nghiên cứu tại Đại học Thanh Hoa công bố vào tháng 5 năm 2024, YOLOv10 đánh dấu một sự thay đổi đáng kể trong YOLO dòng dõi. Nó giải quyết một nút thắt cổ chai lâu đời trong các bộ dò thời gian thực: Hiện tượng triệt tiêu không tối đa (Non-Maximum Suppression - NMS ) . Bằng cách sử dụng các phép gán kép nhất quán cho NMS - Đào tạo miễn phí, YOLOv10 Đạt được độ trễ thấp hơn và đơn giản hóa quy trình triển khai so với các thế hệ trước như... YOLOv9 hoặc YOLOv8 .
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức:Đại học Thanh Hoa
- Ngày: 2024-05-23
- Liên kết:Bài báo Arxiv | Kho lưu trữ GitHub
RTDETRv2: Đối thủ Transformer
RT-DETR (Bộ chuyển đổi phát hiện thời gian thực) là mô hình dựa trên bộ chuyển đổi đầu tiên thực sự cạnh tranh được với YOLO tốc độ. RTDETRv2, được phát triển bởi Baidu, tinh chỉnh kiến trúc này với phương pháp "Túi quà tặng miễn phí", tối ưu hóa chiến lược huấn luyện và kiến trúc để đạt được sự hội tụ và tính linh hoạt tốt hơn. Nó tận dụng sức mạnh của bộ chuyển đổi hình ảnh (ViT) để nắm bắt ngữ cảnh toàn cục, thường vượt trội hơn CNN trong các cảnh phức tạp có hiện tượng che khuất, mặc dù với chi phí tính toán cao hơn.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Tổ chức:Baidu
- Ngày: 17/04/2023 (Bản gốc) RT-DETR ), Cập nhật năm 2024
- Liên kết:Bài báo Arxiv | Kho lưu trữ GitHub
So sánh Kiến trúc Kỹ thuật
Sự khác biệt cốt lõi nằm ở cách các mô hình này xử lý các đặc điểm và tạo ra dự đoán.
Kiến trúc YOLOv10
YOLOv10 Duy trì cấu trúc mạng nơ-ron tích chập (CNN) nhưng cách mạng hóa phần đầu và quy trình huấn luyện.
- Phân công kép nhất quán: Mô hình sử dụng phân công một-nhiều để giám sát chi tiết trong quá trình huấn luyện và phân công một-một cho quá trình suy luận. Điều này cho phép mô hình dự đoán một hộp tốt nhất duy nhất cho mỗi đối tượng, loại bỏ nhu cầu về... NMS .
- Thiết kế hiệu quả toàn diện: Kiến trúc này có các đầu phân loại nhẹ và lấy mẫu giảm không gian-kênh để giảm sự dư thừa về mặt tính toán.
- Tích chập hạt nhân lớn: Tương tự như những tiến bộ gần đây, nó sử dụng các trường tiếp nhận lớn để cải thiện độ chính xác mà không cần đến chi phí cao của các cơ chế tự chú ý.
Kiến trúc RTDETRv2
RTDETRv2 được xây dựng dựa trên cấu trúc bộ mã hóa-giải mã Transformer.
- Bộ mã hóa lai: Nó sử dụng mạng nơ-ron tích chập (CNN) (thường là ResNet hoặc HGNetv2) để trích xuất các đặc trưng, sau đó được xử lý bởi bộ mã hóa Transformer. Điều này cho phép nó mô hình hóa các phụ thuộc tầm xa trên toàn bộ hình ảnh.
- Lựa chọn truy vấn giảm thiểu sự không chắc chắn: Cơ chế này chọn các truy vấn ban đầu chất lượng cao cho bộ giải mã, cải thiện tốc độ khởi tạo và hội tụ.
- Tách rời linh hoạt: RTDETRv2 hỗ trợ lấy mẫu rời rạc, cho phép người dùng cân bằng giữa tốc độ và độ chính xác một cách linh hoạt hơn so với các cấu trúc CNN cứng nhắc.
Tại sao hệ sinh thái lại quan trọng
Mặc dù các mô hình học thuật như RTDETRv2 cung cấp các kiến trúc mới lạ, nhưng chúng thường thiếu các công cụ mạnh mẽ cần thiết cho sản xuất. Ultralytics Các mô hình như YOLO26 và YOLO11 được tích hợp vào một hệ sinh thái hoàn chỉnh. Điều này bao gồm Nền tảng Ultralytics để quản lý tập dữ liệu dễ dàng, huấn luyện chỉ với một cú nhấp chuột và triển khai liền mạch đến các thiết bị biên.
Các chỉ số hiệu suất
Bảng sau đây so sánh hiệu năng của cả hai mô hình trên tập dữ liệu COCO .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Phân tích các điểm chuẩn
- Sự chi phối của độ trễ: YOLOv10 Thể hiện độ trễ thấp hơn đáng kể trên tất cả các kích thước mô hình. Ví dụ, YOLOv10s nhanh hơn khoảng 2 lần so với RTDETRv2-s trên GPU T4 trong khi vẫn duy trì độ chính xác cạnh tranh (46,7% so với 48,1%). mAP ).
- Hiệu quả tham số: YOLOv10 Nó có hiệu suất cao về số lượng tham số và FLOPs . YOLOv10m đạt được độ chính xác tương tự như RTDETRv2-m nhưng yêu cầu ít hơn một nửa số tham số (15,4 triệu so với 36 triệu), khiến nó vượt trội hơn hẳn cho các ứng dụng AI trên thiết bị di động và thiết bị biên .
- Mức độ chính xác tối đa: RTDETRv2 thể hiện xuất sắc ở các hạng mục "Nhỏ" và "Trung bình" về độ chính xác thô ( mAP ), tận dụng khả năng nhận biết bối cảnh toàn cầu của bộ chuyển đổi. Tuy nhiên, ở quy mô lớn nhất (cực lớn), YOLOv10 Nó bắt kịp và thậm chí vượt qua RTDETRv2 trong khi vẫn giữ được tốc độ nhanh hơn.
Các yếu tố cần cân nhắc trong huấn luyện và triển khai
Khi chuyển từ giai đoạn nghiên cứu sang sản xuất, các yếu tố như hiệu quả đào tạo và sử dụng bộ nhớ trở nên vô cùng quan trọng.
Yêu cầu bộ nhớ
Các mô hình dựa trên bộ biến áp như RTDETRv2 thường tiêu thụ nhiều năng lượng hơn đáng kể. CUDA Việc sử dụng bộ nhớ trong quá trình huấn luyện có thể bị lãng phí do độ phức tạp bậc hai của cơ chế tự chú ý. Điều này đòi hỏi phải sử dụng các GPU cao cấp đắt tiền để huấn luyện. Ngược lại, các mô hình YOLO Ultralytics nổi tiếng về hiệu quả sử dụng bộ nhớ. Các mô hình như YOLOv10 Và phiên bản YOLO26 mới hơn thường có thể được tinh chỉnh trên phần cứng dành cho người tiêu dùng hoặc các phiên bản đám mây tiêu chuẩn, giúp giảm bớt rào cản gia nhập.
Dễ sử dụng và hệ sinh thái
Một trong những ưu điểm quan trọng nhất của việc sử dụng YOLOv10 thông qua Ultralytics Thư viện mang đến trải nghiệm người dùng được tối ưu hóa.
- API Ultralytics : Bạn có thể tải, huấn luyện và triển khai dữ liệu. YOLOv10 với một vài dòng Python mã, giống hệt quy trình làm việc cho YOLOv8 hoặc YOLO11 .
- Tùy chọn xuất khẩu: Ultralytics Hỗ trợ xuất dữ liệu tức thời sang các định dạng như ONNX , TensorRT , CoreML , Và OpenVINO Mặc dù RTDETRv2 đã cải thiện khả năng hỗ trợ triển khai, nhưng nó thường yêu cầu cấu hình phức tạp hơn để xử lý các hình dạng động liên quan đến bộ chuyển đổi.
- Tài liệu: Tài liệu đầy đủ đảm bảo các nhà phát triển có thể truy cập vào các hướng dẫn, cẩm nang về siêu tham số và các nguồn tài liệu khắc phục sự cố.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn YOLOv10
YOLOv10 Đây là lựa chọn ưu tiên trong những trường hợp tốc độ và hạn chế về tài nguyên là yếu tố quan trọng.
- Ứng dụng di động: Android / iOS các ứng dụng yêu cầu suy luận thời gian thực mà không làm hao pin.
- Hệ thống nhúng: Chạy trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson , nơi bộ nhớ (RAM) bị hạn chế.
- Xử lý video tốc độ khung hình cao: Các ứng dụng như giám sát giao thông hoặc phân tích thể thao, nơi duy trì tốc độ khung hình cao là điều cần thiết để tránh hiện tượng nhòe chuyển động hoặc bỏ sót các sự kiện.
Khi nào nên chọn RTDETRv2
RTDETRv2 phù hợp khi độ chính xác là ưu tiên hàng đầu và tài nguyên phần cứng dồi dào.
- Cảnh phức tạp: Môi trường có nhiều vật cản hoặc lộn xộn, nơi cơ chế chú ý toàn cục giúp phân biệt các đối tượng chồng chéo.
- Suy luận phía máy chủ: Các kịch bản trong đó mô hình chạy trên GPU đám mây mạnh mẽ, cho phép chấp nhận độ trễ và chi phí bộ nhớ cao hơn để đổi lấy một chút cải thiện về hiệu suất. mAP .
Tương lai: Ultralytics YOLO26
Trong khi YOLOv10 giới thiệu NMS Với khái niệm hoàn toàn mới, lĩnh vực này đang phát triển rất nhanh. Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao của sự tiến hóa này.
YOLO26 áp dụng thiết kế không cần NMS từ đầu đến cuối, một thiết kế tiên phong của... YOLOv10 Nhưng nó được nâng cấp với trình tối ưu hóa MuSGD (lấy cảm hứng từ quá trình huấn luyện LLM) và các hàm mất mát được cải tiến như ProgLoss . Điều này dẫn đến các mô hình không chỉ dễ huấn luyện hơn mà còn nhanh hơn tới 43% trên CPU so với các thế hệ trước. Hơn nữa, YOLO26 hỗ trợ đầy đủ các tác vụ bao gồm phân đoạn , ước lượng tư thế và OBB , mang lại tính linh hoạt mà các mô hình tập trung vào phát hiện như RTDETRv2 không thể sánh kịp.
Đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính dễ triển khai, việc chuyển sang sử dụng YOLO26 được đánh giá rất cao.
Tóm tắt
Cả hai YOLOv10 và RTDETRv2 đã đẩy mạnh giới hạn của việc phát hiện đối tượng trong thời gian thực. YOLOv10 loại bỏ thành công NMS RTDETRv2 giải quyết được vấn đề tắc nghẽn, cung cấp kiến trúc CNN thuần túy cực kỳ nhanh và hiệu quả. RTDETRv2 chứng minh rằng các bộ chuyển đổi có thể cạnh tranh trong thời gian thực, vượt trội trong việc trích xuất các đặc trưng phức tạp. Tuy nhiên, đối với phần lớn các ứng dụng thực tế yêu cầu sự kết hợp giữa tốc độ, hiệu quả và công cụ thân thiện với nhà phát triển, hệ sinh thái Ultralytics — hỗ trợ YOLOv10 , YOLO11 và YOLO26 tiên tiến—vẫn là tiêu chuẩn của ngành.
Để so sánh chi tiết hơn, hãy xem phân tích của chúng tôi về YOLOv8 so với YOLOv10 hoặc tìm hiểu cách tối ưu hóa mô hình của bạn với hướng dẫn xuất dữ liệu của chúng tôi.