RTDETRv2 so với... YOLOv7 So sánh hiệu quả của thuật toán tiến hóa dựa trên Transformer với hiệu quả của mạng CNN.
Lĩnh vực phát hiện đối tượng đã chứng kiến sự phân hóa thú vị về triết lý kiến trúc. Một mặt, chúng ta có dòng mạng nơ-ron tích chập (CNN), tiêu biểu là YOLOv7 hiệu năng cao. Mặt khác, cuộc cách mạng Transformer đã khai sinh ra RTDETRv2 (Real-Time Detection Transformer), một mô hình nhằm mục đích đưa khả năng xử lý ngữ cảnh toàn cục của Vision Transformer (ViT) lên tốc độ thời gian thực.
Hướng dẫn này cung cấp phân tích kỹ thuật chi tiết về hai kiến trúc này, xem xét sự đánh đổi giữa chúng về tốc độ, độ chính xác và độ phức tạp khi triển khai. Mặc dù cả hai đều đại diện cho hiệu năng tiên tiến nhất tại thời điểm ra mắt, nhưng quá trình phát triển hiện đại thường ưu tiên hệ sinh thái thống nhất và hiệu năng tối ưu hóa cho điện toán biên của Ultralytics YOLO26 , vốn tích hợp sẵn những tính năng tốt nhất của cả hai, chẳng hạn như khả năng giám sát từ đầu đến cuối. NMS - suy luận tự do.
So sánh cấp quản lý
Bảng sau đây so sánh các chỉ số hiệu suất chính thức của RTDETRv2 và YOLOv7 trên tập dữ liệu COCO .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: Đối thủ Transformer
RTDETRv2 (Real-Time Detection Transformer phiên bản 2) là sự phát triển của phiên bản gốc. RT-DETR Được phát triển bởi các nhà nghiên cứu tại Baidu , công nghệ này giải quyết chi phí tính toán cao thường gặp ở Vision Transformers bằng cách giới thiệu một bộ mã hóa lai hiệu quả và đơn giản hóa quy trình lựa chọn truy vấn.
Các chi tiết kỹ thuật chính:
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 17/04/2023 (bối cảnh phát hành phiên bản v1)
- Liên kết:Bài báo ArXiv | Kho lưu trữ GitHub
RTDETRv2 nổi bật nhờ loại bỏ nhu cầu sử dụng thuật toán loại bỏ cực đại không tương thích (Non-Maximum Suppression - NMS ) . Không giống như các mạng CNN tạo ra hàng ngàn hộp giới hạn dư thừa cần lọc xử lý hậu kỳ, RTDETRv2 dự đoán trực tiếp một tập hợp các truy vấn đối tượng cố định. Khả năng xử lý từ đầu đến cuối này giúp giảm sự biến đổi độ trễ, khiến nó trở nên hấp dẫn đối với các ứng dụng mà thời gian suy luận nhất quán là rất quan trọng.
Tuy nhiên, việc dựa vào cơ chế chú ý có nghĩa là RTDETRv2 có thể tiêu tốn nhiều bộ nhớ hơn trong quá trình huấn luyện so với các mạng CNN thuần túy. Nó vượt trội trong việc nắm bắt ngữ cảnh toàn cục—hiểu được mối quan hệ giữa các phần xa nhau của một hình ảnh—điều này giúp ích trong các cảnh phức tạp với nhiều vật thể bị che khuất.
YOLOv7 Đỉnh cao hiệu quả của CNN
Ra mắt vào giữa năm 2022, YOLOv7 đã đẩy giới hạn của những gì mà các kiến trúc tích chập thuần túy có thể đạt được. Nó được thiết kế với trọng tâm là "túi quà tặng có thể huấn luyện" - các phương pháp tối ưu hóa giúp cải thiện độ chính xác trong quá trình huấn luyện mà không làm tăng chi phí suy luận .
Các chi tiết kỹ thuật chính:
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc
- Ngày: 2022-07-06
- Liên kết:Bài báo ArXiv | Kho lưu trữ GitHub
Sự đổi mới cốt lõi của YOLOv7 Đó là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . Kiến trúc này cho phép mạng học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát độ dài đường dẫn gradient một cách hiệu quả. Đồng thời, nó mang lại tốc độ ấn tượng trên... GPU phần cứng, YOLOv7 Đây là một bộ dò dựa trên neo. Điều này có nghĩa là nó yêu cầu điều chỉnh cẩn thận các siêu tham số của hộp neo để phù hợp với tỷ lệ đối tượng cụ thể trong tập dữ liệu tùy chỉnh, một bước thường được tự động hóa hoặc loại bỏ trong các mô hình mới hơn như YOLO11 .
Tìm hiểu sâu về kiến trúc
Cơ chế chú ý so với cơ chế tích chập
Sự khác biệt cơ bản nằm ở cách các mô hình này xử lý dữ liệu hình ảnh. YOLOv7 Nó sử dụng phép tích chập, quét hình ảnh trong các cửa sổ cục bộ. Điều này làm cho nó cực kỳ nhanh và hiệu quả trong việc phát hiện các đặc điểm cục bộ như cạnh và kết cấu, nhưng có thể yếu hơn trong việc hiểu các mối quan hệ ngữ nghĩa toàn cục của cảnh.
RTDETRv2 sử dụng cơ chế tự chú ý. Nó tính toán mức độ liên quan của mỗi pixel với mọi pixel khác (hoặc trong các điểm chú ý biến dạng cụ thể). Điều này cho phép mô hình "chú ý" đến các đặc điểm liên quan bất kể khoảng cách không gian của chúng, mang lại hiệu suất vượt trội trong các cảnh đông đúc nơi các đối tượng chồng chéo đáng kể.
Xử lý hậu kỳ và NMS
YOLOv7 Giống như các phiên bản tiền nhiệm YOLOv5 và YOLOv6 , nó đưa ra các dự đoán dày đặc cần được lọc bằng cách sử dụng NMS Bước này là một quy trình dựa trên kinh nghiệm, có thể trở thành nút thắt cổ chai trong các tình huống có mật độ người dùng cao và đưa ra các siêu tham số ( IoU ngưỡng) ảnh hưởng đến độ chính xác và độ thu hồi.
RTDETRv2 không cần NMS . Nó sử dụng phương pháp khớp hai phía trong quá trình huấn luyện để gán chính xác một đối tượng ground truth cho đúng một dự đoán. Điều này đơn giản hóa quy trình triển khai, vì không cần phải triển khai... NMS logic trong ONNX hoặc TensorRT plugin.
Sự kết hợp hoàn hảo giữa hai thế giới
Trong khi RTDETRv2 tiên phong NMS - Phát hiện lỗi miễn phí cho các bộ chuyển đổi thời gian thực, Ultralytics YOLO26 đã áp dụng thành công khái niệm này cho mạng nơ-ron tích chập (CNN). YOLO26 sử dụng thiết kế đầu cuối nguyên bản giúp loại bỏ... NMS đồng thời vẫn duy trì được dung lượng bộ nhớ thấp và hiệu quả huấn luyện cao của mạng CNN.
Lợi Thế của Ultralytics: Tại Sao Nên Nâng Cấp lên YOLO26?
Mặc dù việc phân tích các mô hình cũ cung cấp bối cảnh có giá trị, việc bắt đầu một dự án mới với Ultralytics YOLO26 mang lại những lợi thế đáng kể về hiệu suất, khả năng sử dụng và khả năng đáp ứng nhu cầu trong tương lai. YOLO26 đại diện cho công nghệ tiên tiến nhất hiện nay, được tinh chỉnh từ những bài học kinh nghiệm của cả hai thế hệ trước. YOLOv7 và RTDETR.
1. Hoàn toàn End-to-End (Không NMS)
Giống như RTDETRv2, YOLO26 được thiết kế để không cần NMS , sử dụng một đầu One-to-Many cho huấn luyện và một đầu One-to-One cho suy luận. Điều này loại bỏ chi phí xử lý hậu kỳ thường thấy trong các mô hình khác. YOLOv7 , giúp triển khai nhanh hơn và đơn giản hơn trên các thiết bị biên như NVIDIA Jetson hoặc Raspberry Pi.
2. Cao cấp CPU Hiệu suất
Các bộ biến đổi như RTDETRv2 thường sử dụng nhiều phép toán phức tạp, đòi hỏi... GPU tăng tốc. YOLO26 bao gồm các tối ưu hóa cụ thể cho việc tăng tốc. CPU suy luận, đạt được tốc độ nhanh hơn tới 43% trên các thiết bị không phải... GPU So với các phiên bản trước, phần cứng của nó được nâng cấp đáng kể. Điều này giúp nó trở nên linh hoạt hơn nhiều đối với các ứng dụng di động hoặc cảm biến IoT công suất thấp.
3. Tính ổn định huấn luyện nâng cao
YOLO26 giới thiệu MuSGD Optimizer , một công cụ lai ghép của... SGD và bộ tối ưu hóa Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI). Điều này mang lại những cải tiến về tính ổn định từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào thị giác máy tính, đảm bảo các mô hình hội tụ nhanh hơn và với độ chính xác cao hơn so với tiêu chuẩn thông thường. SGD được sử dụng trong YOLOv7 .
4. Các hàm mất mát chuyên biệt
Với ProgLoss và STAL , YOLO26 cung cấp khả năng cải tiến trong nhận dạng vật thể nhỏ — một điểm yếu truyền thống của cả mạng CNN tiêu chuẩn và một số kiến trúc transformer. Điều này rất quan trọng đối với các tác vụ như phân tích ảnh chụp từ trên không hoặc kiểm soát chất lượng trong sản xuất.
5. Thống nhất Ultralytics Nền tảng
Phát triển cùng YOLOv7 Việc sử dụng RTDETRv2 thường liên quan đến việc quản lý các kho lưu trữ khác nhau và các tập lệnh cài đặt phức tạp. Nền tảng Ultralytics hợp nhất quy trình làm việc. Bạn có thể huấn luyện, xác thực và triển khai các mô hình để phát hiện, phân đoạn , phân loại , ước tính tư thế và OBB bằng một API đơn giản duy nhất.
from ultralytics import YOLO
# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")
# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Đề xuất Trường hợp Sử dụng
- Chọn RTDETRv2 nếu: Bạn có quyền truy cập vào các GPU mạnh mẽ (như...). NVIDIA (T4 hoặc A100) và ứng dụng của bạn liên quan đến các cảnh có mật độ người dùng cao, nơi hiện tượng che khuất là điểm yếu chính của mạng CNN. Cơ chế chú ý ngữ cảnh toàn cục có thể mang lại lợi thế nhỏ trong những trường hợp cụ thể này.
- Hãy chọn YOLOv7 nếu: Bạn đang bảo trì các hệ thống cũ phụ thuộc cụ thể vào phiên bản cũ hơn. YOLO định dạng tệp hoặc nếu bạn cần một phương pháp CNN thuần túy nhưng không thể nâng cấp lên phiên bản mới hơn. Python môi trường được hỗ trợ bởi Ultralytics .
- Chọn Ultralytics YOLO26 nếu: Bạn cần sự cân bằng tốt nhất giữa tốc độ và độ chính xác trên tất cả các loại phần cứng ( CPU , GPU (NPU). Việc loại bỏ DFL giúp việc xuất sang CoreML hoặc dễ dàng hơn. TFLite Và hiệu quả bộ nhớ của nó cho phép huấn luyện trên các GPU cấp độ người tiêu dùng. Cho dù bạn đang xây dựng hệ thống báo động an ninh hay hệ thống quản lý bãi đậu xe thông minh , tài liệu hướng dẫn chi tiết và sự hỗ trợ tích cực từ cộng đồng khiến nó trở thành lựa chọn ít rủi ro nhất cho việc triển khai trong doanh nghiệp.
Kết luận
Cả RTDETRv2 và YOLOv7 đã đóng góp đáng kể vào sự phát triển của thị giác máy tính. RTDETRv2 đã chứng minh rằng các bộ chuyển đổi có thể hoạt động nhanh, trong khi YOLOv7 Điều này đã chứng minh sức mạnh bền bỉ của các mạng CNN được tối ưu hóa tốt. Tuy nhiên, lĩnh vực này phát triển rất nhanh.
Đối với các nhà phát triển và nhà nghiên cứu hiện nay, Ultralytics YOLO26 hội tụ "những ưu điểm tốt nhất của cả hai" bằng cách tích hợp... NMS - Sự tiện lợi không tốn phí của các mô hình Transformer kết hợp với tốc độ và hiệu quả vượt trội của mạng CNN. Được hỗ trợ bởi một hệ sinh thái mạnh mẽ giúp đơn giản hóa mọi thứ, từ chú thích dữ liệu đến xuất mô hình , nó vẫn là điểm khởi đầu được khuyến nghị cho các dự án AI hiện đại.