RTDETRv2 so với YOLOv6 -3.0: Độ chính xác của máy biến áp đáp ứng tốc độ công nghiệp
Để thành công trong lĩnh vực phát hiện đối tượng hiện đại, cần phải cân bằng giữa tốc độ xử lý nhanh và khả năng hiểu bối cảnh phức tạp. Bài so sánh kỹ thuật này sẽ phân tích hai kiến trúc có ảnh hưởng: RTDETRv2 , một sự phát triển tinh vi của Real-Time Detection Transformer, và YOLOv6 , một hệ thống mạnh mẽ dựa trên mạng nơ-ron tích chập (CNN) được tối ưu hóa cho hiệu suất công nghiệp.
Tóm tắt điều hành
Trong khi RTDETRv2 tận dụng khả năng xử lý ngữ cảnh toàn cầu của bộ chuyển đổi hình ảnh để hoạt động xuất sắc trong môi trường phức tạp, nhiều chi tiết mà không cần loại bỏ các điểm không tối đa (Non-Maximum Suppression) NMS ), YOLOv6 -3.0 tập trung tối đa hóa số khung hình mỗi giây (FPS) trên các thiết bị chuyên dụng. GPU phần cứng thông qua việc lượng tử hóa mạnh mẽ và tinh chỉnh kiến trúc.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
RTDETRv2: Sự tiến hóa của Transformer
RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho một bước tiến đáng kể trong việc hiện thực hóa khả năng phát hiện dựa trên transformer cho các ứng dụng thời gian thực. Dựa trên thành công của RT-DETR ban đầu, phiên bản này giới thiệu một phương pháp dựa trên lưới linh hoạt để xử lý các đầu vào động và cải thiện đáng kể tốc độ hội tụ.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức:Baidu
- Ngày: 17 tháng 4 năm 2023 (phiên bản 1), tháng 7 năm 2024 (bản cập nhật v2)
- Liên kết:Arxiv | GitHub
Kiến trúc và Đổi mới
Điểm mạnh cốt lõi của RTDETRv2 nằm ở bộ mã hóa lai và khả năng lựa chọn truy vấn giảm thiểu sự không chắc chắn . Không giống như các mạng CNN truyền thống gặp khó khăn với các phụ thuộc tầm xa, kiến trúc Transformer cho phép mô hình "chú ý" đến các phần xa của hình ảnh cùng một lúc.
- Cơ chế neo lưới ô vuông: Không giống như các truy vấn đối tượng đã học của DETR tiêu chuẩn, RTDETRv2 khởi tạo các truy vấn bằng cách sử dụng các ô vuông lưới, giúp cho cảnh quan tối ưu hóa mượt mà hơn và hội tụ nhanh hơn.
- Gói quà tặng: Bản cập nhật v2 tích hợp nhiều cải tiến trong quá trình huấn luyện, bao gồm các chiến lược tăng cường dữ liệu được cải thiện và các hàm mất mát được tối ưu hóa, giúp nâng cao độ chính xác của mô hình Small lên 48,1%. mAP .
- Suy luận không cần NMS : Theo thiết kế, các mô hình Transformer dự đoán trực tiếp một tập hợp các đối tượng duy nhất. Điều này loại bỏ nhu cầu về Non-Maximum Suppression ( NMS ) , một bước xử lý hậu kỳ thường gây ra sự biến đổi độ trễ và những khó khăn trong việc điều chỉnh siêu tham số trong các mô hình dựa trên CNN.
Ưu điểm của máy biến áp
Các mô hình Transformer như RTDETRv2 hoạt động xuất sắc trong các cảnh đông đúc, nơi các đối tượng chồng chéo đáng kể. Bởi vì chúng xử lý toàn bộ ngữ cảnh hình ảnh một cách tổng thể chứ không phải cục bộ, chúng ít bị ảnh hưởng bởi các vấn đề che khuất thường gây nhầm lẫn cho các bộ phát hiện dựa trên phép tích chập.
YOLOv6 -3.0: Chuyên gia công nghiệp
YOLOv6 -3.0 , thường được gọi là " YOLOv6 Phiên bản 3.0: "Tải lại quy mô lớn" được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi phần cứng được tiêu chuẩn hóa và thông lượng là yếu tố quan trọng hàng đầu. Được phát triển bởi nhóm chuyên gia về thị giác máy tính tại Meituan, phần mềm này ưu tiên hiệu năng trên... NVIDIA GPU Tesla T4 sử dụng TensorRT .
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, et al.
- Tổ chức:Meituan
- Ngày: 13 tháng 1, 2023
- Liên kết:Arxiv | GitHub
Kiến trúc kỹ thuật
YOLOv6 - Phiên bản 3.0 sử dụng kiến trúc hoàn toàn dựa trên mạng nơ-ron tích chập (CNN) nhằm tinh chỉnh khái niệm "EfficientRep" cốt lõi.
- RepBi-PAN: Một mạng tổng hợp đường dẫn hai chiều (Bi-directional Path Aggregation Network - Bi-PAN) được nâng cấp với các khối kiểu RepVGG. Cấu trúc này cho phép mô hình có các nhánh phức tạp trong quá trình huấn luyện nhưng lại hợp nhất thành một chồng các phép tích chập 3x3 đơn giản và nhanh chóng trong quá trình suy luận.
- Huấn luyện có hỗ trợ neo (Anchor-Aided Training - AAT): Một chiến lược lai ghép nhằm ổn định quá trình huấn luyện bằng cách đưa các gợi ý dựa trên neo trở lại khung huấn luyện không có neo, giúp tăng nhẹ tốc độ hội tụ và độ chính xác cuối cùng.
- Nhận biết lượng tử hóa: Kiến trúc này được thiết kế đặc biệt để thân thiện với lượng tử hóa , cho phép giảm thiểu tối đa tổn thất độ chính xác khi chuyển đổi sang độ chính xác INT8 để tăng tốc đáng kể trên các GPU biên.
Những điểm khác biệt quan trọng và các trường hợp sử dụng
1. Bối cảnh toàn cầu so với đặc điểm địa phương
RTDETRv2 nổi bật trong việc hiểu các cảnh phức tạp . Nếu ứng dụng của bạn liên quan đến việc xác định mối quan hệ giữa các đối tượng ở xa hoặc xử lý các trường hợp che khuất nghiêm trọng (ví dụ: đếm người trong một sân vận động đông đúc), cơ chế tự chú ý của bộ chuyển đổi sẽ mang lại lợi thế rõ rệt. YOLOv6 -3.0, dựa trên phép tích chập, rất hiệu quả trong việc phát hiện các đặc điểm cục bộ nhưng có thể gặp khó khăn hơn một chút khi xử lý sự chồng chéo lớn so với các phương pháp khác. NMS -Máy biến áp miễn phí.
2. Sự phụ thuộc vào phần cứng
YOLOv6 -3.0 là một thiết kế "nhận biết phần cứng". Tốc độ khung hình ấn tượng của nó đạt được tốt nhất trên các cấu hình cụ thể. NVIDIA phần cứng (như T4) sử dụng TensorRT Trên các CPU đa năng hoặc NPU di động, lợi thế về hiệu năng của nó có thể giảm đi so với các mô hình được tối ưu hóa cho các nền tảng đó, như YOLOv10 hoặc YOLO11 . RTDETRv2, mặc dù nặng hơn về mặt tính toán do cơ chế chú ý, nhưng lại mang đến hành vi nhất quán trên các nền tảng nhờ cấu trúc đơn giản hơn của nó. NMS - Đường dẫn miễn phí.
3. Huấn luyện và triển khai
RTDETRv2 đơn giản hóa quy trình triển khai bằng cách loại bỏ... NMS bước này có nghĩa là đầu ra của mô hình là kết quả cuối cùng — không cần ngưỡng hoặc sắp xếp nào trong mã xử lý hậu kỳ. YOLOv6 -3.0 yêu cầu tiêu chuẩn NMS Điều này có thể trở thành điểm nghẽn trong các tình huống yêu cầu FPS cao nếu không được tối ưu hóa cao trong C++ hoặc CUDA .
Lợi thế của Ultralytics
Trong khi RTDETRv2 và YOLOv6 - Phiên bản 3.0 cung cấp các tính năng hấp dẫn cho các phân khúc cụ thể, nhưng việc tích hợp chúng vào quy trình sản xuất có thể gặp khó khăn do mã nguồn và thiết kế API khác nhau. Hệ sinh thái Ultralytics hợp nhất các kiến trúc mạnh mẽ này dưới một nền tảng duy nhất, được sắp xếp hợp lý. Python API.
Tại sao chọn Ultralytics?
- Dễ sử dụng: Chuyển đổi giữa các kiến trúc mô hình chỉ bằng cách thay đổi một chuỗi ký tự. Huấn luyện một RT-DETR mô hình với lệnh huấn luyện chính xác giống như bạn sử dụng cho YOLO .
- Yêu cầu bộ nhớ: Ultralytics Các tối ưu hóa giúp giảm đáng kể lượng VRAM tiêu hao trong quá trình huấn luyện. Điều này đặc biệt quan trọng đối với các mô hình transformer như... RT-DETR và do đó tiêu tốn nhiều bộ nhớ hơn so với mạng nơ-ron tích chập (CNN).
- Tính linh hoạt: Cái Ultralytics Khung công nghệ này mở rộng phạm vi hoạt động vượt ra ngoài việc phát hiện đối tượng. Bạn có thể dễ dàng tận dụng các mô hình ước lượng tư thế , phân đoạn đối tượng và OBB trong cùng một môi trường.
- Hệ sinh thái được duy trì tốt: Hưởng lợi từ sự hỗ trợ tích cực của cộng đồng, các bản cập nhật thường xuyên và khả năng tích hợp liền mạch với các công cụ như MLflow và TensorBoard .
Ví dụ mã
Việc thử nghiệm các mô hình này trở nên dễ dàng hơn với Ultralytics Python SDK. Gói này tự động xử lý dữ liệu và tải mô hình.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")
# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")
Tiến về phía trước: YOLO26
Đối với các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và các tính năng kiến trúc hiện đại, Ultralytics YOLO26 đại diện cho công nghệ tiên tiến nhất. Được phát hành vào tháng 1 năm 2026, nó tổng hợp những khía cạnh tốt nhất của cả thế giới Transformer và CNN.
YOLO26 giới thiệu thiết kế hoàn toàn không sử dụng NMS từ đầu đến cuối , phản ánh sự đơn giản của RTDETRv2 nhưng với hiệu quả nhẹ nhàng của mạng CNN. Được hỗ trợ bởi bộ tối ưu hóa MuSGD mới —một sự kết hợp lấy cảm hứng từ sự ổn định huấn luyện của LLM—và tích hợp ProgLoss + STAL để phát hiện đối tượng nhỏ vượt trội, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước.
Cho dù bạn ưu tiên độ chính xác toàn cầu của máy biến áp hay hiệu suất thô của mạng nơ-ron tích chập công nghiệp, thì Ultralytics Nền tảng này cho phép bạn triển khai công cụ phù hợp cho công việc với mức độ khó khăn tối thiểu.