YOLOv8 So sánh kỹ thuật chuyên sâu với RTDETRv2
Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến trúc mới liên tục mở rộng giới hạn của những gì có thể thực hiện được trong phát hiện đối tượng thời gian thực. Hai mô hình nổi bật đã thu hút được sự chú ý đáng kể là Ultralytics YOLOv8 và RTDETRv2 của Baidu. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình mạnh mẽ này, khám phá kiến trúc, các chỉ số hiệu năng và các kịch bản triển khai lý tưởng của chúng.
Tổng quan về YOLOv8
Ultralytics YOLOv8 đây là một cột mốc quan trọng trong YOLO Dòng sản phẩm (You Only Look Once) được xây dựng dựa trên nhiều năm nghiên cứu nền tảng, mang đến tốc độ, độ chính xác và tính dễ sử dụng vượt trội cho nhiều tác vụ khác nhau.
Các đặc điểm chính:
- Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 10 tháng 1 năm 2023
- GitHub: Kho lưu trữ Ultralytics
- Tài liệu: Tài liệu hướng dẫn sử dụng YOLOv8
Kiến trúc và Điểm mạnh
YOLOv8 Giới thiệu một kiến trúc được tinh giản giúp tối ưu hóa cả việc trích xuất đặc trưng và hồi quy hộp giới hạn. Đây là một bộ dò không cần neo, giúp đơn giản hóa phần dự đoán và giảm số lượng điều chỉnh siêu tham số cần thiết trong quá trình huấn luyện. Kiến trúc này đảm bảo sự cân bằng hiệu suất tuyệt vời giữa tốc độ suy luận và độ chính xác trung bình (APR). mAP ), điều này khiến nó rất phù hợp cho việc triển khai thực tế trên cả thiết bị biên và máy chủ đám mây.
Hơn nữa, YOLOv8 Kiến trúc này yêu cầu dung lượng bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc dựa trên Transformer. Điều này cho phép các nhà phát triển huấn luyện mô hình trên các GPU tiêu chuẩn dành cho người dùng phổ thông mà không gặp phải lỗi thiếu bộ nhớ.
Tính linh hoạt
Một trong những điểm mạnh nổi bật của YOLOv8 Đó là tính linh hoạt vốn có của nó. Trong khi nhiều mô hình chỉ tập trung vào các hộp giới hạn, YOLOv8 Cung cấp hỗ trợ sẵn có cho việc phát hiện đối tượng , phân đoạn thể hiện , phân loại hình ảnh , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) .
Tổng quan về RTDETRv2
RTDETRv2 (Real-Time Detection Transformer phiên bản 2) được xây dựng dựa trên phiên bản gốc. RT-DETR Nhằm mục đích đưa các cơ chế chú ý mạnh mẽ của Vision Transformers vào các ứng dụng phát hiện đối tượng trong thời gian thực.
Các đặc điểm chính:
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24/07/2024
- Arxiv: 2407.17140
- GitHub: Kho lưu trữ RT-DETR
- Tài liệu: RTDETRv2 README
Kiến trúc và Điểm mạnh
RTDETRv2 tận dụng kiến trúc lai kết hợp mạng nơ-ron tích chập (CNN) với cấu trúc mã hóa-giải mã Transformer. Điều này cho phép mô hình nắm bắt các mối quan hệ không gian phức tạp và ngữ cảnh toàn cục thông qua cơ chế tự chú ý. Bằng cách sử dụng một tập hợp các chiến lược huấn luyện "túi quà tặng miễn phí", RTDETRv2 đạt được hiệu suất cạnh tranh. mAP điểm số trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO .
Điểm yếu
Mặc dù có độ chính xác cao, bản chất dựa trên Transformer của RTDETRv2 dẫn đến mức tiêu thụ bộ nhớ cao hơn và thời gian huấn luyện chậm hơn so với các kiến trúc CNN thuần túy. Transformer vốn dĩ yêu cầu nhiều VRAM hơn, khiến việc huấn luyện trên phần cứng có tài nguyên hạn chế trở nên khó khăn. Ngoài ra, mặc dù RTDETRv2 mạnh về khả năng phát hiện, nó lại thiếu tính linh hoạt đa nhiệm (như nhận diện tư thế và phân đoạn) vốn có của các kiến trúc khác. Ultralytics hệ sinh thái.
So sánh hiệu suất
Khi đánh giá các mô hình để đưa vào sản xuất, sự cân bằng giữa kích thước mô hình, tốc độ suy luận và độ chính xác là vô cùng quan trọng. Bảng dưới đây cung cấp sự so sánh trực tiếp giữa các yếu tố này. YOLOv8 và các biến thể RTDETRv2.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Phần cứng và số liệu
Tốc độ được đo bằng cách sử dụng máy ảo Amazon EC2 P4d . CPU quá trình suy luận tận dụng ONNX , trong khi GPU Tốc độ được kiểm tra bằng TensorRT .
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv8 Và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv8
YOLOv8 là một lựa chọn tốt cho:
- Triển khai đa nhiệm linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh để phát hiện , phân đoạn , phân loại và ước tính tư thế trong phạm vi... Ultralytics hệ sinh thái.
- Hệ thống sản xuất hiện có: Môi trường sản xuất hiện tại đã được xây dựng trên hệ thống này. YOLOv8 kiến trúc với các quy trình triển khai ổn định, đã được kiểm thử kỹ lưỡng.
- Hỗ trợ cộng đồng và hệ sinh thái rộng rãi: Các ứng dụng được hưởng lợi từ YOLOv8 Hệ thống này có các hướng dẫn chi tiết, tích hợp với bên thứ ba và nguồn lực cộng đồng năng động.
Khi nào nên lựa chọn RT-DETR
RT-DETR được khuyến nghị cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
- Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
- Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Lợi thế của Ultralytics
Việc lựa chọn mô hình không chỉ dựa vào các số liệu thô; hệ sinh thái phần mềm xung quanh đóng vai trò rất quan trọng đối với năng suất của nhà phát triển. Hệ sinh thái Ultralytics nổi tiếng về tính dễ sử dụng, cung cấp một nền tảng thống nhất. Python API giúp đơn giản hóa toàn bộ vòng đời của máy học.
Từ quản lý tập dữ liệu đến đào tạo phân tán, Ultralytics Nó giúp loại bỏ các đoạn mã lặp đi lặp lại phức tạp. Các nhà phát triển được hưởng lợi từ các trọng số đã được huấn luyện sẵn và khả năng tích hợp liền mạch với các nền tảng như Hugging Face và các công cụ giám sát. Hệ sinh thái được duy trì tốt này đảm bảo sự phát triển tích cực, cập nhật thường xuyên và hỗ trợ cộng đồng mạnh mẽ.
Hơn nữa, hiệu quả đào tạo là một đặc điểm nổi bật của... Ultralytics YOLO Các mô hình này được tối ưu hóa cao để hội tụ nhanh và giảm thiểu dung lượng bộ nhớ trong quá trình huấn luyện , giúp tăng tốc đáng kể các chu kỳ thử nghiệm so với các bộ dò dựa trên Transformer như RTDETRv2.
Nhìn về phía trước: Sức mạnh của YOLO26
Trong khi YOLOv8 YOLO vẫn là một công cụ mạnh mẽ, các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất nên cân nhắc nâng cấp lên YOLO26 được mong đợi từ lâu, dự kiến phát hành vào tháng 1 năm 2026. YOLO26 định nghĩa lại tiêu chuẩn công nghệ với một số cải tiến đột phá:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression) NMS xử lý hậu kỳ, giúp quy trình triển khai nhanh hơn và chính xác hơn.
- Loại bỏ DFL: Việc loại bỏ hiện tượng suy hao tiêu điểm phân bổ (Distribution Focal Loss - DFL) giúp đơn giản hóa mô hình, tăng cường khả năng tương thích với các thiết bị công suất thấp và thiết bị biên.
- Bộ tối ưu hóa MuSGD: Tích hợp những cải tiến trong huấn luyện LLM, bộ tối ưu hóa MuSGD đảm bảo các quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các môi trường không có GPU chuyên dụng.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng đối với ảnh chụp từ trên không và robot.
Một số lựa chọn hiện đại khác đáng để khám phá trong phạm vi này. Ultralytics Bộ phần mềm này bao gồm YOLO11 , cung cấp hiệu năng mạnh mẽ cho các dự án cũ, mặc dù YOLO26 được khuyến nghị cho tất cả các triển khai mới.
Ví dụ mã: Huấn luyện và Suy luận
Sự đơn giản của Ultralytics API cho phép bạn tải, huấn luyện và triển khai mô hình chỉ với vài dòng mã Python . Hãy đảm bảo bạn đã cài đặt PyTorch trước khi chạy ví dụ sau.
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
Sẵn sàng triển khai
Ultralytics Hỗ trợ xuất dữ liệu chỉ với một cú nhấp chuột sang nhiều định dạng khác nhau, bao gồm: ONNX , TensorRT , Và CoreML , đơn giản hóa các tùy chọn triển khai mô hình trên các kiến trúc phần cứng khác nhau.
Kết luận
Cả hai YOLOv8 RTDETRv2 cung cấp các khả năng vượt trội cho việc phát hiện đối tượng trong thời gian thực. RTDETRv2 thể hiện sức mạnh của bộ chuyển đổi trong việc nắm bắt ngữ cảnh toàn cục, khiến nó phù hợp với các tác vụ suy luận không gian phức tạp, nơi tốc độ suy luận và chi phí bộ nhớ không phải là những hạn chế chính.
Tuy nhiên, đối với các nhà phát triển ưu tiên sự cân bằng tối ưu giữa tốc độ, độ chính xác và hiệu quả sử dụng tài nguyên, Ultralytics YOLO Các mẫu xe vẫn là sự lựa chọn ưu việt hơn. Tính chất nhẹ của... YOLOv8 Sự kết hợp giữa tính dễ sử dụng vượt trội, tính linh hoạt trong nhiều tác vụ xử lý hình ảnh và hệ sinh thái mã nguồn mở phát triển mạnh mẽ, khiến nó trở thành giải pháp hàng đầu cho các môi trường sản xuất có khả năng mở rộng. Đối với những ai tìm kiếm hiệu năng biên tối ưu tuyệt đối, YOLO26 mới ra mắt mang đến khả năng vượt trội không gì sánh kịp. NMS - Hiệu quả vượt trội, tiếp tục dẫn đầu ngành.