Chuyển đến nội dung

YOLOv8 So sánh kỹ thuật chuyên sâu với RTDETRv2

Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến ​​trúc mới liên tục mở rộng giới hạn của những gì có thể thực hiện được trong phát hiện đối tượng thời gian thực. Hai mô hình nổi bật đã thu hút được sự chú ý đáng kể là Ultralytics YOLOv8 và RTDETRv2 của Baidu. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình mạnh mẽ này, khám phá kiến ​​trúc, các chỉ số hiệu năng và các kịch bản triển khai lý tưởng của chúng.

Tổng quan về YOLOv8

Ultralytics YOLOv8 đây là một cột mốc quan trọng trong YOLO Dòng sản phẩm (You Only Look Once) được xây dựng dựa trên nhiều năm nghiên cứu nền tảng, mang đến tốc độ, độ chính xác và tính dễ sử dụng vượt trội cho nhiều tác vụ khác nhau.

Các đặc điểm chính:

Kiến trúc và Điểm mạnh

YOLOv8 Giới thiệu một kiến ​​trúc được tinh giản giúp tối ưu hóa cả việc trích xuất đặc trưng và hồi quy hộp giới hạn. Đây là một bộ dò không cần neo, giúp đơn giản hóa phần dự đoán và giảm số lượng điều chỉnh siêu tham số cần thiết trong quá trình huấn luyện. Kiến trúc này đảm bảo sự cân bằng hiệu suất tuyệt vời giữa tốc độ suy luận và độ chính xác trung bình (APR). mAP ), điều này khiến nó rất phù hợp cho việc triển khai thực tế trên cả thiết bị biên và máy chủ đám mây.

Hơn nữa, YOLOv8 Kiến trúc này yêu cầu dung lượng bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến ​​trúc dựa trên Transformer. Điều này cho phép các nhà phát triển huấn luyện mô hình trên các GPU tiêu chuẩn dành cho người dùng phổ thông mà không gặp phải lỗi thiếu bộ nhớ.

Tính linh hoạt

Một trong những điểm mạnh nổi bật của YOLOv8 Đó là tính linh hoạt vốn có của nó. Trong khi nhiều mô hình chỉ tập trung vào các hộp giới hạn, YOLOv8 Cung cấp hỗ trợ sẵn có cho việc phát hiện đối tượng , phân đoạn thể hiện , phân loại hình ảnh , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) .

Tìm hiểu thêm về YOLOv8

Tổng quan về RTDETRv2

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) được xây dựng dựa trên phiên bản gốc. RT-DETR Nhằm mục đích đưa các cơ chế chú ý mạnh mẽ của Vision Transformers vào các ứng dụng phát hiện đối tượng trong thời gian thực.

Các đặc điểm chính:

Kiến trúc và Điểm mạnh

RTDETRv2 tận dụng kiến ​​trúc lai kết hợp mạng nơ-ron tích chập (CNN) với cấu trúc mã hóa-giải mã Transformer. Điều này cho phép mô hình nắm bắt các mối quan hệ không gian phức tạp và ngữ cảnh toàn cục thông qua cơ chế tự chú ý. Bằng cách sử dụng một tập hợp các chiến lược huấn luyện "túi quà tặng miễn phí", RTDETRv2 đạt được hiệu suất cạnh tranh. mAP điểm số trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO .

Điểm yếu

Mặc dù có độ chính xác cao, bản chất dựa trên transformer của RTDETRv2 dẫn đến tiêu thụ bộ nhớ cao hơn và thời gian huấn luyện chậm hơn so với các kiến trúc CNN thuần túy. Các transformer vốn dĩ yêu cầu nhiều VRAM hơn, khiến việc huấn luyện chúng trên phần cứng có tài nguyên hạn chế trở nên khó khăn. Ngoài ra, mặc dù RTDETRv2 mạnh về detect, nhưng nó thiếu tính linh hoạt đa tác vụ (như ước tính tư thế và segmentation) vốn có trong hệ sinh thái Ultralytics.

Tìm hiểu thêm về RTDETRv2

So sánh hiệu suất

Khi đánh giá các mô hình để đưa vào sản xuất, sự cân bằng giữa kích thước mô hình, tốc độ suy luận và độ chính xác là vô cùng quan trọng. Bảng dưới đây cung cấp sự so sánh trực tiếp giữa các yếu tố này. YOLOv8 và các biến thể RTDETRv2.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Phần cứng và số liệu

Tốc độ được đo bằng cách sử dụng máy ảo Amazon EC2 P4d . CPU quá trình suy luận tận dụng ONNX , trong khi GPU Tốc độ được kiểm tra bằng TensorRT .

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv8 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv8

YOLOv8 là một lựa chọn tốt cho:

  • Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho detection, segmentation, classificationước tính tư thế trong hệ sinh thái Ultralytics.
  • Hệ thống sản xuất đã được thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử kỹ lưỡng.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng hưởng lợi từ các hướng dẫn mở rộng của YOLOv8, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics

Việc lựa chọn một mô hình không chỉ dừng lại ở các số liệu thô; hệ sinh thái phần mềm xung quanh là yếu tố then chốt cho năng suất của nhà phát triển. Hệ sinh thái Ultralytics nổi tiếng về tính dễ sử dụng, cung cấp một API Python thống nhất giúp đơn giản hóa toàn bộ vòng đời học máy.

Từ quản lý tập dữ liệu đến đào tạo phân tán, Ultralytics Nó giúp loại bỏ các đoạn mã lặp đi lặp lại phức tạp. Các nhà phát triển được hưởng lợi từ các trọng số đã được huấn luyện sẵn và khả năng tích hợp liền mạch với các nền tảng như Hugging Face và các công cụ giám sát. Hệ sinh thái được duy trì tốt này đảm bảo sự phát triển tích cực, cập nhật thường xuyên và hỗ trợ cộng đồng mạnh mẽ.

Hơn nữa, hiệu quả đào tạo là một đặc điểm nổi bật của... Ultralytics YOLO Các mô hình này được tối ưu hóa cao để hội tụ nhanh và giảm thiểu dung lượng bộ nhớ trong quá trình huấn luyện , giúp tăng tốc đáng kể các chu kỳ thử nghiệm so với các bộ dò dựa trên Transformer như RTDETRv2.

Nhìn về phía trước: Sức mạnh của YOLO26

Trong khi YOLOv8 YOLO vẫn là một công cụ mạnh mẽ, các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất nên cân nhắc nâng cấp lên YOLO26 được mong đợi từ lâu, dự kiến ​​phát hành vào tháng 1 năm 2026. YOLO26 định nghĩa lại tiêu chuẩn công nghệ với một số cải tiến đột phá:

  • Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 loại bỏ hậu xử lý Non-Maximum Suppression (NMS), mang lại quy trình triển khai nhanh hơn và có tính xác định cao hơn.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss tinh giản mô hình để tăng cường khả năng tương thích với thiết bị biên và thiết bị công suất thấp.
  • Trình tối ưu hóa MuSGD: Tích hợp những đổi mới trong huấn luyện LLM, trình tối ưu hóa MuSGD đảm bảo các lần chạy huấn luyện ổn định hơn và hội tụ nhanh hơn.
  • Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các môi trường thiếu GPU chuyên dụng.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, điều này rất quan trọng đối với hình ảnh từ trên không và robot học.

Một số lựa chọn hiện đại khác đáng để khám phá trong phạm vi này. Ultralytics Bộ phần mềm này bao gồm YOLO11 , cung cấp hiệu năng mạnh mẽ cho các dự án cũ, mặc dù YOLO26 được khuyến nghị cho tất cả các triển khai mới.

Ví dụ mã: Huấn luyện và Suy luận

Sự đơn giản của Ultralytics API cho phép bạn tải, huấn luyện và triển khai mô hình chỉ với vài dòng mã Python . Hãy đảm bảo bạn đã cài đặt PyTorch trước khi chạy ví dụ sau.

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export seamlessly for edge deployment
export_path = model.export(format="onnx")

Sẵn sàng Triển khai

Ultralytics Hỗ trợ xuất dữ liệu chỉ với một cú nhấp chuột sang nhiều định dạng khác nhau, bao gồm: ONNX , TensorRT , Và CoreML , đơn giản hóa các tùy chọn triển khai mô hình trên các kiến ​​trúc phần cứng khác nhau.

Kết luận

Cả YOLOv8 và RTDETRv2 đều cung cấp các khả năng hấp dẫn cho detect đối tượng thời gian thực. RTDETRv2 thể hiện sức mạnh của các transformer trong việc nắm bắt ngữ cảnh toàn cục, làm cho nó phù hợp cho các tác vụ suy luận không gian phức tạp mà tốc độ suy luận và chi phí bộ nhớ không phải là những hạn chế chính.

Tuy nhiên, đối với các nhà phát triển ưu tiên sự cân bằng tối ưu giữa tốc độ, độ chính xác và hiệu quả sử dụng tài nguyên, Ultralytics YOLO Các mẫu xe vẫn là sự lựa chọn ưu việt hơn. Tính chất nhẹ của... YOLOv8 Sự kết hợp giữa tính dễ sử dụng vượt trội, tính linh hoạt trong nhiều tác vụ xử lý hình ảnh và hệ sinh thái mã nguồn mở phát triển mạnh mẽ, khiến nó trở thành giải pháp hàng đầu cho các môi trường sản xuất có khả năng mở rộng. Đối với những ai tìm kiếm hiệu năng biên tối ưu tuyệt đối, YOLO26 mới ra mắt mang đến khả năng vượt trội không gì sánh kịp. NMS - Hiệu quả vượt trội, tiếp tục dẫn đầu ngành.


Bình luận