Link to this sectionYOLOv8 so với RTDETRv2#

Bối cảnh thị giác máy tính đang không ngừng phát triển, với các kiến trúc mới liên tục vượt qua những giới hạn trong phát hiện đối tượng thời gian thực. Hai mô hình nổi bật đã thu hút được sự chú ý đáng kể là Ultralytics YOLOv8 và RTDETRv2 của Baidu. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình mạnh mẽ này, khám phá kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng.

Link to this sectionTổng quan về YOLOv8#

Ultralytics YOLOv8 đại diện cho một cột mốc quan trọng trong gia đình các mô hình YOLO (You Only Look Once). Nó được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để mang lại tốc độ, độ chính xác vượt trội và sự dễ sử dụng cho nhiều tác vụ đa dạng.

Đặc điểm chính:

Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
Tổ chức: Ultralytics
Ngày: 10 tháng 1 năm 2023
GitHub: Kho lưu trữ Ultralytics
Tài liệu: Tài liệu về YOLOv8

Link to this sectionKiến trúc và thế mạnh#

YOLOv8 giới thiệu một kiến trúc tinh gọn giúp tối ưu hóa cả quá trình trích xuất đặc trưng và hồi quy bounding box. Đây là bộ phát hiện không cần neo (anchor-free), giúp đơn giản hóa phần đầu dự đoán (prediction head) và giảm số lượng siêu tham số cần điều chỉnh trong quá trình huấn luyện. Kiến trúc này đảm bảo một sự cân bằng hiệu suất tuyệt vời giữa tốc độ suy luận và mAP, khiến nó rất phù hợp để triển khai trong thực tế trên cả thiết bị biên và máy chủ đám mây.

Hơn nữa, YOLOv8 yêu cầu yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc dựa trên Transformer. Điều này cho phép các nhà phát triển huấn luyện mô hình trên các GPU tiêu dùng thông thường mà không gặp phải lỗi hết bộ nhớ.

Link to this sectionTính linh hoạt#

Một trong những điểm mạnh cốt lõi của YOLOv8 là tính linh hoạt nguyên bản của nó. Trong khi nhiều mô hình chỉ tập trung vào bounding box, YOLOv8 cung cấp hỗ trợ sẵn có cho phát hiện đối tượng, phân đoạn đối tượng, phân loại hình ảnh, ước tính tư thế và phát hiện bounding box định hướng (OBB).

Tìm hiểu thêm về YOLOv8

Link to this sectionTổng quan về RTDETRv2#

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) được xây dựng dựa trên RT-DETR gốc, với mục tiêu mang các cơ chế chú ý mạnh mẽ của Vision Transformer vào các ứng dụng phát hiện đối tượng thời gian thực.

Đặc điểm chính:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: Kho lưu trữ RT-DETR
Tài liệu: RTDETRv2 README

Link to this sectionKiến trúc và thế mạnh#

RTDETRv2 tận dụng kiến trúc lai kết hợp backbone Convolutional Neural Network (CNN) với cấu trúc encoder-decoder của transformer. Điều này cho phép mô hình nắm bắt các mối quan hệ không gian phức tạp và ngữ cảnh toàn cầu thông qua cơ chế tự chú ý (self-attention). Bằng cách sử dụng một bộ các chiến lược huấn luyện "bag-of-freebies", RTDETRv2 đạt được điểm mAP cạnh tranh trên các tập dữ liệu benchmark tiêu chuẩn như tập dữ liệu COCO.

Link to this sectionNhược điểm#

Mặc dù có độ chính xác cao, bản chất dựa trên transformer của RTDETRv2 dẫn đến tiêu thụ bộ nhớ cao hơn và thời gian huấn luyện chậm hơn so với các kiến trúc CNN thuần túy. Về mặt tự nhiên, các Transformer yêu cầu nhiều VRAM hơn, khiến chúng khó huấn luyện trên phần cứng bị hạn chế về tài nguyên. Ngoài ra, mặc dù RTDETRv2 mạnh về khả năng phát hiện, nó thiếu tính linh hoạt đa tác vụ (như tư thế và phân đoạn) vốn có trong hệ sinh thái Ultralytics.

Tìm hiểu thêm về RTDETRv2

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình cho sản xuất, sự đánh đổi giữa kích thước mô hình, tốc độ suy luận và độ chính xác là tối quan trọng. Bảng dưới đây cung cấp so sánh trực tiếp các biến thể của YOLOv8 và RTDETRv2.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Phần cứng và các chỉ số

Tốc độ được đo bằng cách sử dụng instance Amazon EC2 P4d. Suy luận trên CPU sử dụng ONNX, trong khi tốc độ trên GPU được kiểm tra với TensorRT.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv8 và RT-DETR phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv8#

YOLOv8 là lựa chọn mạnh mẽ cho:

Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho việc phát hiện, phân đoạn, phân loại và ước tính tư thế trong hệ sinh thái Ultralytics.
Hệ thống sản xuất đã thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử tốt.
Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng được hưởng lợi từ các hướng dẫn mở rộng, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực của YOLOv8.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế từ Ultralytics#

Việc chọn một mô hình không chỉ dừng lại ở các chỉ số thô; hệ sinh thái phần mềm đi kèm là rất quan trọng đối với năng suất của nhà phát triển. Hệ sinh thái Ultralytics nổi tiếng vì sự dễ sử dụng, cung cấp một API Python thống nhất giúp đơn giản hóa toàn bộ vòng đời học máy.

Từ quản lý tập dữ liệu đến huấn luyện phân tán, Ultralytics trừu tượng hóa các mã boilerplate phức tạp. Các nhà phát triển được hưởng lợi từ các trọng số được huấn luyện sẵn có và tích hợp liền mạch với các nền tảng như Hugging Face và các công cụ giám sát. Hệ sinh thái được duy trì tốt này đảm bảo sự phát triển tích cực, các bản cập nhật thường xuyên và sự hỗ trợ mạnh mẽ từ cộng đồng.

Hơn nữa, hiệu quả huấn luyện là một đặc điểm nổi bật của các mô hình Ultralytics YOLO. Chúng được tối ưu hóa cao cho sự hội tụ nhanh và dấu chân bộ nhớ thấp hơn trong quy trình huấn luyện, điều này giúp tăng tốc đáng kể các chu kỳ thử nghiệm so với các bộ phát hiện dựa trên transformer như RTDETRv2.

Link to this sectionHướng tới tương lai: Sức mạnh của YOLO26#

Trong khi YOLOv8 vẫn là một công cụ mạnh mẽ, các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất nên cân nhắc nâng cấp lên YOLO26 rất được mong đợi, ra mắt vào tháng 1 năm 2026. YOLO26 tái định nghĩa trạng thái hiện đại với một số đổi mới mang tính đột phá:

Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hậu xử lý Non-Maximum Suppression (NMS), dẫn đến các quy trình triển khai nhanh hơn và mang tính tất định hơn.
Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp tinh gọn mô hình để tăng cường khả năng tương thích với thiết bị biên và thiết bị năng lượng thấp.
Trình tối ưu hóa MuSGD: Tích hợp các đổi mới trong huấn luyện LLM, trình tối ưu hóa MuSGD đảm bảo các đợt huấn luyện ổn định hơn và hội tụ nhanh hơn.
Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các môi trường thiếu GPU chuyên dụng.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng chú ý trong nhận dạng đối tượng nhỏ, vốn rất quan trọng đối với hình ảnh trên không và robot.

Các giải pháp thay thế hiện đại khác đáng khám phá trong bộ công cụ Ultralytics bao gồm YOLO11, cung cấp hiệu suất mạnh mẽ cho các dự án kế thừa, mặc dù YOLO26 được khuyến nghị cho tất cả các triển khai mới.

Link to this sectionVí dụ mã: Huấn luyện và Suy luận#

Sự đơn giản của API Ultralytics nghĩa là bạn có thể tải, huấn luyện và triển khai các mô hình chỉ trong vài dòng mã Python. Hãy đảm bảo bạn đã cài đặt PyTorch trước khi chạy ví dụ sau.

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export seamlessly for edge deployment
export_path = model.export(format="onnx")

Sẵn sàng để triển khai

Ultralytics hỗ trợ xuất dữ liệu chỉ với một cú nhấp chuột sang nhiều định dạng, bao gồm ONNX, TensorRT và CoreML, giúp đơn giản hóa các tùy chọn triển khai mô hình trên các kiến trúc phần cứng khác nhau.

Link to this sectionKết luận#

Cả YOLOv8 và RTDETRv2 đều cung cấp các khả năng thuyết phục cho phát hiện đối tượng thời gian thực. RTDETRv2 chứng minh sức mạnh của các Transformer trong việc nắm bắt ngữ cảnh toàn cầu, khiến nó phù hợp cho các tác vụ suy luận không gian phức tạp nơi tốc độ suy luận và mức tiêu thụ bộ nhớ không phải là những ràng buộc chính.

Tuy nhiên, đối với các nhà phát triển ưu tiên sự cân bằng đặc biệt giữa tốc độ, độ chính xác và hiệu quả tài nguyên, các mô hình Ultralytics YOLO vẫn là lựa chọn ưu việt. Bản chất nhẹ của YOLOv8, kết hợp với sự dễ sử dụng vô song, tính linh hoạt trên nhiều tác vụ thị giác và một hệ sinh thái mã nguồn mở phát triển mạnh mẽ, khiến nó trở thành giải pháp hàng đầu cho các môi trường sản xuất có khả năng mở rộng. Đối với những người tìm kiếm đỉnh cao tuyệt đối về hiệu suất trên thiết bị biên, YOLO26 mới ra mắt mang lại hiệu quả không cần NMS vô song, tiếp tục dẫn đầu ngành.

Người đóng góp

GLglenn-jocher¹⁴ MImiles-deans-ultralytics¹ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước

Link to this sectionYOLOv8 so với RTDETRv2#

Link to this sectionTổng quan về YOLOv8#

Link to this sectionKiến trúc và thế mạnh#

Link to this sectionTính linh hoạt#

Link to this sectionTổng quan về RTDETRv2#

Link to this sectionKiến trúc và thế mạnh#

Link to this sectionNhược điểm#

Link to this sectionSo sánh hiệu năng#

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Link to this sectionKhi nào nên chọn YOLOv8#

Link to this sectionKhi nào nên chọn RT-DETR#

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Link to this sectionLợi thế từ Ultralytics#

Link to this sectionHướng tới tương lai: Sức mạnh của YOLO26#

Link to this sectionVí dụ mã: Huấn luyện và Suy luận#

Link to this sectionKết luận#

Bình luận