Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 so với YOLOv8#

Bối cảnh thị giác máy tính luôn thay đổi, thường được làm nổi bật bởi sự cạnh tranh liên tục giữa Mạng thần kinh tích chập (CNN) truyền thống và các kiến trúc dựa trên Transformer mới hơn. Trong bài so sánh kỹ thuật toàn diện này, chúng tôi xem xét cách RTDETRv2, một vision transformer hàng đầu, so sánh với Ultralytics YOLOv8, một trong những mô hình CNN linh hoạt và được áp dụng rộng rãi nhất trong ngành. Cả hai mô hình đều cung cấp các khả năng mạnh mẽ cho các kỹ sư và nhà nghiên cứu, nhưng kiến trúc nền tảng của chúng dẫn đến những khác biệt rõ rệt về phương pháp huấn luyện, hạn chế khi triển khai và hiệu suất tổng thể.


Link to this sectionTổng quan về mô hình: RTDETRv2#

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) xây dựng dựa trên sự thành công nền tảng của phiên bản tiền nhiệm bằng cách tối ưu hóa kiến trúc vision transformer cho tốc độ suy luận thời gian thực.

Chi tiết kỹ thuật chính:

Link to this sectionKiến trúc và thế mạnh#

Về cốt lõi, RTDETRv2 tận dụng kiến trúc lai kết hợp backbone CNN với cấu trúc transformer encoder-decoder. Điều này cho phép mô hình xem xét toàn bộ hình ảnh theo ngữ cảnh, khiến nó đặc biệt thành thạo trong việc xử lý các cảnh phức tạp với các đối tượng chồng chéo. Một trong những tính năng nổi bật nhất của nó là thiết kế end-to-end gốc, hoàn toàn bỏ qua quá trình hậu xử lý Non-Maximum Suppression (NMS). Điều này làm giảm độ phức tạp thuật toán trong các giai đoạn cuối của quy trình phát hiện. Hơn nữa, khả năng phát hiện đa quy mô của nó cho phép nó xác định hiệu quả cả các cấu trúc lớn và các yếu tố nền nhỏ.

Link to this sectionNhược điểm#

Mặc dù có khả năng hiểu ngữ cảnh mạnh mẽ, các kiến trúc dựa trên transformer như RTDETRv2 đòi hỏi chi phí tính toán rất lớn trong quá trình huấn luyện. Chúng yêu cầu một lượng lớn bộ nhớ CUDA, khiến chúng khó huấn luyện trên phần cứng phổ thông. Ngoài ra, việc thiết lập tập dữ liệu tùy chỉnh và tinh chỉnh các siêu tham số huấn luyện thường đòi hỏi chuyên môn sâu, vì mô hình thiếu một trình bao bọc phần mềm thân thiện với người mới bắt đầu. Việc triển khai lên các thiết bị cạnh công suất thấp như phần cứng Raspberry Pi đời cũ cũng có thể là một thách thức do các cơ chế attention nặng nề.

Tìm hiểu thêm về RTDETRv2


Link to this sectionTổng quan mô hình: YOLOv8#

Kể từ khi ra mắt, Ultralytics YOLOv8 đã khẳng định vị thế là tiêu chuẩn công nghiệp cho các tác vụ thị giác máy tính cấp độ sản xuất, ưu tiên trải nghiệm nhà phát triển hoàn hảo cùng với độ chính xác hàng đầu.

Chi tiết kỹ thuật chính:

Link to this sectionKiến trúc và thế mạnh#

YOLOv8 sử dụng kiến trúc CNN không neo (anchor-free) được tối ưu hóa cao với decoupled head, cải thiện đáng kể độ chính xác trong việc định vị và phân loại đối tượng so với các thế hệ trước. Điểm mạnh lớn nhất của nó nằm ở sự hiệu quả và tính linh hoạt đáng kinh ngạc. Kiến trúc này yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các vision transformer, cho phép các kỹ sư chạy các batch sizes lớn hơn trên các GPU tiêu chuẩn. Hơn nữa, hệ sinh thái Ultralytics cung cấp quy trình làm việc liền mạch, không đối thủ. Python API thống nhất cho phép thực hiện tinh chỉnh siêu tham số, huấn luyện, xác thực và xuất mô hình chỉ với vài dòng mã.

Link to this sectionNhược điểm#

YOLOv8 dựa vào NMS truyền thống trong giai đoạn hậu xử lý. Mặc dù công cụ Ultralytics xử lý việc này một cách hiệu quả ở phía sau, về mặt kỹ thuật, nó vẫn tạo ra độ trễ hậu xử lý nhỏ khi so sánh với các kiến trúc không cần NMS.

Tìm hiểu thêm về YOLOv8


Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh các con số thô, rõ ràng là cả hai mô hình đều ưu tiên các khía cạnh khác nhau của quy trình triển khai. Dưới đây là phân tích hiệu suất song song.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
Giải thích các chỉ số

Trong khi RTDETRv2-x đạt mAP đỉnh cao hơn một chút là 54.3 so với 53.9 của YOLOv8x, dòng YOLOv8 lại thống trị về tốc độ suy luận và hiệu quả tham số. Ví dụ, YOLOv8s chạy nhanh gần gấp đôi trên công cụ TensorRT so với RTDETRv2-s trong khi yêu cầu số lượng tham số gần bằng một nửa.

Link to this sectionYêu cầu bộ nhớ và hiệu quả huấn luyện#

Một trong những yếu tố quan trọng nhất đối với các nhà phát triển độc lập và các nhóm doanh nghiệp là chi phí huấn luyện. Các mô hình Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đáng kể trong quy trình huấn luyện so với các kiến trúc transformer. Một mô hình RTDETRv2 tiêu chuẩn có thể dễ dàng làm nghẽn GPU phổ thông, trong khi YOLOv8 hội tụ nhanh chóng và đáng tin cậy trên phần cứng như NVIDIA RTX 4070.

Link to this sectionHệ sinh thái, API và Tính dễ sử dụng#

Điểm khác biệt thực sự cho các giải pháp AI hiện đại là khung phần mềm hỗ trợ. Hệ sinh thái Ultralytics đơn giản hóa các rào cản kỹ thuật phức tạp. Với sự phát triển tích cực và hỗ trợ cộng đồng mạnh mẽ trên các nền tảng như Discord, YOLOv8 đảm bảo dự án của bạn không bị đình trệ do tài liệu kém.

Hơn nữa, YOLOv8 vượt xa khả năng phát hiện đối tượng tiêu chuẩn. Đây là một mạng đa nhiệm thực thụ với sự hỗ trợ gốc cho Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (Pose Estimation), Phân loại hình ảnh (Image Classification)Hộp bao định hướng (Oriented Bounding Boxes - OBB). RTDETRv2 vẫn tập trung chủ yếu vào phát hiện.

Link to this sectionVí dụ mã: Sự đơn giản thống nhất#

Sử dụng Python API của Ultralytics, bạn có thể thử nghiệm liền mạch với cả hai dòng mô hình trong một môi trường thống nhất.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model and a YOLOv8 model seamlessly
model_transformer = RTDETR("rtdetr-l.pt")
model_cnn = YOLO("yolov8l.pt")

# Predict on a sample image using the exact same API
results_transformer = model_transformer("https://ultralytics.com/images/bus.jpg")
results_cnn = model_cnn("https://ultralytics.com/images/bus.jpg")

# Export YOLOv8 to ONNX for rapid edge deployment
model_cnn.export(format="onnx")

Sau khi huấn luyện, YOLOv8 hỗ trợ xuất mô hình một lần nhấp sang ONNX, TensorRTOpenVINO, đảm bảo suy luận thông lượng cao trên các phần cứng đa dạng.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa RT-DETR và YOLOv8 phụ thuộc vào các yêu cầu cụ thể của dự án, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR là lựa chọn mạnh mẽ cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn YOLOv8#

YOLOv8 được khuyến nghị cho:

  • Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho việc phát hiện, phân đoạn, phân loạiước tính tư thế trong hệ sinh thái Ultralytics.
  • Hệ thống sản xuất đã thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử tốt.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng được hưởng lợi từ các hướng dẫn mở rộng, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực của YOLOv8.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionHướng tới tương lai: Lợi thế của YOLO26#

Trong khi YOLOv8 vẫn là một cột mốc huyền thoại, thị giác máy tính di chuyển cực kỳ nhanh. Đối với các đội ngũ tìm kiếm sự đột phá tuyệt đối vào năm 2026, Ultralytics YOLO26 đại diện cho sự thay đổi mô hình tiếp theo.

Nếu bạn bị thu hút bởi thiết kế không dùng NMS của RTDETRv2, YOLO26 kết hợp Thiết kế NMS-Free End-to-End gốc, kết hợp sự đơn giản trong hậu xử lý của transformer với tốc độ cực nhanh của CNN. Ngoài ra, YOLO26 sử dụng MuSGD Optimizer mang tính đột phá, mang lại sự ổn định huấn luyện kiểu LLM cho các mô hình thị giác để đạt được sự hội tụ cực nhanh. Với DFL Removal (đã loại bỏ Distribution Focal Loss để đơn giản hóa việc xuất và cải thiện khả năng tương thích với thiết bị cạnh/công suất thấp), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%. Kết hợp với các cơ chế ProgLoss + STAL tiên tiến để phát hiện vật thể nhỏ vượt trội, YOLO26 chắc chắn là lộ trình nâng cấp được đề xuất so với cả YOLOv8 và RTDETRv2.

Để đọc thêm về các mô hình thay thế, hãy khám phá các hướng dẫn của chúng tôi về YOLO11 hoặc đọc phân tích chi tiết về YOLOv10 vs YOLOv8 để xem kiến trúc không dùng NMS đã phát triển như thế nào trong gia đình YOLO.

Người đóng góp

Bình luận