Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 so với RTDETRv2#

Bối cảnh thị trường thị giác máy tính (computer vision) đã mở rộng nhanh chóng, cung cấp cho các nhà phát triển vô vàn lựa chọn để xây dựng các ứng dụng dựa trên thị giác mạnh mẽ. Trong lĩnh vực phát hiện đối tượng thời gian thực, cuộc tranh luận giữa Mạng thần kinh tích chập (CNN) và Vision Transformers (ViT) đang trở nên nổi bật hơn bao giờ hết. Bài so sánh kỹ thuật này đi sâu vào hai kiến trúc hàng đầu: YOLO11, đại diện cho đỉnh cao của các khung CNN được tối ưu hóa cao, và RTDETRv2, một phiên bản cải tiến mạnh mẽ của dòng Detection Transformer.

Bằng cách phân tích kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng, hướng dẫn này nhằm giúp các kỹ sư học máy đưa ra quyết định sáng suốt. Mặc dù cả hai mô hình đều đẩy giới hạn của độ chính xác lên cao, các mô hình Ultralytics YOLO thường mang lại sự cân bằng vượt trội về tốc độ, hỗ trợ hệ sinh thái và tính dễ sử dụng cho môi trường sản xuất thực tế.

Link to this sectionYOLO11: Chuẩn mực cho tính linh hoạt trong thế giới thực#

Được giới thiệu bởi Ultralytics, YOLO11 được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để cung cấp một mô hình nhanh, chính xác và vô cùng linh hoạt. Nó được thiết kế để xử lý mượt mà các tác vụ phát hiện đối tượng, phân đoạn cá thể, phân loại hình ảnh, ước tính tư thế và trích xuất hộp bao định hướng (OBB) một cách nguyên bản.

Tìm hiểu thêm về YOLO11

Link to this sectionKiến trúc và thế mạnh#

YOLO11 sở hữu xương sống CNN tinh gọn và các kim tự tháp tính năng không gian tiên tiến, giúp nó đạt hiệu quả sử dụng tài nguyên vượt trội. Nó vận hành tốt trong các môi trường có ràng buộc phần cứng nghiêm ngặt, với mức tiêu thụ bộ nhớ tối thiểu trong cả quá trình huấn luyện và suy luận. Nền tảng Ultralytics hỗ trợ nguyên bản cho YOLO11, cho phép giám sát mô hình, gắn nhãn dữ liệu và huấn luyện trên đám mây được tinh giản mà không cần phải kết hợp các công cụ MLOps rời rạc.

Đối với các nhà phát triển nhắm đến điện toán biên, YOLO11 tự hào về độ trễ cực thấp. Bản chất nhẹ cho phép nó chạy hiệu quả trên các thiết bị từ Raspberry Pi đến điện thoại thông minh phổ thông, khiến nó trở thành tiêu chuẩn cho bán lẻ thông minh, kiểm soát chất lượng sản xuất và quản lý giao thông tự động.

Link to this sectionRTDETRv2: Transformer thời gian thực từ Baidu#

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho nỗ lực của Baidu trong việc biến các kiến trúc dựa trên transformer trở nên khả thi cho các tác vụ thời gian thực. Nó được xây dựng dựa trên RT-DETR gốc bằng cách kết hợp phương pháp "túi quà tặng" (bag-of-freebies) để cải thiện độ chính xác cơ bản mà không làm tăng độ trễ suy luận.

Tìm hiểu thêm về RTDETR

Link to this sectionKiến trúc và thế mạnh#

Không giống như các CNN truyền thống, RTDETRv2 sử dụng kiến trúc encoder-decoder với các cơ chế tự chú ý (self-attention), cho phép nó nắm bắt ngữ cảnh toàn cầu trên toàn bộ hình ảnh. Điều này đặc biệt có lợi trong các cảnh đông đúc, nơi thường xuyên xảy ra tình trạng che khuất. RTDETRv2 loại bỏ nhu cầu sử dụng Non-Maximum Suppression (NMS) trong xử lý hậu kỳ, thay vào đó dựa vào khớp lệnh Hungarian trong quá trình huấn luyện để thực hiện khớp hai phần một-đối-một.

Tuy nhiên, các mô hình transformer nổi tiếng là tiêu tốn nhiều VRAM và bộ nhớ CUDA. Việc huấn luyện RTDETRv2 từ đầu hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh thường yêu cầu các cụm GPU cao cấp đáng kể, điều này có thể là một rào cản đối với các nhóm linh hoạt nhỏ so với yêu cầu huấn luyện nhẹ của các mô hình Ultralytics.

Link to this sectionPhân tích hiệu suất và các chỉ số#

Khi đánh giá các mô hình này trên tập dữ liệu COCO tiêu chuẩn, chúng ta thấy rõ sự đánh đổi giữa các tham số, FLOPs và độ chính xác thô.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionPhân tích kết quả#

Như đã thấy trong bảng, YOLO11 mang lại tỷ lệ hiệu suất trên kích thước đáng kinh ngạc. YOLO11x đạt mAPval cao hơn (54.7) so với RTDETRv2-x (54.3), trong khi sử dụng ít tham số hơn đáng kể (56.9M so với 76M) và ít FLOPs tính toán hơn rất nhiều (194.9B so với 259B).

Hơn nữa, tốc độ suy luận của YOLO11 trên T4 TensorRT cực kỳ nhanh. YOLO11s hoàn thành suy luận chỉ trong 2.5ms, trong khi mô hình nhỏ nhất RTDETRv2-s mất 5.03ms. Điều này làm cho YOLO11 trở thành lựa chọn tối ưu cho các luồng phân tích video thời gian thực, tốc độ cao, nơi thời gian xử lý khung hình là điểm nghẽn chính.

Chi phí của Transformers

Trong khi RTDETRv2 đạt độ chính xác tuyệt vời thông qua các lớp chú ý (attention layers), các cơ chế này mở rộng theo bậc hai với độ phân giải hình ảnh, dẫn đến mức tiêu thụ VRAM cao hơn trong cả quá trình huấn luyện và suy luận. YOLO11 khắc phục điều này với các khối tích chập hiệu quả cao của mình.

Link to this sectionHệ sinh thái huấn luyện và khả năng sử dụng#

Lợi thế cốt lõi của việc áp dụng mô hình Ultralytics nằm ở hệ sinh thái xung quanh nó. Việc huấn luyện RTDETRv2 thường liên quan đến việc điều hướng qua các kho lưu trữ cấp nghiên cứu phức tạp, điều chỉnh các trọng số mất mát khớp hai phần phức tạp và quản lý chi phí bộ nhớ đáng kể.

Ngược lại, Ultralytics tập trung mạnh vào trải nghiệm nhà phát triển. Python API thống nhất giúp trừu tượng hóa mã boilerplate, tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thử nghiệm và tự động xử lý tăng cường dữ liệu.

Dưới đây là sự đơn giản khi huấn luyện và xuất một mô hình sử dụng gói ultralytics:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

Sau khi huấn luyện, việc xuất mô hình YOLO11 sang các định dạng như ONNX, OpenVINO hoặc CoreML chỉ cần một câu lệnh duy nhất, đảm bảo đường ống xử lý thị giác của bạn có thể mở rộng dễ dàng trên các phần cứng backend khác nhau.

Khả năng đa tác vụ

Hãy nhớ rằng trong khi RTDETRv2 chỉ tập trung vào phát hiện hộp bao, kiến trúc YOLO11 hỗ trợ nguyên bản ước tính tư thếphân đoạn cá thể, cho phép bạn hợp nhất nhiều tác vụ thị giác thành một dòng mô hình duy nhất.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLO11 và RT-DETR phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLO11#

YOLO11 là lựa chọn mạnh mẽ cho:

  • Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
  • Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
  • Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionHướng tới tương lai: Sức mạnh của YOLO26#

Trong khi YOLO11 là một lựa chọn sản xuất tuyệt vời, các đội ngũ tìm kiếm công nghệ tiên tiến nhất nên cân nhắc kỹ YOLO26. Được phát hành vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách kiến trúc bằng cách kết hợp Thiết kế NMS-Free End-to-End (tiên phong trong YOLOv10) trực tiếp vào cốt lõi, loại bỏ hoàn toàn độ trễ hậu xử lý và độ phức tạp của logic triển khai.

YOLO26 cũng giới thiệu một số tính năng mang tính cách mạng:

  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM của Moonshot AI's Kimi K2, sự lai tạo này giữa SGD và Muon đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh hơn đáng kể.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để có quy trình xuất đơn giản và sạch sẽ hơn, cải thiện đáng kể khả năng tương thích với các thiết bị biên công suất thấp.
  • ProgLoss + STAL: Các hàm mất mát nâng cao này mang lại những cải tiến đáng kể trong nhận dạng đối tượng nhỏ, một yêu cầu quan trọng cho giám sát bằng máy bay không người lái, giám sát nông nghiệp và các cảm biến biên IoT.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Đối với các triển khai thiếu GPU chuyên dụng, YOLO26 được tối ưu hóa đặc biệt cho thực thi trên CPU, vượt trội hơn hẳn so với các thế hệ trước.

Tìm hiểu thêm về YOLO26

Đối với những ai muốn khám phá phạm vi kiến trúc rộng hơn, tài liệu của Ultralytics cũng cung cấp thông tin chi tiết về YOLOv8, YOLOv5 được áp dụng rộng rãi, và các mô hình chuyên biệt như YOLO-World cho các ứng dụng phát hiện từ vựng mở. Cuối cùng, dù ưu tiên sự ổn định đã được chứng minh của YOLO11 hay những đổi mới đột phá của YOLO26, hệ sinh thái Ultralytics mang đến những công cụ vô song để đưa các giải pháp thị giác máy tính của bạn vào thực tế.

Những người đóng góp

Bình luận