Chuyển đến nội dung

YOLO11 vs RTDETRv2: So sánh sự tiến hóa của CNN và Vision Transformers

Lĩnh vực thị giác máy tính đã mở rộng nhanh chóng, mang đến cho các nhà phát triển vô số lựa chọn để xây dựng các ứng dụng dựa trên thị giác mạnh mẽ. Trong lĩnh vực phát hiện đối tượng thời gian thực, cuộc tranh luận giữa Mạng nơ-ron tích chập (CNN) và Bộ chuyển đổi thị giác (ViT) trở nên nổi bật hơn bao giờ hết. Bài so sánh kỹ thuật này đi sâu vào hai kiến ​​trúc hàng đầu: YOLO11 , đại diện cho đỉnh cao của các khung CNN được tối ưu hóa cao, và RTDETRv2 , một phiên bản mạnh mẽ của dòng Bộ chuyển đổi phát hiện.

Bằng cách phân tích kiến ​​trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng, hướng dẫn này nhằm mục đích giúp các kỹ sư máy học đưa ra quyết định sáng suốt. Mặc dù cả hai mô hình đều hướng đến việc tối đa hóa độ chính xác, nhưng các mô hình Ultralytics YOLO thường mang lại sự cân bằng vượt trội giữa tốc độ, hỗ trợ hệ sinh thái và tính dễ sử dụng cho môi trường sản xuất thực tế.

YOLO11 Tiêu chuẩn cho tính linh hoạt trong thế giới thực

Được giới thiệu bởi Ultralytics , YOLO11 Được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để tạo ra một mô hình nhanh, chính xác và cực kỳ linh hoạt. Nó được thiết kế để xử lý liền mạch việc phát hiện đối tượng, phân đoạn thể hiện , phân loại hình ảnh , ước tính tư thế và trích xuất hộp giới hạn định hướng (OBB) một cách tự nhiên.

Tìm hiểu thêm về YOLO11

Kiến trúc và Điểm mạnh

YOLO11 Sở hữu kiến ​​trúc mạng CNN tinh gọn và các kim tự tháp đặc trưng không gian tiên tiến, giúp nó tiết kiệm tài nguyên một cách vượt trội. Nó hoạt động hiệu quả trong môi trường có những hạn chế nghiêm ngặt về phần cứng, cung cấp mức sử dụng bộ nhớ tối thiểu trong cả quá trình huấn luyện và suy luận. Nền tảng Ultralytics cung cấp hỗ trợ gốc cho YOLO11 Điều này cho phép giám sát mô hình, chú thích dữ liệu và huấn luyện trên đám mây một cách hiệu quả mà không cần phải kết hợp các công cụ MLops khác nhau.

Dành cho các nhà phát triển nhắm đến điện toán biên , YOLO11 Tự hào với độ trễ cực thấp. Bản chất gọn nhẹ cho phép nó hoạt động hiệu quả trên các thiết bị từ Raspberry Pi đến điện thoại di động thông thường, trở thành tiêu chuẩn cho bán lẻ thông minh, kiểm soát chất lượng sản xuất và quản lý giao thông tự động.

RTDETRv2: Bộ chuyển đổi thời gian thực của Baidu

RTDETRv2 (Real-Time Detection Transformer version 2) thể hiện nỗ lực của Baidu nhằm giúp các kiến ​​trúc dựa trên transformer trở nên khả thi cho các tác vụ thời gian thực. Nó được xây dựng dựa trên phiên bản gốc. RT-DETR bằng cách kết hợp phương pháp "túi quà tặng miễn phí" để cải thiện độ chính xác cơ bản mà không làm tăng độ trễ suy luận.

Tìm hiểu thêm về RTDETR

Kiến trúc và Điểm mạnh

Không giống như các mạng CNN truyền thống, RTDETRv2 sử dụng kiến ​​trúc mã hóa-giải mã với cơ chế tự chú ý, cho phép nó nắm bắt ngữ cảnh toàn cục trên toàn bộ hình ảnh. Điều này đặc biệt có lợi trong các cảnh đông đúc, nơi thường xuyên xảy ra hiện tượng che khuất. RTDETRv2 loại bỏ nhu cầu sử dụng cơ chế loại bỏ cực đại không cục bộ (Non-Maximum Suppression). NMS ) trong quá trình xử lý hậu kỳ, thay vào đó dựa vào phương pháp khớp tiếng Hungary trong quá trình huấn luyện để khớp hai phía một-đối-một.

Tuy nhiên, các mô hình transformer nổi tiếng là ngốn nhiều VRAM và bộ nhớ CUDA . Việc huấn luyện RTDETRv2 từ đầu hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh thường đòi hỏi một lượng lớn tài nguyên cao cấp. GPU các cụm, điều này có thể là rào cản đối với các nhóm linh hoạt nhỏ hơn so với quy trình đào tạo gọn nhẹ của Ultralytics mô hình.

Phân tích hiệu suất và số liệu

Khi đánh giá các mô hình này trên tập dữ liệu COCO tiêu chuẩn, chúng ta nhận thấy sự đánh đổi rõ ràng giữa các tham số, số phép tính FLOP và độ chính xác thô.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Phân tích kết quả

Như thể hiện trong bảng, YOLO11 Cung cấp tỷ lệ hiệu năng trên kích thước đáng kinh ngạc. YOLO11x đạt được hiệu năng cao hơn. mAP val (54,7) so với RTDETRv2-x (54,3), trong khi sử dụng ít tham số hơn đáng kể (56,9 triệu so với 76 triệu) và số phép tính FLOPs ít hơn rất nhiều (194,9 tỷ so với 259 tỷ).

Hơn nữa, YOLO11 Tốc độ suy luận của YOLO11 trên TensorRT T4 cực kỳ nhanh. YOLO11 hoàn thành quá trình suy luận chỉ trong 2,5ms, trong khi RTDETRv2 nhỏ nhất mất 5,03ms. Điều này làm cho YOLO11 có tốc độ suy luận rất nhanh. YOLO11 Đây là sự lựa chọn tối ưu cho các luồng phân tích video tốc độ cao, thời gian thực, nơi thời gian xử lý khung hình là nút thắt cổ chai chính.

Chi phí của máy biến áp

Mặc dù RTDETRv2 đạt được độ chính xác tuyệt vời thông qua các lớp chú ý, nhưng các cơ chế này lại tăng theo cấp số nhân với độ phân giải hình ảnh, dẫn đến mức tiêu thụ VRAM cao hơn trong cả quá trình huấn luyện và suy luận. YOLO11 Nó khắc phục điều này bằng các khối tích chập siêu hiệu quả.

Hệ sinh thái Huấn luyện và Khả năng Sử dụng

Ưu điểm cốt lõi của việc áp dụng một Ultralytics Mô hình nằm trong hệ sinh thái xung quanh. Việc huấn luyện RTDETRv2 thường bao gồm việc điều hướng các kho lưu trữ nghiên cứu phức tạp, điều chỉnh trọng số mất mát khớp hai phía phức tạp và quản lý lượng bộ nhớ tiêu tốn đáng kể.

Ngược lại, Ultralytics Tập trung mạnh vào trải nghiệm của nhà phát triển. Hệ thống thống nhất Python API này loại bỏ mã lặp lại, tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thử nghiệm và tự động xử lý việc bổ sung dữ liệu.

Dưới đây là cách đơn giản để huấn luyện và xuất mô hình bằng cách sử dụng... ultralytics gói:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

Sau khi được đào tạo, việc xuất khẩu một YOLO11 Việc chuyển đổi mô hình sang các định dạng như ONNX , OpenVINO hoặc CoreML chỉ cần một lệnh duy nhất, đảm bảo quy trình xử lý hình ảnh của bạn có thể mở rộng dễ dàng trên nhiều nền tảng phần cứng khác nhau.

Khả năng đa nhiệm

Hãy nhớ rằng trong khi RTDETRv2 chỉ tập trung vào việc phát hiện hộp giới hạn, thì... YOLO11 Kiến trúc này hỗ trợ sẵn ước lượng tư thếphân đoạn đối tượng , cho phép bạn hợp nhất nhiều tác vụ thị giác vào một họ mô hình duy nhất.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLO11 Và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLO11

YOLO11 là một lựa chọn tốt cho:

  • Triển khai tại biên môi trường sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson , nơi độ tin cậy và bảo trì thường xuyên là yếu tố tối quan trọng.
  • Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu phát hiện , phân đoạn , ước lượng tư thếOBB trong một khung thống nhất duy nhất.
  • Tạo mẫu và triển khai nhanh chóng: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Nhìn về phía trước: Sức mạnh của YOLO26

Trong khi YOLO11 Là một lựa chọn sản xuất xuất sắc, các nhóm đang tìm kiếm công nghệ tiên tiến nhất nên cân nhắc kỹ YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách kiến ​​trúc bằng cách tích hợp thiết kế không cần NMS từ đầu đến cuối (lần đầu tiên được tiên phong trong...). YOLOv10 ) trực tiếp vào lõi của nó, loại bỏ hoàn toàn độ trễ xử lý hậu kỳ và độ phức tạp của logic triển khai.

YOLO26 cũng giới thiệu một số tính năng mang tính cách mạng:

  • MuSGD Optimizer: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM của Kimi K2 thuộc Moonshot AI, đây là sự kết hợp của... SGD và Muon đảm bảo quá trình huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn đáng kể.
  • Loại bỏ DFL: Hiện tượng mất tiêu điểm phân tán (Distribution Focal Loss - DFL) đã được loại bỏ để quy trình xuất dữ liệu trở nên gọn gàng và đơn giản hơn, cải thiện đáng kể khả năng tương thích với các thiết bị biên công suất thấp.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một yêu cầu quan trọng đối với giám sát bằng máy bay không người lái, giám sát nông nghiệp và cảm biến biên IoT.
  • Suy luận CPU nhanh hơn tới 43%: Đối với các triển khai không có GPU chuyên dụng, YOLO26 được tối ưu hóa đặc biệt cho CPU Khả năng thực thi vượt trội, vượt xa các thế hệ trước.

Tìm hiểu thêm về YOLO26

Đối với những ai quan tâm đến việc khám phá nhiều loại hình kiến ​​trúc khác nhau, Ultralytics Tài liệu cũng cung cấp thông tin chi tiết về YOLOv8 , YOLOv5 được sử dụng rộng rãi và các mô hình chuyên biệt như YOLO -World cho các ứng dụng phát hiện từ vựng mở. Cuối cùng, việc ưu tiên tính ổn định đã được chứng minh của... YOLO11 hoặc những cải tiến đột phá của YOLO26, Ultralytics Hệ sinh thái này cung cấp các công cụ vượt trội để hiện thực hóa các giải pháp thị giác máy tính của bạn.


Bình luận