YOLO11 vs RTDETRv2: So sánh sự tiến hóa của CNN và Vision Transformers

Lĩnh vực thị giác máy tính đã mở rộng nhanh chóng, mang đến cho các nhà phát triển vô số lựa chọn để xây dựng các ứng dụng dựa trên thị giác mạnh mẽ. Trong lĩnh vực phát hiện đối tượng thời gian thực, cuộc tranh luận giữa Mạng nơ-ron tích chập (CNN) và Bộ chuyển đổi thị giác (ViT) trở nên nổi bật hơn bao giờ hết. Bài so sánh kỹ thuật này đi sâu vào hai kiến trúc hàng đầu: YOLO11 , đại diện cho đỉnh cao của các khung CNN được tối ưu hóa cao, và RTDETRv2 , một phiên bản mạnh mẽ của dòng Bộ chuyển đổi phát hiện.

Bằng cách phân tích kiến trúc, các chỉ số hiệu suất và kịch bản triển khai lý tưởng của chúng, hướng dẫn này nhằm giúp các kỹ sư học máy đưa ra quyết định sáng suốt. Mặc dù cả hai mô hình đều vượt qua giới hạn về độ chính xác, các mô hình Ultralytics YOLO thường mang lại sự cân bằng vượt trội giữa tốc độ, hỗ trợ hệ sinh thái và dễ sử dụng cho sản xuất thực tế.

YOLO11 Tiêu chuẩn cho tính linh hoạt trong thế giới thực

Được giới thiệu bởi Ultralytics , YOLO11 Được xây dựng dựa trên nhiều năm nghiên cứu nền tảng để tạo ra một mô hình nhanh, chính xác và cực kỳ linh hoạt. Nó được thiết kế để xử lý liền mạch việc phát hiện đối tượng, phân đoạn thể hiện , phân loại hình ảnh , ước tính tư thế và trích xuất hộp giới hạn định hướng (OBB) một cách tự nhiên.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLO11

Tìm hiểu thêm về YOLO11

Kiến trúc và Điểm mạnh

YOLO11 Sở hữu kiến trúc mạng CNN tinh gọn và các kim tự tháp đặc trưng không gian tiên tiến, giúp nó tiết kiệm tài nguyên một cách vượt trội. Nó hoạt động hiệu quả trong môi trường có những hạn chế nghiêm ngặt về phần cứng, cung cấp mức sử dụng bộ nhớ tối thiểu trong cả quá trình huấn luyện và suy luận. Nền tảng Ultralytics cung cấp hỗ trợ gốc cho YOLO11 Điều này cho phép giám sát mô hình, chú thích dữ liệu và huấn luyện trên đám mây một cách hiệu quả mà không cần phải kết hợp các công cụ MLops khác nhau.

Dành cho các nhà phát triển nhắm đến điện toán biên , YOLO11 Tự hào với độ trễ cực thấp. Bản chất gọn nhẹ cho phép nó hoạt động hiệu quả trên các thiết bị từ Raspberry Pi đến điện thoại di động thông thường, trở thành tiêu chuẩn cho bán lẻ thông minh, kiểm soát chất lượng sản xuất và quản lý giao thông tự động.

RTDETRv2: Bộ chuyển đổi thời gian thực của Baidu

RTDETRv2 (Real-Time Detection Transformer version 2) thể hiện nỗ lực của Baidu nhằm giúp các kiến trúc dựa trên transformer trở nên khả thi cho các tác vụ thời gian thực. Nó được xây dựng dựa trên phiên bản gốc. RT-DETR bằng cách kết hợp phương pháp "túi quà tặng miễn phí" để cải thiện độ chính xác cơ bản mà không làm tăng độ trễ suy luận.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 2024-07-24
Arxiv:2407.17140
GitHub:Kho lưu trữ RT-DETRv2
Tài liệu:README của RTDETRv2

Tìm hiểu thêm về RTDETR

Kiến trúc và Điểm mạnh

Không giống như các mạng CNN truyền thống, RTDETRv2 sử dụng kiến trúc mã hóa-giải mã với cơ chế tự chú ý, cho phép nó nắm bắt ngữ cảnh toàn cục trên toàn bộ hình ảnh. Điều này đặc biệt có lợi trong các cảnh đông đúc, nơi thường xuyên xảy ra hiện tượng che khuất. RTDETRv2 loại bỏ nhu cầu sử dụng cơ chế loại bỏ cực đại không cục bộ (Non-Maximum Suppression). NMS ) trong quá trình xử lý hậu kỳ, thay vào đó dựa vào phương pháp khớp tiếng Hungary trong quá trình huấn luyện để khớp hai phía một-đối-một.

Tuy nhiên, các mô hình transformer nổi tiếng là ngốn nhiều VRAM và bộ nhớ CUDA . Việc huấn luyện RTDETRv2 từ đầu hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh thường đòi hỏi một lượng lớn tài nguyên cao cấp. GPU các cụm, điều này có thể là rào cản đối với các nhóm linh hoạt nhỏ hơn so với quy trình đào tạo gọn nhẹ của Ultralytics mô hình.

Phân tích hiệu suất và số liệu

Khi đánh giá các mô hình này trên tập dữ liệu COCO tiêu chuẩn, chúng ta nhận thấy sự đánh đổi rõ ràng giữa các tham số, số phép tính FLOP và độ chính xác thô.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Phân tích kết quả

Như đã thấy trong bảng, YOLO11 cung cấp tỷ lệ hiệu suất trên kích thước đáng kinh ngạc. YOLO11x đạt mAP^val cao hơn (54.7) so với RTDETRv2-x (54.3), trong khi sử dụng ít tham số hơn đáng kể (56.9M so với 76M) và ít FLOPs tính toán hơn rất nhiều (194.9B so với 259B).

Hơn nữa, YOLO11 Tốc độ suy luận của YOLO11 trên TensorRT T4 cực kỳ nhanh. YOLO11 hoàn thành quá trình suy luận chỉ trong 2,5ms, trong khi RTDETRv2 nhỏ nhất mất 5,03ms. Điều này làm cho YOLO11 có tốc độ suy luận rất nhanh. YOLO11 Đây là sự lựa chọn tối ưu cho các luồng phân tích video tốc độ cao, thời gian thực, nơi thời gian xử lý khung hình là nút thắt cổ chai chính.

Chi phí của máy biến áp

Mặc dù RTDETRv2 đạt được độ chính xác tuyệt vời thông qua các lớp chú ý, nhưng các cơ chế này lại tăng theo cấp số nhân với độ phân giải hình ảnh, dẫn đến mức tiêu thụ VRAM cao hơn trong cả quá trình huấn luyện và suy luận. YOLO11 Nó khắc phục điều này bằng các khối tích chập siêu hiệu quả.

Hệ sinh thái Huấn luyện và Khả năng Sử dụng

Ưu điểm cốt lõi của việc áp dụng một Ultralytics Mô hình nằm trong hệ sinh thái xung quanh. Việc huấn luyện RTDETRv2 thường bao gồm việc điều hướng các kho lưu trữ nghiên cứu phức tạp, điều chỉnh trọng số mất mát khớp hai phía phức tạp và quản lý lượng bộ nhớ tiêu tốn đáng kể.

Ngược lại, Ultralytics tập trung mạnh vào trải nghiệm của nhà phát triển. API Python thống nhất trừu tượng hóa mã boilerplate, tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thử nghiệm và tự động xử lý các tăng cường dữ liệu.

Dưới đây là cách đơn giản để huấn luyện và xuất mô hình bằng cách sử dụng... ultralytics gói:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

Sau khi được đào tạo, việc xuất khẩu một YOLO11 Việc chuyển đổi mô hình sang các định dạng như ONNX , OpenVINO hoặc CoreML chỉ cần một lệnh duy nhất, đảm bảo quy trình xử lý hình ảnh của bạn có thể mở rộng dễ dàng trên nhiều nền tảng phần cứng khác nhau.

Khả năng đa nhiệm

Hãy nhớ rằng trong khi RTDETRv2 chỉ tập trung vào việc phát hiện hộp giới hạn, thì... YOLO11 Kiến trúc này hỗ trợ sẵn ước lượng tư thế và phân đoạn đối tượng , cho phép bạn hợp nhất nhiều tác vụ thị giác vào một họ mô hình duy nhất.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO11 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và các ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO11

YOLO11 là một lựa chọn tốt cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Nhìn về phía trước: Sức mạnh của YOLO26

Trong khi YOLO11 Là một lựa chọn sản xuất xuất sắc, các nhóm đang tìm kiếm công nghệ tiên tiến nhất nên cân nhắc kỹ YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách kiến trúc bằng cách tích hợp thiết kế không cần NMS từ đầu đến cuối (lần đầu tiên được tiên phong trong...). YOLOv10 ) trực tiếp vào lõi của nó, loại bỏ hoàn toàn độ trễ xử lý hậu kỳ và độ phức tạp của logic triển khai.

YOLO26 cũng giới thiệu một số tính năng mang tính cách mạng:

Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM của Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh hơn đáng kể.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để có quy trình xuất sạch hơn, đơn giản hóa, cải thiện đáng kể khả năng tương thích với thiết bị biên công suất thấp.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một yêu cầu quan trọng cho giám sát bằng drone, giám sát nông nghiệp và cảm biến biên IoT.
Tăng tốc suy luận trên CPU lên đến 43%: Đối với các triển khai thiếu GPU chuyên dụng, YOLO26 được tối ưu hóa đặc biệt cho việc thực thi trên CPU, vượt trội hơn hẳn các thế hệ trước.

Tìm hiểu thêm về YOLO26

Đối với những ai quan tâm đến việc khám phá nhiều loại hình kiến trúc khác nhau, Ultralytics Tài liệu cũng cung cấp thông tin chi tiết về YOLOv8 , YOLOv5 được sử dụng rộng rãi và các mô hình chuyên biệt như YOLO -World cho các ứng dụng phát hiện từ vựng mở. Cuối cùng, việc ưu tiên tính ổn định đã được chứng minh của... YOLO11 hoặc những cải tiến đột phá của YOLO26, Ultralytics Hệ sinh thái này cung cấp các công cụ vượt trội để hiện thực hóa các giải pháp thị giác máy tính của bạn.

YOLO11 vs RTDETRv2: So sánh sự tiến hóa của CNN và Vision Transformers

YOLO11 Tiêu chuẩn cho tính linh hoạt trong thế giới thực

Kiến trúc và Điểm mạnh

RTDETRv2: Bộ chuyển đổi thời gian thực của Baidu

Kiến trúc và Điểm mạnh

Phân tích hiệu suất và số liệu

Phân tích kết quả

Hệ sinh thái Huấn luyện và Khả năng Sử dụng

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn YOLO11

Khi nào nên lựa chọn RT-DETR

Khi nào nên lựa chọn Ultralytics (YOLO26)

Nhìn về phía trước: Sức mạnh của YOLO26

Bình luận