Chuyển đến nội dung

RTDETRv2 so với... YOLO11 Khám phá chuyên sâu về các kiến ​​trúc phát hiện đối tượng trong thời gian thực

Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến ​​trúc mới liên tục mở rộng giới hạn của những gì có thể thực hiện được trên các thiết bị biên và máy chủ đám mây. Hai trong số những ứng cử viên nổi bật nhất trong lĩnh vực phát hiện đối tượng thời gian thực hiện nay là RTDETRv2YOLO11 . Mặc dù cả hai mô hình đều mang lại hiệu suất vượt trội, nhưng chúng đại diện cho những triết lý kiến ​​trúc khác biệt về cơ bản: phương pháp dựa trên Transformer so với Mạng nơron tích chập (CNN) được tối ưu hóa cao.

Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ cùng tìm hiểu về kiến ​​trúc, các chỉ số hiệu suất, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng cho cả hai mô hình, giúp bạn đưa ra quyết định sáng suốt cho ứng dụng trí tuệ nhân tạo tiếp theo của mình.

RTDETRv2: Kẻ thách thức dựa trên công nghệ Transformer

Được giới thiệu như một sự phát triển của Real-Time Detection Transformer ban đầu, RTDETRv2 tận dụng các cơ chế chú ý để xử lý dữ liệu hình ảnh. Bằng cách coi các mảng ảnh như các chuỗi, nó đạt được sự hiểu biết toàn cục về ngữ cảnh hình ảnh, điều này rất có lợi cho việc phát hiện các đối tượng chồng chéo nhiều trong các cảnh phức tạp.

Thông tin chi tiết về mẫu sản phẩm:

Điểm mạnh và điểm yếu về kiến ​​trúc

Điểm đột phá chính của RTDETRv2 là khả năng vận hành toàn diện từ đầu đến cuối. NMS - kiến ​​trúc không có. Bằng cách loại bỏ Non-Maximum Suppression ( NMS Điều này giúp đơn giản hóa quy trình xử lý hậu kỳ. Hơn nữa, khả năng trích xuất đặc trưng đa tỷ lệ của nó đã được cải thiện so với mô hình RT-DETR gốc, cho phép nó nhận diện tốt hơn các đối tượng có kích thước khác nhau.

Tuy nhiên, do dựa trên kiến ​​trúc Transformer, RTDETRv2 thường có yêu cầu bộ nhớ cao hơn đáng kể trong quá trình huấn luyện. Transformer thường hội tụ chậm hơn và đòi hỏi nhiều tài nguyên hơn đáng kể. CUDA So với các mạng CNN truyền thống, chúng có bộ nhớ lớn hơn, khiến chúng khó tiếp cận hơn đối với các nhà nghiên cứu sử dụng phần cứng cấp người tiêu dùng hoặc triển khai trong môi trường AI biên có hạn chế về bộ nhớ.

Tìm hiểu thêm về RTDETR

Ultralytics YOLO11 Đỉnh cao về hiệu quả của CNN

Dựa trên nhiều năm nghiên cứu nền tảng, Ultralytics phát hành YOLO11 như một bước tiến vượt bậc trong YOLO Nó tinh chỉnh kiến ​​trúc CNN để đạt được tốc độ và độ chính xác chưa từng có, đồng thời duy trì tính linh hoạt và hệ sinh thái thân thiện với nhà phát triển mà cộng đồng mong đợi.

Thông tin chi tiết về mẫu sản phẩm:

Lợi thế của Ultralytics

YOLO11 Nó nổi bật ở khả năng cân bằng hiệu năng . Nó đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến nó trở nên cực kỳ linh hoạt cho nhiều kịch bản triển khai thực tế khác nhau, từ các cụm điện toán đám mây khổng lồ đến các thiết bị di động nhẹ.

Hơn thế nữa, Ultralytics YOLO Các mô hình này nổi tiếng với việc sử dụng ít bộ nhớ hơn trong quá trình huấn luyện và suy luận. Không giống như các mô hình Transformer có thể dễ dàng làm cạn kiệt VRAM, YOLO11 Cho phép xử lý theo lô lớn hơn trên các GPU tiêu chuẩn. Hơn nữa, YOLO11 Không chỉ giới hạn ở việc phát hiện đối tượng đơn thuần; nó còn sở hữu tính linh hoạt đáng kinh ngạc, với hỗ trợ gốc cho Phân đoạn đối tượng , Phân loại hình ảnh , Ước tính tư thếHộp giới hạn định hướng (OBB) .

Tìm hiểu thêm về YOLO11

So sánh hiệu năng và số liệu

Khi so sánh các số liệu thô, rõ ràng là mặc dù RTDETRv2 đạt được độ chính xác ấn tượng, YOLO11 Cung cấp nhiều lựa chọn kích thước mô hình chi tiết hơn với tốc độ suy luận vượt trội, đặc biệt là trên... TensorRT .

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Như thể hiện trong bảng, mẫu YOLO11x đạt được hiệu suất vượt trội. mAP đạt hiệu suất 54,7% trong khi sử dụng ít phép tính FLOP hơn (194,9 tỷ so với 259 tỷ) và mang lại khả năng suy luận nhanh hơn. TensorRT (11,3ms so với 15,03ms) so với biến thể RTDETRv2-x. Các nano và nhỏ YOLO11 Các biến thể này cung cấp các tùy chọn nhẹ nhàng chưa từng có cho các thiết bị có tài nguyên hạn chế như Raspberry Pi .

Hệ sinh thái, tính dễ sử dụng và đào tạo

Đặc điểm xác định của Ultralytics Mô hình này mang lại trải nghiệm người dùng được tối ưu hóa. ultralytics Python Gói này cung cấp một API thống nhất, trực quan, giúp xử lý các tác vụ phức tạp. tăng cường dữ liệu, huấn luyện phân tán và xuất mô hình. Mặc dù kho lưu trữ nghiên cứu của RTDETRv2 yêu cầu khá nhiều mã mẫu và cấu hình, Ultralytics Cung cấp một lộ trình "từ con số không đến người hùng".

Điều thú vị là, Ultralytics Hệ sinh thái mạnh mẽ đến mức nó hỗ trợ chạy một cách tự nhiên. RT-DETR các mô hình cùng với YOLO các mô hình! Điều này cho phép bạn tận dụng Hệ sinh thái được duy trì tốt của Ultralytics —bao gồm cả việc tích hợp với Weights & BiasesComet ML —để theo dõi các thử nghiệm một cách dễ dàng.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")

Tối ưu hóa quy trình làm việc của bạn

Hiệu quả huấn luyện là yếu tố tối quan trọng trong học máy. Ultralytics Các mô hình sử dụng trọng số được huấn luyện trước, hội tụ nhanh chóng. Để quản lý tập dữ liệu, các lần chạy huấn luyện và điểm cuối triển khai mà không cần viết mã, hãy khám phá Nền tảng Ultralytics để có trải nghiệm MLOps tích hợp.

Các ứng dụng thực tế

Việc lựa chọn giữa các kiến ​​trúc này thường phụ thuộc vào các ràng buộc triển khai cụ thể của dự án của bạn.

Ưu điểm vượt trội của RTDETRv2: Kiến trúc Transformer của RTDETRv2 rất hiệu quả trong các tình huống có nhiều vật thể dày đặc, bị che khuất mạnh, nơi cần đến ngữ cảnh toàn cục. Nó thường được đánh giá trong các nghiên cứu học thuật và các ứng dụng mà ngân sách tính toán không phải là mối quan tâm hàng đầu so với việc lập bản đồ mối quan hệ dựa trên cơ chế chú ý đơn thuần.

Nơi YOLO11 thống trị: YOLO11 Đây là nhà vô địch không thể tranh cãi về khả năng triển khai thực tế. Với dung lượng bộ nhớ tối thiểu và tốc độ suy luận cực nhanh, nó là lý tưởng cho:

  • Sản xuất thông minh : Phát hiện lỗi theo thời gian thực trên dây chuyền sản xuất bằng máy tính công nghiệp.
  • Nông nghiệp : Ứng dụng máy bay không người lái để giám sát sức khỏe cây trồng theo thời gian thực và robot thu hoạch tự động.
  • Phân tích dữ liệu bán lẻ : Xử lý đồng thời nhiều luồng video từ camera để quản lý hàng đợi và theo dõi tồn kho mà không cần đến các trung tâm máy chủ khổng lồ.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa RT-DETR Và YOLO11 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLO11

YOLO11 Được khuyến nghị cho:

  • Triển khai tại biên môi trường sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson , nơi độ tin cậy và bảo trì thường xuyên là yếu tố tối quan trọng.
  • Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu phát hiện , phân đoạn , ước lượng tư thếOBB trong một khung thống nhất duy nhất.
  • Tạo mẫu và triển khai nhanh chóng: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Hướng tới tương lai: Sự ra mắt của YOLO26

Nếu bạn đang bắt đầu một dự án mới, bạn cũng nên xem xét thế hệ AI thị giác tiếp theo: Ultralytics YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 kết hợp những ưu điểm tốt nhất của cả hai thế giới. Nó giới thiệu thiết kế không cần NMS từ đầu đến cuối (lần đầu tiên được tiên phong trong YOLOv10 ), loại bỏ hoàn toàn độ trễ xử lý hậu kỳ giống như RTDETRv2, nhưng với tốc độ vượt trội của mạng nơ-ron tích chập (CNN).

YOLO26 tích hợp bộ tối ưu hóa MuSGD —lấy cảm hứng từ những cải tiến trong huấn luyện LLM—giúp hội tụ cực kỳ ổn định và nhanh chóng, đồng thời mang lại khả năng suy luận CPU nhanh hơn tới 43% nhờ loại bỏ hàm mất mát Distribution Focal Loss (DFL). Với các hàm mất mát chuyên dụng ProgLoss + STAL giúp cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, YOLO26 là sự lựa chọn tối ưu cho bất kỳ quy trình xử lý hình ảnh máy tính hiện đại nào.

Cho dù bạn lựa chọn YOLO11 Với tính linh hoạt đã được chứng minh, RTDETRv2 với cơ chế chú ý, hoặc YOLO26 tiên tiến cho hiệu năng tối ưu trên thiết bị biên, tài liệu Ultralytics cung cấp tất cả các nguồn lực cần thiết để thành công trong hành trình thị giác máy tính của bạn.


Bình luận