RTDETRv2 so với YOLOv8 : So sánh kỹ thuật

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng cho sự thành công của dự án. Hai triết lý kiến trúc riêng biệt hiện đang thống trị lĩnh vực này: phương pháp tiếp cận dựa trên bộ biến đổi được thể hiện qua RTDETRv2 và thiết kế Mạng Nơ-ron Tích chập (CNN) được tối ưu hóa cao, minh họa bởi Ultralytics YOLOv8 .

Trong khi RTDETRv2 đẩy mạnh ranh giới của độ chính xác bằng cách sử dụng máy biến áp thị giác, YOLOv8 Tinh chỉnh sự cân bằng giữa tốc độ, độ chính xác và khả năng triển khai dễ dàng. Bài so sánh này khám phá các thông số kỹ thuật, sự khác biệt về kiến trúc và các chỉ số hiệu suất thực tế để giúp các nhà phát triển và nhà nghiên cứu lựa chọn giải pháp tối ưu cho ứng dụng của họ.

Chỉ số hiệu suất: Tốc độ, Độ chính xác và Hiệu quả

Bối cảnh hiệu suất làm nổi bật một sự đánh đổi rõ rệt. RTDETRv2 tập trung vào việc tối đa hóa Độ chính xác trung bình ( mAP ) thông qua các cơ chế chú ý phức tạp, trong khi YOLOv8 ưu tiên sự cân bằng linh hoạt giữa tốc độ suy luận thời gian thực và độ chính xác cao phù hợp cho việc triển khai trên nền tảng biên và đám mây.

Mô hình	Kích thước ^(pixels)	mAP ^{giá trị 50-95}	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Phân tích kết quả

Dữ liệu tiết lộ một số thông tin chi tiết quan trọng cho các chiến lược triển khai:

Hiệu quả tính toán: YOLOv8 chứng minh hiệu quả vượt trội. Ví dụ, YOLOv8l đạt được độ chính xác gần như tương đương (52,9 mAP ) với RTDETRv2-l (53,4 mAP ) trong khi hoạt động với tốc độ suy luận nhanh hơn trên GPU .
Hiệu suất CPU : YOLOv8 cung cấp hiệu suất mạnh mẽ, được ghi nhận trên CPU phần cứng, khiến nó trở thành lựa chọn thiết thực cho các thiết bị AI biên không có bộ tăng tốc chuyên dụng. Điểm chuẩn RTDETRv2 cho CPU thường không khả dụng do chi phí tính toán của các lớp máy biến áp rất lớn.
Hiệu suất tham số: YOLOv8 các mô hình luôn yêu cầu ít tham số và phép toán dấu chấm động (FLOP) hơn để đạt được kết quả cạnh tranh, chuyển trực tiếp sang mức tiêu thụ bộ nhớ thấp hơn và thời gian đào tạo nhanh hơn.

Cân nhắc về phần cứng

Nếu mục tiêu triển khai của bạn liên quan đến CPU tiêu chuẩn (như Intel bộ xử lý) hoặc các thiết bị nhúng (như Raspberry Pi), kiến trúc dựa trên CNN của YOLOv8 mang lại lợi thế đáng kể về độ trễ so với các hoạt động đòi hỏi nhiều máy biến áp của RTDETRv2.

RTDETRv2: Phát hiện theo thời gian thực với Transformers

RTDETRv2 (Real-Time Detection Transformer v2) đại diện cho sự phát triển liên tục của việc ứng dụng Vision Transformers (ViT) vào phát hiện đối tượng. Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 nhằm mục đích giải quyết các vấn đề về độ trễ thường gặp ở các mô hình dựa trên DETR, đồng thời vẫn duy trì khả năng hiểu bối cảnh toàn cục của chúng.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 24/07/2024 (phát hành phiên bản v2)
Arxiv: https://arxiv.org/abs/2304.08069
GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch

Kiến trúc

RTDETRv2 sử dụng kiến trúc lai kết hợp xương sống (thường là một mạng lưới CNN như ResNet) với bộ mã hóa-giải mã biến áp hiệu quả. Một tính năng quan trọng là tách biệt tương tác nội tỷ lệ và hợp nhất tỷ lệ chéo, giúp mô hình nắm bắt các mối quan hệ phụ thuộc tầm xa trên toàn bộ hình ảnh. Điều này cho phép mô hình "chăm sóc" đồng thời các phần khác nhau của một cảnh, có khả năng cải thiện hiệu suất trong môi trường phức tạp.

Điểm mạnh và Điểm yếu

Điểm mạnh chính của RTDETRv2 nằm ở độ chính xác cao trên các tập dữ liệu phức tạp, nơi bối cảnh toàn cục đóng vai trò then chốt. Bằng cách tránh sử dụng hộp neo để ưu tiên truy vấn đối tượng, nó đơn giản hóa quy trình hậu xử lý bằng cách loại bỏ nhu cầu sử dụng Non-Maximum Suppression ( NMS ).

Tuy nhiên, những lợi ích này cũng có cái giá của nó:

Cường độ tài nguyên: Mô hình yêu cầu nhiều hơn đáng kể GPU bộ nhớ để đào tạo so với CNN.
Hội tụ chậm hơn: Các mô hình dựa trên bộ biến đổi thường mất nhiều thời gian hơn để đào tạo để hội tụ.
Tính linh hoạt hạn chế: Chủ yếu được thiết kế để phát hiện hộp giới hạn, thiếu hỗ trợ gốc cho phân đoạn hoặc ước tính tư thế.

Tìm hiểu thêm về RTDETRv2

Ultralytics YOLOv8 : Tốc độ, Tính linh hoạt và Hệ sinh thái

Ultralytics YOLOv8 là một mô hình detect đối tượng không neo hiện đại, đặt ra tiêu chuẩn về tính linh hoạt và dễ sử dụng trong ngành. Nó được xây dựng dựa trên di sản của họ YOLO, giới thiệu những cải tiến về kiến trúc giúp tăng hiệu suất trong khi vẫn duy trì tốc độ thời gian thực đã làm nên tên tuổi của YOLO.

Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolov8 /

Kiến trúc

YOLOv8 bao gồm xương sống Darknet CSP (Cross Stage Partial) và cổ PANet (Path Aggregation Network), kết thúc bằng một đầu phát hiện tách rời. Kiến trúc này không có điểm neo, nghĩa là nó dự đoán trực tiếp tâm đối tượng, giúp đơn giản hóa thiết kế và cải thiện khả năng khái quát hóa. Mô hình được tối ưu hóa cao cho các đơn vị xử lý tensor và GPU, đảm bảo thông lượng tối đa.

Lợi ích chính cho nhà phát triển

Dễ sử dụng: Với API Pythonic và mạnh mẽ CLI Người dùng có thể đào tạo và triển khai mô hình chỉ với vài dòng mã. Tài liệu hướng dẫn toàn diện giúp giảm thiểu rào cản tiếp cận cho cả người mới bắt đầu và chuyên gia.
Hệ sinh thái được duy trì tốt: Được hỗ trợ bởi Ultralytics , YOLOv8 được hưởng lợi từ các bản cập nhật thường xuyên, hỗ trợ của cộng đồng và tích hợp liền mạch với các công cụ như TensorBoard và MLFlow .
Tính linh hoạt: Không giống như RTDETRv2, YOLOv8 hỗ trợ nhiều tác vụ ngay lập tức, bao gồm phân đoạn trường hợp , ước tính tư thế , phân loại và phát hiện đối tượng theo hướng (OBB) .
Hiệu quả đào tạo: Mô hình được thiết kế để đào tạo nhanh chóng với mức độ thấp hơn CUDA yêu cầu về bộ nhớ, giúp các nhà nghiên cứu có ngân sách phần cứng hạn chế có thể tiếp cận được.

Tìm hiểu thêm về YOLOv8

Đi sâu: Kiến trúc và các trường hợp sử dụng

Sự lựa chọn giữa hai mô hình này thường phụ thuộc vào các yêu cầu cụ thể của môi trường ứng dụng.

Triết lý kiến trúc

YOLOv8 dựa trên Mạng Nơ-ron Tích chập (CNN) , vốn nổi trội trong việc xử lý các đặc điểm cục bộ và hệ thống phân cấp không gian một cách hiệu quả. Điều này giúp chúng nhanh hơn và ít ngốn bộ nhớ hơn. Việc RTDETRv2 dựa vào Transformers cho phép nó mô hình hóa các mối quan hệ toàn cục một cách hiệu quả, nhưng lại tạo ra độ phức tạp bậc hai về kích thước ảnh, dẫn đến độ trễ và mức sử dụng bộ nhớ cao hơn, đặc biệt là ở độ phân giải cao.

Các trường hợp sử dụng lý tưởng

Chọn YOLOv8 khi:

Hiệu suất thời gian thực rất quan trọng: Các ứng dụng như lái xe tự động, phân tích video và kiểm soát chất lượng sản xuất yêu cầu độ trễ thấp.
Phần cứng bị hạn chế: Triển khai trên NVIDIA Jetson , Raspberry Pi hoặc thiết bị di động một cách liền mạch với YOLOv8 .
Cần phải thực hiện nhiều tác vụ: Nếu dự án của bạn yêu cầu phân đoạn đối tượng hoặc theo dõi các điểm chính cùng với phát hiện, YOLOv8 cung cấp một khuôn khổ thống nhất.
Chu kỳ phát triển nhanh chóng: Hệ sinh thái Ultralytics đẩy nhanh quá trình gắn nhãn dữ liệu, đào tạo và triển khai.

Chọn RTDETRv2 khi:

Độ chính xác tối đa là thước đo duy nhất: Dành cho các chuẩn mực học thuật hoặc các tình huống mà khả năng tính toán vô hạn có sẵn và mọi phần của mAP đếm.
Sự che khuất phức tạp: Trong các cảnh có độ phức tạp cao, nơi việc hiểu mối quan hệ giữa các điểm ảnh ở xa là rất quan trọng, cơ chế chú ý toàn cục có thể mang lại một chút lợi thế.

Tóm tắt so sánh

Trong khi RTDETRv2 là một bước tiến học thuật thú vị trong việc ứng dụng bộ biến đổi vào phát hiện, YOLOv8 vẫn là lựa chọn vượt trội cho hầu hết các ứng dụng thực tế. Sự cân bằng giữa tốc độ, độ chính xác và hiệu quả của nó là vô song. Hơn nữa, khả năng thực hiện nhiều tác vụ thị giác máy tính trong một thư viện thân thiện với người dùng khiến nó trở thành một công cụ đa năng cho phát triển AI hiện đại.

Đối với các nhà phát triển đang tìm kiếm những tính năng và hiệu suất mới nhất, việc hướng tới các phiên bản mới hơn như YOLO11 mang lại hiệu quả và độ chính xác cao hơn nữa so với cả hai YOLOv8 và RTDETRv2.

Ví dụ về mã: Bắt đầu với YOLOv8

Tích hợp YOLOv8 vào quy trình làm việc của bạn rất đơn giản. Dưới đây là Python ví dụ minh họa cách tải mô hình được đào tạo trước, chạy suy luận và xuất mô hình đó để triển khai.

from ultralytics import YOLO

# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
success = model.export(format="onnx")

Khám phá các Mô hình Khác

Để có góc nhìn rộng hơn về kiến trúc phát hiện đối tượng, hãy xem xét khám phá những so sánh liên quan sau:

RTDETRv2 so với YOLOv8 : So sánh kỹ thuật

Chỉ số hiệu suất: Tốc độ, Độ chính xác và Hiệu quả

Phân tích kết quả

RTDETRv2: Phát hiện theo thời gian thực với Transformers

Kiến trúc

Điểm mạnh và Điểm yếu

Ultralytics YOLOv8 : Tốc độ, Tính linh hoạt và Hệ sinh thái

Kiến trúc

Lợi ích chính cho nhà phát triển

Đi sâu: Kiến trúc và các trường hợp sử dụng

Triết lý kiến trúc

Các trường hợp sử dụng lý tưởng

Tóm tắt so sánh

Ví dụ về mã: Bắt đầu với YOLOv8

Khám phá các Mô hình Khác

Bình luận