Chuyển đến nội dung

YOLOv10 So với RTDETRv2: Đánh giá các bộ dò đối tượng đầu cuối theo thời gian thực

Lĩnh vực thị giác máy tính đang phát triển với tốc độ chóng mặt, với các kiến ​​trúc mới liên tục định nghĩa lại tiêu chuẩn hiện đại trong phát hiện đối tượng thời gian thực. Hai cột mốc quan trọng trong quá trình tiến hóa này là YOLOv10 và RTDETRv2. Cả hai mô hình đều nhằm giải quyết nút thắt cổ chai cơ bản trong các quy trình phát hiện truyền thống bằng cách loại bỏ nhu cầu về loại bỏ cực đại không cần thiết (Non-Maximum Suppression). NMS (Xử lý hậu kỳ), nhưng họ tiếp cận thách thức này từ những mô hình kiến ​​trúc hoàn toàn khác nhau.

Bản so sánh kỹ thuật này cung cấp phân tích chuyên sâu về kiến ​​trúc, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng, giúp các nhà phát triển và nhà nghiên cứu lựa chọn công cụ phù hợp cho dự án AI thị giác tiếp theo của họ.

YOLOv10 : Cái NMS -Free Pioneer

Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 Tập trung mạnh vào hiệu quả kiến ​​trúc và loại bỏ các điểm nghẽn trong quá trình xử lý hậu kỳ. Bằng cách giới thiệu các phép gán kép nhất quán cho NMS - Không cần huấn luyện, nó đạt được hiệu suất cạnh tranh đồng thời giảm đáng kể độ trễ suy luận.

Thông số kỹ thuật

Kiến trúc và Phương pháp luận

YOLOv10 Điểm đột phá chính của mô hình này là thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác. Nó tối ưu hóa nhiều thành phần từ cả hai khía cạnh, giúp giảm đáng kể chi phí tính toán. Chiến lược phân công kép nhất quán cho phép mô hình được huấn luyện mà không cần dựa vào... NMS Điều này dẫn đến một quy trình triển khai liền mạch, hoàn chỉnh từ đầu đến cuối. Điều này đặc biệt có lợi khi xuất mô hình sang các định dạng biên như ONNX hoặc TensorRT , nơi các thao tác xử lý hậu kỳ có thể gây ra độ trễ không mong muốn.

Điểm mạnh và Điểm yếu

Mẫu sản phẩm này sở hữu sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, đặc biệt là ở các biến thể nhỏ hơn (N và S). Độ trễ tối thiểu của nó làm cho nó trở nên lý tưởng cho môi trường biên tốc độ cao. Tuy nhiên, trong khi YOLOv10 Mặc dù vượt trội về tốc độ phát hiện thô, nó vẫn là một mô hình chuyên dụng chỉ dành cho việc phát hiện. Các nhóm yêu cầu phân đoạn đối tượng hoặc ước tính tư thế sẽ cần tìm đến các khung phần mềm đa năng hơn.

Tìm hiểu thêm về YOLOv10

RTDETRv2: Tinh chỉnh Detection Transformer

Được xây dựng dựa trên mô hình Real-Time Detection Transformer ban đầu, RTDETRv2 tích hợp thêm nhiều tính năng bổ sung để cải thiện hiệu năng cơ bản, chứng minh rằng các mô hình Transformer có thể cạnh tranh với mạng CNN trong các tình huống thời gian thực.

Thông số kỹ thuật

Kiến trúc và Phương pháp luận

RTDETRv2 sử dụng kiến ​​trúc lai, kết hợp mạng nơ-ron tích chập (CNN) làm nền tảng để trích xuất đặc trưng hình ảnh với bộ mã hóa-giải mã Transformer để hiểu toàn diện khung cảnh. Cơ chế tự chú ý của Transformer cho phép mô hình xem hình ảnh một cách tổng thể, giúp xử lý hiệu quả các cảnh phức tạp, các đối tượng chồng chéo và đám đông dày đặc.

Điểm mạnh và Điểm yếu

Kiến trúc biến áp cung cấp độ chính xác tuyệt vời, đặc biệt là ở quy mô tham số lớn hơn, và tự động xuất ra kết quả phát hiện cuối cùng mà không cần... NMS Tuy nhiên, điều này cũng có cái giá của nó. Các mô hình máy biến áp truyền thống thường yêu cầu nhiều năng lượng hơn đáng kể. CUDA RTDETRv2 tiêu tốn nhiều bộ nhớ hơn trong quá trình huấn luyện và có thể hội tụ chậm hơn so với các kiến ​​trúc CNN thuần túy. Mặc dù RTDETRv2 đã cải thiện tốc độ suy luận, nhưng nhìn chung nó tiêu tốn nhiều bộ nhớ hơn so với các kiến ​​trúc nhẹ hơn. YOLO các biến thể.

Tìm hiểu thêm về RTDETRv2

So sánh hiệu suất

Việc đánh giá các chỉ số hiệu suất giúp ta hiểu rõ hơn điểm mạnh của từng mô hình. Bảng sau đây nêu bật khả năng của chúng trên tập dữ liệu COCO :

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Khi phân tích dữ liệu, YOLOv10 duy trì ưu thế vượt trội về hiệu quả tham số và TensorRT Tốc độ suy luận trên các kích thước tương đương. RTDETRv2-x đạt độ chính xác tương đương với YOLOv10x khổng lồ nhưng yêu cầu gần 20 triệu tham số nhiều hơn và số phép tính FLOP cao hơn đáng kể.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv10 Và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

  • NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Cái Ultralytics Ưu điểm: Hệ sinh thái và sự đổi mới

Trong khi YOLOv10 Và RTDETRv2 cung cấp khả năng phát hiện mạnh mẽ, việc lựa chọn mô hình thường phụ thuộc vào hệ sinh thái phần mềm xung quanh. Nền tảng Ultralytics cung cấp giao diện thống nhất, liền mạch, giúp đơn giản hóa các phức tạp của học sâu.

Tiêu chuẩn mới: Ultralytics YOLO26

Đối với các nhà phát triển đang tìm kiếm hiệu năng tốt nhất tuyệt đối, Ultralytics YOLO26 đại diện cho đỉnh cao của những tiến bộ kiến ​​trúc gần đây. Được phát hành vào đầu năm 2026, YOLO26 thừa hưởng thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối do tiên phong. YOLOv10 , loại bỏ hoàn toàn NMS Xử lý hậu kỳ để triển khai nhanh hơn, đơn giản hơn.

Tại sao chọn YOLO26?

YOLO26 mang đến những cải tiến trong đào tạo LLM cho thị giác máy tính thông qua MuSGD Optimizer (một sự kết hợp của...) SGD và Muon), giúp quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn. Nó cũng tự hào có khả năng suy luận CPU nhanh hơn tới 43% , biến nó trở thành lựa chọn hàng đầu cho điện toán biên.

Hơn nữa, YOLO26 giới thiệu ProgLoss + STAL để cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, và không giống như các phần mềm chuyên dụng khác. YOLOv10 Nó mang lại tính linh hoạt cực cao. Nó hỗ trợ nguyên bản việc phát hiện đối tượng , phân đoạn, tư thế và hộp giới hạn định hướng (OBB) với những cải tiến dành riêng cho từng tác vụ như tổn thất phân đoạn ngữ nghĩa và ước lượng logarit khả năng dư (RLE) cho tư thế. Hơn nữa, việc loại bỏ tổn thất tiêu điểm phân phối (DFL) đảm bảo việc xuất dữ liệu đơn giản hơn và khả năng tương thích tốt hơn với các thiết bị tiêu thụ điện năng thấp.

Tìm hiểu thêm về YOLO26

Dễ sử dụng và Hiệu quả huấn luyện

Cho dù bạn đang thử nghiệm với các mẫu thế hệ cũ hơn như Ultralytics YOLO11 hay mẫu tiên tiến nhất YOLO26, quy trình được tối ưu hóa đều rất hiệu quả. Python API đảm bảo mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện và quy trình làm việc cực kỳ nhanh chóng.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

Hệ sinh thái được duy trì tốt này cung cấp các công cụ để dễ dàng điều chỉnh siêu tham số và tích hợp hoàn hảo với các giải pháp theo dõi mở rộng cũng như các tùy chọn triển khai mô hình .

Kết luận

Cả hai YOLOv10 và RTDETRv2 đại diện cho những cột mốc quan trọng trong hành trình tìm kiếm NMS - Phát hiện đối tượng không cần bộ nhớ. RTDETRv2 chứng minh rằng các mô hình Transformer có thể đạt được độ trễ thời gian thực với khả năng hiểu ngữ cảnh toàn cục xuất sắc, mặc dù yêu cầu bộ nhớ cao hơn. YOLOv10 Cung cấp một giải pháp thay thế CNN hiệu quả cao, nhanh chóng, được thiết kế riêng cho các tác vụ phát hiện có tài nguyên hạn chế.

Tuy nhiên, để có hiệu năng cân bằng, khả năng đa nhiệm linh hoạt và hệ sinh thái hoàn thiện nhất, các nhà phát triển nên tận dụng Ultralytics YOLO26 . Nó kết hợp hoàn hảo những cải tiến kiến ​​trúc của các phiên bản tiền nhiệm với bộ công cụ mạnh mẽ, thân thiện với người dùng, giúp việc triển khai trí tuệ nhân tạo thị giác trở nên dễ dàng.


Bình luận