Chuyển đến nội dung

DAMO- YOLO so với RTDETRv2: Kiến trúc cho phát hiện thời gian thực

Việc lựa chọn kiến ​​trúc phát hiện đối tượng tối ưu là một quyết định then chốt, ảnh hưởng đến mọi thứ từ độ trễ suy luận đến chi phí triển khai. Hai mô hình đột phá đã thách thức hiện trạng là DAMO- YOLO của Alibaba và RTDETRv2 của Baidu. Trong khi DAMO- YOLO Tập trung vào Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) và tái tham số hóa hiệu quả, RTDETRv2 đẩy mạnh giới hạn của các bộ chuyển đổi thời gian thực bằng cách tinh chỉnh mô hình DETR.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về kiến ​​trúc, số liệu hiệu năng và phương pháp huấn luyện của các mô hình để giúp bạn xác định mô hình nào phù hợp với yêu cầu thị giác máy tính cụ thể của mình. Chúng tôi cũng sẽ tìm hiểu cách Ultralytics YOLO26 thế hệ tiếp theo tổng hợp những ưu điểm tốt nhất của các phương pháp này thành một khung thống nhất, dễ sử dụng.

Tổng quan về DAMO-YOLO

DAMO- YOLO (Kiến trúc mạng nơ-ron được tăng cường bằng phương pháp chưng cất và tối ưu hóa tìm kiếm) YOLO (Phần mềm này được Tập đoàn Alibaba phát triển để đáp ứng nhu cầu cụ thể của các ứng dụng công nghiệp, nơi độ trễ thấp và độ chính xác cao là điều không thể thiếu. Nó giới thiệu một bộ công nghệ được thiết kế để nén mô hình mà không làm giảm hiệu suất.)

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23 tháng 11 năm 2022
Arxiv:Bài báo DAMO-YOLO
GitHub:tinyvision/DAMO-YOLO

Tìm hiểu thêm về YOLO26

Các Đổi Mới Kiến Trúc Chính

DAMO- YOLO Nổi bật nhờ một số "gói quà tặng miễn phí" được thiết kế để tối ưu hiệu quả:

  • Tìm kiếm kiến ​​trúc mạng nơ-ron (NAS): Không giống như các mô hình có cấu trúc xương sống được thiết kế thủ công, DAMO- YOLO Sử dụng NAS để tự động tìm ra cấu trúc hiệu quả nhất cho hệ thống xương sống (MAE-NAS), tối ưu hóa sự cân bằng giữa số phép toán dấu phẩy động (FLOPs) và độ chính xác.
  • RepGFPN hiệu quả: Nó sử dụng Mạng Kim tự tháp Đặc trưng tổng quát (RepGFPN) tận dụng khả năng tái tham số hóa. Điều này cho phép các cấu trúc phức tạp được sử dụng trong quá trình huấn luyện được kết hợp thành các phép tích chập đơn giản hơn, nhanh hơn trong quá trình suy luận.
  • ZeroHead: Một đầu phát hiện nhẹ giúp giảm thiểu gánh nặng tính toán thường liên quan đến các lớp dự đoán cuối cùng.
  • AlignedOTA: Một chiến lược gán nhãn tối ưu hóa giúp giải quyết các vấn đề sai lệch giữa nhiệm vụ phân loại và hồi quy trong quá trình huấn luyện.

Tổng quan về RTDETRv2

RTDETRv2 (Real-Time Detection Transformer v2) được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR , bộ dò dựa trên máy biến áp đầu tiên thực sự có thể cạnh tranh YOLO các mô hình về tốc độ. Được phát triển bởi Baidu, nó nhằm mục đích loại bỏ nhu cầu xử lý hậu kỳ bằng phương pháp loại bỏ cực đại không cần thiết (Non-Maximum Suppression - NMS ) đồng thời cải thiện tốc độ hội tụ và tính linh hoạt.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17 tháng 4 năm 2023 (phiên bản 1), tháng 7 năm 2024 (phiên bản 2)
Arxiv: Bài báo RT-DETRv2
GitHub: lyuwenyu/ RT-DETR

Tìm hiểu thêm về RT-DETR

Các Đổi Mới Kiến Trúc Chính

RTDETRv2 tinh chỉnh kiến ​​trúc bộ chuyển đổi cho các tác vụ thị giác thực tế:

  • Bộ mã hóa lai: Nó kết hợp mạng nơ-ron tích chập (CNN) với bộ mã hóa lai hiệu quả, tách biệt tương tác nội thang đo và hợp nhất liên thang đo, giải quyết chi phí tính toán cao của các cơ chế tự chú ý tiêu chuẩn.
  • Lựa chọn truy vấn nhận biết IoU : Cơ chế này chọn các truy vấn đối tượng ban đầu chất lượng cao dựa trên Giao điểm trên Hợp nhất (Intersection over Union) ( IoU điểm số ) dẫn đến sự hội tụ huấn luyện nhanh hơn.
  • Triển khai linh hoạt: Không giống như phiên bản tiền nhiệm, RTDETRv2 hỗ trợ các dạng đầu vào linh hoạt và tối ưu hóa được cải tiến cho TensorRT , giúp nó khả thi hơn với nhiều nền tảng phần cứng khác nhau.
  • NMS - Miễn phí: Bằng cách dự đoán trực tiếp một tập hợp các đối tượng, nó loại bỏ sự biến đổi độ trễ gây ra bởi NMS , một lợi thế quan trọng cho việc phân tích video thời gian thực.

So sánh hiệu suất

Khi so sánh các kiến ​​trúc này, điều quan trọng là phải xem xét sự cân bằng giữa độ chính xác trung bình ( mAP ) và tốc độ suy luận trên các cấu hình phần cứng khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Phân tích

  • Độ chính xác: RTDETRv2 thường đạt độ chính xác cao hơn. mAP điểm số, đặc biệt là ở các biến thể cỡ trung bình và lớn. Mô hình "X" đạt được mAP ấn tượng 54,3% , vượt trội hơn cả DAMO lớn nhất. YOLO Biến thể này làm cho nó phù hợp với các ứng dụng yêu cầu phát hiện độ chính xác cao, chẳng hạn như hình ảnh y tế hoặc phát hiện khuyết tật.
  • Tốc độ: DAMO- YOLO Nó vượt trội về hiệu suất xử lý thô trên phần cứng được tối ưu hóa cho TensorRT . Kiến trúc CNN được tham số hóa lại của nó vốn dĩ thân thiện với phần cứng hơn so với các khối transformer trong RTDETRv2, dẫn đến độ trễ thấp hơn cho các biến thể "Tiny" và "Small".
  • Hiệu quả tham số: DAMO- YOLO Nó thường có ít tham số hơn cho các cấp hiệu năng tương tự, điều này có thể có lợi cho các thiết bị biên có dung lượng lưu trữ hạn chế.

Lợi thế của Ultralytics: Tại sao chọn YOLO26?

Trong khi DAMO- YOLO Mặc dù RTDETRv2 cung cấp những thế mạnh chuyên biệt, các nhà phát triển thường gặp khó khăn với các quy trình huấn luyện phức tạp, hỗ trợ nền tảng hạn chế và tài liệu rời rạc. Ultralytics YOLO26 giải quyết những vấn đề này bằng cách tích hợp các cải tiến hiện đại vào một hệ sinh thái liền mạch, lấy người dùng làm trung tâm.

Sự xuất sắc toàn diện

YOLO26 kết hợp tốc độ của mạng CNN với sự đơn giản từ đầu đến cuối của mô hình Transformer, mang đến một giải pháp tối ưu. NMS - Thiết kế đơn giản, không cần cấu hình phức tạp, giúp dễ dàng triển khai đồng thời vượt trội hơn các thế hệ trước về cả hiệu năng và khả năng tương thích. CPU Và GPU môi trường.

1. Trải nghiệm người dùng và hệ sinh thái vượt trội

Đặc điểm nổi bật của Ultralytics mô hình là dễ sử dụngTrong khi các kho lưu trữ nghiên cứu thường yêu cầu thiết lập môi trường phức tạp, YOLO26 có thể được cài đặt và chạy chỉ trong vài giây thông qua... ultralytics gói. Cái Nền tảng Ultralytics Nền tảng này còn nâng cao khả năng đó hơn nữa bằng cách cung cấp quản lý tập dữ liệu dựa trên web, đào tạo chỉ với một cú nhấp chuột và triển khai tự động.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. Từ đầu đến cuối NMS - Kiến trúc tự do

YOLO26 áp dụng thiết kế không cần NMS (Non-Maximum Suppression) từ đầu đến cuối , một tính năng mà nó chia sẻ với RTDETRv2 nhưng được triển khai trong một khung CNN được tối ưu hóa cao. Bước đột phá này loại bỏ nhu cầu về Non-Maximum Suppression , một nút thắt cổ chai phổ biến trong các quy trình triển khai. Bằng cách loại bỏ NMS YOLO26 đảm bảo thời gian suy luận nhất quán và đơn giản hóa việc tích hợp với các công cụ như OpenVINO và CoreML .

3. Hiệu quả và tính ổn định của quá trình đào tạo

YOLO26 giới thiệu MuSGD Optimizer , một công cụ lai ghép của... SGD và Muon (lấy cảm hứng từ quá trình huấn luyện LLM), mang lại sự ổn định chưa từng có cho các tác vụ thị giác. Điều này cho phép hội tụ nhanh hơn và giảm thiểu việc tinh chỉnh siêu tham số so với các lịch trình phức tạp thường được yêu cầu bởi các mô hình dựa trên transformer như RTDETRv2.

4. Tối ưu hóa theo cạnh

Dành cho các nhà phát triển triển khai trên các thiết bị biên như Raspberry Pi hoặc NVIDIA Với Jetson, YOLO26 cung cấp khả năng suy luận CPU nhanh hơn tới 43% . Việc loại bỏ Distribution Focal Loss (DFL) giúp đơn giản hóa hơn nữa đồ thị mô hình để xuất khẩu, đảm bảo khả năng tương thích tốt hơn với các bộ tăng tốc công suất thấp so với các cơ chế chú ý nặng về tính toán trong Transformer.

5. Tính linh hoạt trong nhiều nhiệm vụ

Không giống như nhiều bộ dò chuyên dụng khác, YOLO26 là một bộ dò đa nhiệm thực sự. Nó hỗ trợ phát hiện đối tượng , phân đoạn đối tượng , ước lượng tư thế , phân loại và các tác vụ Hộp giới hạn định hướng (OBB) trong cùng một mã nguồn.

Đề xuất Trường hợp Sử dụng

  • Hãy chọn DAMO- YOLO nếu: Bạn đang làm việc chuyên về các nhiệm vụ kiểm tra công nghiệp, trong đó TensorRT tối ưu hóa trên các yếu tố cụ thể NVIDIA Phần cứng là mục tiêu triển khai duy nhất và bạn cần độ trễ thấp nhất tuyệt đối cho các tác vụ phát hiện đơn giản.
  • Chọn RTDETRv2 nếu: Bạn cần phát hiện độ chính xác cao cho các cảnh phức tạp có vật cản và có quyền truy cập vào GPU mạnh mẽ, nơi chi phí tính toán của bộ chuyển đổi là chấp nhận được. Đây cũng là một lựa chọn mạnh mẽ nếu: NMS - Suy luận không phụ thuộc vào ngôn ngữ là một yêu cầu bắt buộc, nhưng bạn lại ưa thích kiến ​​trúc Transformer.
  • Hãy chọn Ultralytics YOLO26 nếu: Bạn muốn hiệu năng toàn diện tốt nhất với độ chính xác hàng đầu. NMS - Tốc độ nhanh và khả năng triển khai dễ dàng trên nhiều hệ thống. CPU , GPU và các thiết bị di động. Tài liệu đầy đủ, sự hỗ trợ tích cực từ cộng đồng và khả năng tích hợp với Nền tảng Ultralytics khiến nó trở thành lựa chọn có khả năng đáp ứng nhu cầu trong tương lai nhất cho các hệ thống sản xuất.

Kết luận

Lĩnh vực phát hiện đối tượng rất đa dạng với nhiều lựa chọn. DAMO- YOLO thể hiện sức mạnh của Tìm kiếm Kiến trúc Mạng thần kinh (Neural Architecture Search) về hiệu quả, trong khi RTDETRv2 cho thấy tiềm năng của các bộ chuyển đổi thời gian thực. Tuy nhiên, Ultralytics YOLO26 nổi bật nhờ sự tổng hợp những tiến bộ này—mang đến… NMS Suy luận không cần tài nguyên, tốc độ tối ưu hóa tại biên và tính ổn định huấn luyện lấy cảm hứng từ LLM—tất cả được gói gọn trong hệ sinh thái thân thiện nhất với nhà phát triển trong ngành.

Đối với những ai sẵn sàng bắt đầu dự án tiếp theo, việc tìm hiểu tài liệu YOLO26 là bước đầu tiên được khuyến nghị để đạt được kết quả tiên tiến nhất với ít khó khăn nhất.

Đọc thêm


Bình luận