Chuyển đến nội dung

DAMO- YOLO So sánh với EfficientDet: Phân tích chuyên sâu về các kiến ​​trúc phát hiện đối tượng

Việc lựa chọn kiến ​​trúc thị giác máy tính tối ưu là một quyết định then chốt, ảnh hưởng đến mọi thứ từ độ trễ suy luận đến chi phí phần cứng. Trong bài so sánh kỹ thuật này, chúng tôi phân tích hai mô hình có ảnh hưởng: DAMO- YOLO của Alibaba và Google EfficientDet của 's. Trong khi EfficientDet giới thiệu khái niệm về hiệu quả có thể mở rộng, DAMO- YOLO Vượt qua giới hạn về hiệu năng thời gian thực với các kỹ thuật chưng cất tiên tiến.

Hướng dẫn này cung cấp phân tích chuyên sâu về kiến ​​trúc, số liệu hiệu năng và tính phù hợp của chúng cho việc triển khai hiện đại, đồng thời khám phá cách các giải pháp thế hệ tiếp theo như Ultralytics YOLO26 đang thiết lập các tiêu chuẩn mới về tính dễ sử dụng và hiệu quả tại biên mạng.

Tổng quan về DAMO-YOLO

DAMO- YOLO Đây là một khung phần mềm phát hiện đối tượng hiệu năng cao được phát triển bởi Tập đoàn Alibaba. Nó ưu tiên sự cân bằng giữa tốc độ và độ chính xác, tận dụng các công nghệ như Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và tái tham số hóa mạnh mẽ. Được thiết kế chủ yếu cho các ứng dụng công nghiệp, nó nhằm mục đích giảm độ trễ mà không làm giảm chất lượng phát hiện.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Arxiv: Bài báo DAMO- YOLO
GitHub: tinyvision/DAMO- YOLO
Tài liệu: Tài liệu hướng dẫn DAMO- YOLO

Các tính năng kiến trúc chính

  • Cấu trúc xương sống MAE-NAS: Sử dụng thuật toán tìm kiếm kiến ​​trúc mạng nơ-ron dựa trên bộ mã hóa tự động có mặt nạ (MAE) để khám phá các cấu trúc xương sống hiệu quả.
  • RepGFPN hiệu quả: Một thiết kế cổ dày sử dụng phương pháp tái tham số hóa (tương tự như YOLOv6 ) để kết hợp các đặc trưng một cách hiệu quả trong khi vẫn duy trì tốc độ suy luận nhanh.
  • ZeroHead: Một đầu dò nhẹ giúp giảm thiểu chi phí tính toán trong giai đoạn dự đoán cuối cùng.
  • AlignedOTA: Một chiến lược gán nhãn được cải tiến giúp giải quyết các vấn đề không khớp giữa nhiệm vụ phân loại và hồi quy trong quá trình huấn luyện.

Tổng quan về EfficientDet

EfficientDet, được phát triển bởi Google Nhóm nghiên cứu Brain đã giới thiệu một phương pháp tiếp cận có hệ thống để mở rộng mô hình. Bằng cách đồng thời mở rộng kiến ​​trúc mạng xương sống, độ phân giải và độ sâu, EfficientDet đạt được hiệu quả đáng kể. Nó dựa trên kiến ​​trúc mạng xương sống EfficientNet và giới thiệu BiFPN (Mạng kim tự tháp đặc trưng hai chiều) để kết hợp các đặc trưng phức tạp.

Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
Tổ chức: Google Research
Ngày: 20 tháng 11 năm 2019
Arxiv: Bài báo EfficientDet
GitHub: google /automl/efficientdet
Tài liệu: Tệp README của EfficientDet

Các tính năng kiến trúc chính

  • Điều chỉnh tỷ lệ phức hợp: Một phương pháp để điều chỉnh tỷ lệ đồng nhất chiều rộng, chiều sâu và độ phân giải của mạng bằng một hệ số phức hợp đơn giản (phi).
  • BiFPN: Một mạng lưới kim tự tháp đặc trưng hai chiều có trọng số cho phép kết hợp đặc trưng đa tỷ lệ một cách dễ dàng và nhanh chóng.
  • Kiến trúc EfficientNet Backbone: Tận dụng kiến ​​trúc EfficientNet mạnh mẽ để trích xuất đặc trưng.

So sánh hiệu suất

Bảng sau đây so sánh hiệu năng của DAMO- YOLO và các biến thể EfficientDet. DAMO- YOLO thường mang lại tỷ lệ tốc độ trên độ chính xác vượt trội, đặc biệt là trên... GPU Phần cứng nơi các khối được tái tham số hóa của nó phát huy tác dụng. EfficientDet, mặc dù chính xác, thường bị độ trễ cao hơn do các kết nối BiFPN phức tạp và các hàm kích hoạt chậm hơn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Phân tích Kết quả

  • Độ trễ: DAMO- YOLO vượt trội hơn hẳn EfficientDet về TensorRT Độ trễ. Ví dụ, DAMO-YOLOl đạt được 50,8. mAP với thời gian khoảng ~7ms, trong khi EfficientDet-d4 cần khoảng ~33ms để đạt độ chính xác tương tự.
  • Hiệu quả kiến ​​trúc: Số lượng tham số thấp của EfficientDet (ví dụ: d0 chỉ có 3,9 triệu tham số) giúp tiết kiệm bộ nhớ, nhưng cấu trúc đồ thị phức tạp của nó (BiFPN) thường dẫn đến tốc độ suy luận thực tế chậm hơn so với các cấu trúc được đơn giản hóa của các mô hình khác. YOLO các mô hình dựa trên.
  • Mức sử dụng tài nguyên: DAMO- YOLO Phương pháp này sử dụng "Tăng cường chưng cất" trong quá trình huấn luyện, cho phép các mô hình học sinh nhỏ hơn học hỏi từ các mô hình giáo viên lớn hơn, giúp nâng cao hiệu suất mà không làm tăng chi phí suy luận.

Giải thích về việc tái tham số hóa

DAMO- YOLO Mô hình này sử dụng các kỹ thuật tái tham số hóa, tương tự như RepVGG . Trong quá trình huấn luyện, mô hình sử dụng các khối đa nhánh phức tạp để học các đặc trưng phong phú. Trước khi suy luận, các nhánh này được hợp nhất về mặt toán học thành một phép tích chập duy nhất, giúp tăng tốc độ đáng kể mà không làm giảm độ chính xác.

Các trường hợp và ứng dụng sử dụng

Hiểu rõ ưu điểm của từng loại máy giúp bạn lựa chọn công cụ phù hợp nhất cho công việc.

Khi nào nên sử dụng DAMO-YOLO

  • Kiểm tra công nghiệp: Lý tưởng cho các dây chuyền sản xuất nơi độ trễ mili giây là rất quan trọng để phát hiện lỗi trên các băng chuyền chuyển động nhanh.
  • Hệ thống giám sát thành phố thông minh: Khả năng xử lý tốc độ cao cho phép xử lý nhiều luồng video trên một thiết bị duy nhất. GPU .
  • Robot: Thích hợp cho việc điều hướng tự động, nơi cần thời gian phản ứng nhanh để tránh chướng ngại vật.

Khi nào nên sử dụng EfficientDet

  • Nghiên cứu học thuật: Các quy tắc tỷ lệ có hệ thống của nó làm cho nó trở thành một cơ sở tuyệt vời để nghiên cứu các lý thuyết về hiệu quả mô hình.
  • Môi trường hạn chế dung lượng lưu trữ: Số lượng tham số cực thấp của các biến thể d0/d1 rất có lợi nếu dung lượng đĩa là nút thắt cổ chai chính, mặc dù mức sử dụng RAM và CPU Độ trễ có thể vẫn cao hơn so với các trường hợp tương tự. YOLO mô hình.
  • Ứng dụng di động (Phiên bản cũ): Các triển khai di động ban đầu được sử dụng TFLite - Các phiên bản được tối ưu hóa của EfficientDet, mặc dù các kiến ​​trúc hiện đại như YOLO11 đã phần nào thay thế nó.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Trong khi DAMO- YOLO EfficientDet và các công nghệ tiên tiến khác là những cột mốc quan trọng, cho thấy lĩnh vực này đã phát triển. Ultralytics YOLO26 đại diện cho công nghệ hiện đại nhất hiện nay, khắc phục những hạn chế của các kiến ​​trúc trước đó thông qua thiết kế toàn diện và tối ưu hóa vượt trội.

Tìm hiểu thêm về YOLO26

Tại sao các nhà phát triển ưa chuộng Ultralytics

  1. Dễ sử dụng & Hệ sinh thái: Ultralytics Cung cấp trải nghiệm "từ con số không đến chuyên gia" liền mạch. Không giống như các tệp cấu hình phức tạp thường được yêu cầu bởi các kho lưu trữ nghiên cứu, Ultralytics cho phép bạn bắt đầu luyện tập với một vài dòng lệnh. Python Hệ sinh thái này bao gồm Nền tảng Ultralytics để quản lý tập dữ liệu dễ dàng và đào tạo trên đám mây.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset
    results = model.train(data="coco8.yaml", epochs=100)
    
  2. Cân bằng hiệu năng: YOLO26 được thiết kế để thống trị ranh giới Pareto. Nó cung cấp khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, biến nó thành một công cụ mạnh mẽ cho các ứng dụng AI biên nơi không có GPU.

  3. NMS từ đầu đến cuối - Miễn phí: Một trong những khó khăn lớn nhất khi triển khai bộ dò đối tượng là việc loại bỏ các điểm không phải cực đại (Non-Maximum Suppression) NMS ). DAMO- YOLO và EfficientDet dựa vào NMS Điều này làm phức tạp quá trình xử lý hậu kỳ và gây ra sự biến đổi độ trễ. YOLO26 là hệ thống end-to-end nguyên bản , loại bỏ các vấn đề này. NMS Hoàn toàn nhằm mục đích suy luận nhanh hơn và mang tính xác định.

  4. Hiệu quả huấn luyện & MuSGD: YOLO26 tích hợp Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon. Sự đổi mới này, lấy cảm hứng từ quá trình huấn luyện LLM, đảm bảo sự hội tụ ổn định và giảm nhu cầu tinh chỉnh siêu tham số phức tạp. Kết hợp với yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện, nó cho phép người dùng huấn luyện với kích thước lô lớn hơn trên phần cứng tiêu dùng so với các mô hình lai transformer ngốn bộ nhớ như RT-DETR .

  5. Tính linh hoạt: Trong khi EfficientDet và DAMO- YOLO Tập trung chủ yếu vào các hộp giới hạn. Ultralytics Các mô hình hỗ trợ sẵn một loạt các tác vụ bao gồm phân đoạn đối tượng , ước tính tư thế , OBB và phân loại, tất cả đều nằm trong một API thống nhất duy nhất.

Tóm tắt so sánh

Tính năngEfficientDetDAMO-YOLOUltralytics YOLO26
Kiến trúcDựa trên neo, BiFPNKhông cần neo, RepGFPNTừ đầu đến cuối, NMS -Miễn phí
Tốc độ suy luậnChậm (đồ thị phức tạp)Nhanh ( GPU (tập trung)SOTA ( CPU & GPU )
Triển khaiTổ hợp ( NMS yêu cầu)Vừa phải ( NMS yêu cầu)Đơn giản ( NMS -Miễn phí)
Rèn luyện trí nhớCaoVừa phảiThấp (Đã tối ưu hóa)
Hỗ trợ tác vụPhát hiện vật thểPhát hiện vật thểPhát hiện, Phân đoạn, Tư thế, OBB

Kết luận

Cả DAMO- YOLO và EfficientDet đã đóng góp đáng kể vào lịch sử của thị giác máy tính. EfficientDet đã chứng minh sức mạnh của phép co giãn phức hợp, trong khi DAMO- YOLO Bài viết đã chứng minh hiệu quả của việc tái tham số hóa và chưng cất. Tuy nhiên, đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, Ultralytics YOLO26 mang lại một lợi thế vượt trội.

Việc loại bỏ nó NMS Nó đơn giản hóa các quy trình triển khai, trình tối ưu hóa MuSGD tăng tốc quá trình huấn luyện, và kiến ​​trúc được tối ưu hóa của nó mang lại tốc độ vượt trội trên cả CPU biên và GPU mạnh mẽ. Cho dù bạn đang xây dựng một hệ thống camera thông minh hay một nền tảng phân tích video dựa trên đám mây, hệ sinh thái mạnh mẽ và hiệu năng của Ultralytics Hãy biến nó thành lựa chọn được đề xuất.

Để tìm hiểu thêm, bạn cũng có thể quan tâm đến việc so sánh YOLO26 với YOLOv10 hoặc hiểu rõ hơn về lợi ích của YOLO11 đối với việc hỗ trợ các hệ thống cũ.


Bình luận