So sánh EfficientDet và DAMO- YOLO Khám phá sâu sắc sự tiến hóa của công nghệ phát hiện đối tượng
Trong thế giới năng động của thị giác máy tính , việc tìm kiếm sự cân bằng tối ưu giữa độ chính xác và độ trễ thúc đẩy sự đổi mới không ngừng. Hai kiến trúc đã định hình nên kỷ nguyên riêng của chúng là: Google EfficientDet của Google và DAMO- YOLO của Alibaba. Trong khi EfficientDet giới thiệu một phương pháp tiếp cận có nguyên tắc để mở rộng quy mô mô hình, DAMO-YOLO của Alibaba lại khác. YOLO Đã vượt qua giới hạn về hiệu năng thời gian thực bằng cách sử dụng Tìm kiếm Kiến trúc Thần kinh (NAS).
Hướng dẫn này cung cấp sự so sánh kỹ thuật toàn diện giữa hai mô hình này, phân tích sự khác biệt về kiến trúc, các chỉ số hiệu năng và tính phù hợp của chúng cho việc triển khai hiện đại. Đối với các nhà phát triển đang tìm kiếm các giải pháp tiên tiến nhất, chúng tôi cũng sẽ khám phá cách các framework mới hơn như Ultralytics YOLO26 xây dựng dựa trên những nền tảng này để mang lại sự dễ sử dụng và hiệu năng vượt trội.
Tổng quan về EfficientDet
Ra mắt vào cuối năm 2019, EfficientDet đánh dấu một sự thay đổi mang tính đột phá trong cách mở rộng quy mô các mô hình phát hiện đối tượng. Trước khi ra mắt, việc mở rộng quy mô thường được thực hiện một cách tùy tiện. Nhóm nghiên cứu tại... Google Nghiên cứu đã giới thiệu một phương pháp mở rộng phức hợp giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng, dẫn đến một loạt các mô hình (D0-D7) đáp ứng các hạn chế về tài nguyên khác nhau.
Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
Tổ chức: Google Research
Ngày: 20 tháng 11 năm 2019
Arxiv: Bài báo EfficientDet
GitHub: google /automl/efficientdet
Các tính năng kiến trúc chính
- BiFPN (Mạng kim tự tháp đặc trưng hai chiều có trọng số): Không giống như các mạng FPN truyền thống, BiFPN cho phép kết hợp đặc trưng đa tỷ lệ từ trên xuống và từ dưới lên. Nó đưa ra các trọng số có thể học được cho các đặc trưng đầu vào khác nhau, thừa nhận rằng không phải tất cả các đặc trưng đều đóng góp như nhau vào đầu ra.
- Mở rộng quy mô phức hợp: Hệ số thống nhất $\phi$ kiểm soát chiều rộng, chiều sâu và độ phân giải của mạng, đảm bảo rằng mạng xương sống, mạng đặc trưng và các đầu dự đoán được mở rộng một cách hài hòa.
- Kiến trúc xương sống EfficientNet: Việc sử dụng EfficientNet làm kiến trúc xương sống cho phép đạt hiệu quả tham số cao, tận dụng các lớp tích chập thắt cổ chai đảo ngược di động (MBConv).
Tổng quan về DAMO-YOLO
DAMO- YOLO Được phát triển bởi Tập đoàn Alibaba vào năm 2022, hệ thống này được thiết kế với trọng tâm nghiêm ngặt vào các ứng dụng công nghiệp, nơi độ trễ là yếu tố tối quan trọng. Nó loại bỏ thiết kế kiến trúc thủ công, sử dụng NAS để tìm ra các cấu trúc hiệu quả được thiết kế riêng cho suy luận hiệu năng cao.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Arxiv: Bài báo DAMO- YOLO
GitHub: tinyvision/DAMO- YOLO
Các Đổi Mới Kiến Trúc Chính
- Cấu trúc xương sống MAE-NAS: Sử dụng phương pháp tìm kiếm kiến trúc mạng nơ-ron hiệu quả nhận biết phương pháp (Method-Aware Efficiency Neural Architecture Search), DAMO- YOLO Xây dựng các mạng xương sống được tối ưu hóa đặc biệt cho tốc độ suy luận, khác biệt đáng kể so với CSPNet được thiết kế thủ công được sử dụng trong YOLOv5 hoặc YOLOv8 .
- RepGFPN: Một mạng nơ-ron truyền thống (FPN) hiệu quả sử dụng phương pháp tái tham số hóa (kiểu RepVGG) để kết hợp các đặc trưng, giảm độ trễ trong quá trình suy luận đồng thời duy trì khả năng thể hiện đặc trưng cao trong quá trình huấn luyện.
- ZeroHead: Một đầu dò nhẹ giúp giảm đáng kể gánh nặng tính toán so với các đầu dò tách rời được tìm thấy trong các mô hình trước đó.
- AlignedOTA: Một chiến lược gán nhãn được cải thiện giúp giải quyết sự sai lệch giữa các tác vụ phân loại và hồi quy trong quá trình huấn luyện.
So sánh hiệu suất
Bảng sau đây so sánh hiệu năng của EfficientDet và DAMO- YOLO trên nhiều tỷ lệ mô hình khác nhau. Trong khi EfficientDet cung cấp nhiều kích thước (lên đến D7 cho các tác vụ độ phân giải cao), DAMO- YOLO Tập trung vào "điểm tối ưu" của độ trễ thời gian thực (T/S/M/L).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích
- Độ trễ so với độ chính xác: DAMO- YOLO thể hiện hiệu quả vượt trội về GPU phần cứng. Ví dụ,
DAMO-YOLOsđạt được 46.0 mAP chỉ với 3,45 ms độ trễ trên T4 GPU Ngược lại,EfficientDet-d3đạt được mức cao hơn một chút 47,5 mAP nhưng phải trả giá bằng... 19,59 ms—chậm hơn gần 5,5 lần. - Sự lỗi thời của kiến trúc: EfficientDet phụ thuộc rất nhiều vào các phép tích chập tách biệt theo chiều sâu. Mặc dù hiệu quả về tham số, các phép toán này thường bị giới hạn bởi bộ nhớ trên các GPU hiện đại, dẫn đến mức độ sử dụng thấp hơn so với các phép tích chập dày đặc được tối ưu hóa trong DAMO-. YOLO Cấu trúc NAS của 's.
- Yêu cầu tính toán: EfficientDet-d7 đòi hỏi nguồn tài nguyên tính toán khổng lồ (325 GFLOPs) để đạt được những cải thiện nhỏ về độ chính xác (53,7). mAP ), khiến việc triển khai trên các thiết bị biên trở nên khó khăn.
Đào tạo và Hệ sinh thái
Trải nghiệm người dùng khác biệt rất lớn giữa hai thế hệ máy này.
Hệ sinh thái EfficientDet
EfficientDet có nguồn gốc sâu xa từ... Google Hệ sinh thái AutoML và TensorFlow Mặc dù mạnh mẽ, người dùng thường gặp phải:
- Độ phức tạp của sự phụ thuộc: Điều hướng giữa các yếu tố. TensorFlow Các phiên bản 1.x và 2.x có thể gây khó khăn.
- Hạn chế của đồ thị tĩnh: Xuất mô hình sang ONNX hoặc TensorRT Thường yêu cầu các kịch bản chuyển đổi phức tạp mà có thể không hỗ trợ tất cả các thao tác BiFPN một cách tự nhiên.
DAMO- YOLO Hệ sinh thái
DAMO- YOLO sử dụng PyTorch Điều này thường mang lại sự linh hoạt hơn cho nghiên cứu. Tuy nhiên:
- Trọng tâm chuyên biệt: Đây chủ yếu là một kho lưu trữ nghiên cứu. Mặc dù rất xuất sắc cho các tác vụ phát hiện cụ thể, nhưng nó thiếu tính tiện ích "sẵn có" cho các tác vụ khác như phân đoạn hình ảnh hoặc ước tính tư thế.
- Sự phụ thuộc vào quá trình chưng cất: Để đạt hiệu suất tối ưu, DAMO- YOLO Thường sử dụng phương pháp chưng cất từ các mô hình lớn hơn, làm tăng độ phức tạp cho quy trình huấn luyện.
Hệ sinh thái là yếu tố quan trọng
Khi lựa chọn mô hình để sản xuất, hãy cân nhắc không chỉ... mAP nhưng sự dễ dàng trong việc huấn luyện trên dữ liệu tùy chỉnh. Một mô hình cần nhiều tuần để tích hợp thường tốn nhiều thời gian của kỹ sư hơn so với lợi ích về độ chính xác đạt được.
Lợi thế của Ultralytics: Giới thiệu YOLO26
Trong khi EfficientDet và DAMO- YOLO Đã có những cột mốc quan trọng trong lĩnh vực thị giác máy tính, và lĩnh vực này đã phát triển. Ultralytics YOLO26 đại diện cho thế hệ AI thị giác tiếp theo, kết hợp hiệu quả kiến trúc của các mô hình dựa trên NAS với tính dễ sử dụng của... Ultralytics hệ sinh thái.
Tại sao nên nâng cấp lên YOLO26?
YOLO26 giải quyết những điểm yếu của các kiến trúc trước đây với một số tính năng đột phá:
- Thiết kế NMS từ đầu đến cuối - Không cần hệ thống quản lý mạng (NMS): Không giống như EfficientDet và DAMO- YOLO Trong khi các hệ thống yêu cầu xử lý hậu kỳ Non-Maximum Suppression ( NMS ) , YOLO26 lại hoạt động hoàn toàn từ đầu đến cuối. Điều này loại bỏ một nút thắt cổ chai lớn trong quy trình triển khai, giảm sự biến động độ trễ và đơn giản hóa việc xuất sang các định dạng như... CoreML Và TensorRT .
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ tính ổn định của quá trình huấn luyện LLM, bộ tối ưu hóa MuSGD mới (một sự kết hợp của...) SGD và Muon) đảm bảo sự hội tụ nhanh hơn và các lần chạy huấn luyện ổn định hơn, ngay cả trên các tập dữ liệu nhỏ hơn.
- ProgLoss + STAL: Các hàm mất mát mới (ProgLoss và Soft-Target Assignment Loss) mang lại những cải tiến đáng kể trong việc phát hiện các đối tượng nhỏ, một điểm yếu truyền thống của các mô hình không sử dụng anchor.
- Tối ưu hóa CPU & Edge: Với việc loại bỏ DFL (Distribution Focal Loss) và các tối ưu hóa kiến trúc, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn vượt trội cho Raspberry Pi và các ứng dụng di động.
Tóm tắt so sánh
| Tính năng | EfficientDet | DAMO-YOLO | Ultralytics YOLO26 |
|---|---|---|---|
| Kiến trúc | BiFPN + Mở rộng phức hợp | NAS + RepGFPN | Từ đầu đến cuối NMS -Miễn phí |
| Xử lý hậu kỳ | NMS Yêu cầu | NMS Yêu cầu | Không có (Từ đầu đến cuối) |
| Hỗ trợ tác vụ | Phát hiện vật thể | Phát hiện vật thể | detect, segment, Pose, obb, classify |
| Nền tảng | TensorFlow | PyTorch | Nền tảng Ultralytics |
| Triển khai | Tổ hợp | Vừa phải | Chỉ với một cú nhấp chuột (hơn 10 định dạng) |
Dễ sử dụng và đào tạo
Một trong những đặc điểm xác định của Ultralytics `models` là API thống nhất. Cho dù bạn đang huấn luyện một bộ phát hiện đối tượng, một mô hình hộp giới hạn định hướng (OBB) hay một mô hình ước tính tư thế , mã vẫn nhất quán và đơn giản.
Dưới đây là cách bạn có thể dễ dàng huấn luyện một mô hình YOLO26 hiện đại trên dữ liệu tùy chỉnh của mình:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")
Các trường hợp sử dụng thực tế
Khi nào nên sử dụng EfficientDet?
EfficientDet vẫn giữ vai trò quan trọng trong các trường hợp sau:
- Các hệ thống Google Cloud Pipelines cũ: Hệ thống tích hợp sâu với các hệ thống cũ hơn. Google API Cloud Vision hoặc TPU Cơ sở hạ tầng v2/v3.
- So sánh chuẩn mực học thuật: Là tiêu chuẩn cơ bản cho nghiên cứu mở rộng quy mô hợp chất.
Khi nào nên sử dụng DAMO- YOLO ?
DAMO- YOLO Xuất sắc trong các lĩnh vực:
- Các ràng buộc nghiêm ngặt về độ trễ GPU : Dây chuyền sản xuất công nghiệp, nơi mà từng mili giây đều quan trọng và phần cứng được cố định ở mức độ nhất định. NVIDIA GPU.
- Phân tích video: Xử lý các luồng video có tốc độ khung hình cao, trong đó thông lượng (kích thước lô 1) là chỉ số chính.
Khi nào nên sử dụng YOLO26?
YOLO26 là giải pháp được khuyến nghị cho:
- AI biên: Triển khai trên điện thoại di động, máy bay không người lái hoặc thiết bị IoT, nơi mà... NMS Suy luận không cần tham số giúp đơn giản hóa logic ứng dụng và CPU Tốc độ là yếu tố then chốt.
- Ứng dụng đa nhiệm: Các dự án yêu cầu phân đoạn đối tượng hoặc ước lượng tư thế cùng với phát hiện trong cùng một mã nguồn.
- Phát triển nhanh chóng: Dành cho các nhóm cần chuyển từ giai đoạn thu thập dữ liệu trên nền tảng Ultralytics sang triển khai chỉ trong vài giờ, chứ không phải vài tuần.
Kết luận
Trong khi EfficientDet đã dạy chúng ta tầm quan trọng của việc mở rộng quy mô và DAMO- YOLO Đã chứng minh sức mạnh của NAS, Ultralytics YOLO26 tổng hợp những bài học đó thành một công cụ mạnh mẽ sẵn sàng cho sản xuất. Với thiết kế không cần NMS , tính linh hoạt trong nhiều tác vụ và hệ sinh thái được duy trì tốt , YOLO26 mang đến cho các nhà phát triển hiện đại con đường vững chắc nhất để thành công trong lĩnh vực thị giác máy tính.
Để tìm hiểu sâu hơn về kiến trúc mô hình, hãy xem xét so sánh với YOLOv10 hoặc RT-DETR , những mô hình cũng nghiên cứu các cải tiến dựa trên transformer.