So sánh EfficientDet và DAMO- YOLO So sánh kỹ thuật các kiến trúc phát hiện đối tượng
Khi xây dựng các hệ thống xử lý hình ảnh máy tính có khả năng mở rộng, việc lựa chọn kiến trúc mô hình phù hợp là một quyết định quan trọng, ảnh hưởng đến cả tính khả thi triển khai và độ chính xác phát hiện. Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa hai kiến trúc nổi tiếng trong lĩnh vực nhận dạng hình ảnh: EfficientDet và DAMO- YOLO .
Mặc dù cả hai mô hình đều mang lại những cải tiến đáng kể cho lĩnh vực phát hiện đối tượng , sự tiến bộ nhanh chóng của trí tuệ nhân tạo thị giác đã mở đường cho các hệ sinh thái tích hợp hơn. Trong suốt bài phân tích này, chúng ta sẽ khám phá cơ chế cốt lõi của các mạng lưới truyền thống này, đồng thời minh họa lý do tại sao các giải pháp hiện đại như Ultralytics Platform và Ultralytics YOLO26 đã trở thành tiêu chuẩn ngành cho môi trường sản xuất.
EfficientDet: Phát hiện đối tượng hiệu quả và có khả năng mở rộng
Được giới thiệu bởi các nhà nghiên cứu tại Google EfficientDet được thiết kế để mở rộng kiến trúc mô hình một cách có hệ thống trong khi vẫn duy trì hiệu quả cao. Nó đạt được điều này bằng cách tận dụng khả năng mở rộng kết hợp trên độ sâu, độ rộng và độ phân giải đầu vào của mạng.
Thông tin chi tiết về EfficientDet: Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google Brain
Ngày: 20/11/2019
Arxiv: 1911.09070
GitHub: google /automl
Đổi mới Kiến trúc
Đóng góp chính của EfficientDet là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng bằng cách sử dụng trọng số có thể học được để hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này được kết hợp với kiến trúc xương sống EfficientNet, tạo ra một họ các mô hình (D0 đến D7) có khả năng mở rộng một cách có thể dự đoán được.
Điểm mạnh và Điểm yếu
Điểm mạnh chính của EfficientDet nằm ở hiệu quả tham số. Đối với các tác vụ cần tối đa hóa Độ chính xác trung bình ( mAP ) trong môi trường điện toán đám mây bị hạn chế nghiêm ngặt, phương pháp mở rộng phức hợp của nó có tính dự đoán cao. Tuy nhiên, EfficientDet nổi tiếng là phức tạp khi huấn luyện từ đầu và thường đòi hỏi phải tinh chỉnh siêu tham số đáng kể. Hơn nữa, nó phụ thuộc nhiều vào các tham số cụ thể. TensorFlow các hoạt động giúp chuyển đổi sang triển khai ở biên thông qua ONNX hoặc TensorRT so với khả năng xuất khẩu được tối ưu hóa hiện đại, quy trình này phức tạp hơn. YOLO mô hình.
DAMO- YOLO : Tìm kiếm kiến trúc tự động trong thực tế
DAMO- YOLO Phương pháp này thể hiện cách tiếp cận khác biệt, sử dụng Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để tự động thiết kế các cấu trúc mạng tối ưu cho suy luận thời gian thực.
DAMO- YOLO Chi tiết: Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO- YOLO
Đổi mới Kiến trúc
DAMO- YOLO Nó giới thiệu một số công nghệ mới. Nó sử dụng một kiến trúc xương sống do NAS tạo ra có tên là MAE-NAS, một RepGFPN hiệu quả cho phần cổ và thiết kế ZeroHead giúp giảm đáng kể chi phí tính toán của đầu phát hiện . Hơn nữa, nó sử dụng AlignedOTA để gán nhãn và dựa nhiều vào việc tăng cường chưng cất kiến thức để nâng cao hiệu suất của các biến thể nhỏ hơn.
Điểm mạnh và Điểm yếu
DAMO- YOLO tỏa sáng trong GPU tốc độ suy luận, được thiết kế đặc biệt để triển khai trên NVIDIA các kiến trúc sử dụng TensorRT . Bằng cách loại bỏ các cấu trúc đầu nặng nề, mô hình cung cấp các dự đoán có độ trễ thấp. Ngược lại, việc tìm kiếm kiến trúc tự động có thể làm cho cấu trúc mô hình trở nên khó hiểu và khó gỡ lỗi hoặc tinh chỉnh thủ công cho các thiết bị biên tùy chỉnh. Không giống như Ultralytics YOLO11 rất linh hoạt, DAMO- YOLO Chức năng này chủ yếu tập trung vào phát hiện hộp giới hạn tiêu chuẩn, thiếu hỗ trợ gốc cho các tác vụ nâng cao như ước lượng tư thế hoặc phát hiện hộp giới hạn định hướng (OBB) .
So sánh hiệu suất
Hiểu rõ các sự đánh đổi thực nghiệm là điều cần thiết để lựa chọn mô hình. Bảng dưới đây so sánh họ EfficientDet với DAMO- YOLO chuỗi dữ liệu trên các chỉ số hiệu suất quan trọng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích dữ liệu
EfficientDet-d7 đạt độ chính xác lý thuyết cao nhất nhưng đòi hỏi sức mạnh tính toán khổng lồ, khiến nó không phù hợp với AI biên . DAMO- YOLO cung cấp đặc biệt TensorRT Mặc dù tốc độ của nó thường yêu cầu nhiều tham số hơn so với các mô hình EfficientDet cấp thấp hơn để đạt được độ chính xác tương đương, nhưng nó thường đòi hỏi nhiều tham số hơn.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa EfficientDet và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn EfficientDet
EfficientDet là một lựa chọn mạnh mẽ cho:
- Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu rộng với Google API Cloud Vision hoặc TPU cơ sở hạ tầng nơi EfficientDet có khả năng tối ưu hóa gốc.
- Nghiên cứu về mở rộng quy mô phức hợp: Nghiên cứu chuẩn mực học thuật tập trung vào việc nghiên cứu tác động của việc mở rộng quy mô cân bằng về độ sâu, độ rộng và độ phân giải của mạng.
- Triển khai trên thiết bị di động thông qua TFLite : Các dự án yêu cầu xuất sang TensorFlow Lite . Android hoặc các thiết bị Linux nhúng.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Cái Ultralytics Ưu điểm: Vượt xa các mô hình truyền thống
Trong khi EfficientDet và DAMO- YOLO Để cung cấp những hiểu biết học thuật có giá trị, các nhà phát triển hiện đại cần những framework cân bằng giữa hiệu năng tiên tiến và tính tiện dụng cho lập trình viên. Đây chính là điểm mạnh của hệ sinh thái Ultralytics .
Dễ sử dụng và Hệ sinh thái vượt trội
Việc triển khai các mô hình từ các kho nghiên cứu riêng biệt, được tùy chỉnh cao độ thường dẫn đến những cơn ác mộng về tích hợp. Ultralytics Nó cung cấp một hệ sinh thái thống nhất, được bảo trì rất tốt với tài liệu đầy đủ và API kiểu Python. Cho dù bạn sử dụng Google Colab để huấn luyện hay xuất sang CoreML để suy luận trên thiết bị di động, quy trình này chỉ cần một vài dòng mã.
from ultralytics import YOLO
# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX for production
model.export(format="onnx")
Cuộc cách mạng YOLO26
Dành cho các nhà phát triển đang đánh giá EfficientDet hoặc DAMO- YOLO Ultralytics YOLO26 đại diện cho bước tiến hóa tối ưu. Được phát hành vào đầu năm 2026, nó giới thiệu những khả năng mang tính đột phá:
- Thiết kế không cần NMS từ đầu đến cuối: Được tiên phong bởi YOLOv10 , YOLO26 loại bỏ hoàn toàn nhu cầu về Non-Maximum Suppression (NMS) ( NMS ) xử lý hậu kỳ. Điều này dẫn đến kiến trúc triển khai đơn giản hơn nhiều và độ trễ ổn định trên nhiều phần cứng khác nhau.
- Suy luận CPU nhanh hơn tới 43%: Dành cho các triển khai ở biên thiếu GPU mạnh mẽ—các trường hợp mà DAMO- YOLO những khó khăn—YOLO26 được tối ưu hóa rất cao, mang lại tốc độ tăng đáng kể trên các CPU tiêu chuẩn.
- Bộ tối ưu hóa MuSGD: Nối liền khoảng cách giữa những đổi mới trong LLM và thị giác máy tính, YOLO26 tích hợp bộ tối ưu hóa MuSGD (lấy cảm hứng từ Moonshot AI), đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng so với các vòng lặp huấn luyện dễ bị lỗi của EfficientDet.
- Loại bỏ DFL: Việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL) giúp đơn giản hóa quá trình xuất khẩu, đảm bảo khả năng tương thích vượt trội với các bộ vi điều khiển công suất thấp và thiết bị Raspberry Pi .
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến vượt bậc trong nhận dạng vật thể nhỏ, một lĩnh vực mà các kiến trúc cũ thường thất bại.
Hiệu quả bộ nhớ và tính linh hoạt trong công việc
Không giống như các mô hình biến áp hoặc mạng NAS tích hợp nhiều thành phần, Ultralytics Các mô hình này được đặc trưng bởi hiệu quả bộ nhớ nghiêm ngặt. Chúng tiêu thụ ít năng lượng hơn đáng kể. CUDA Bộ nhớ trong quá trình huấn luyện, cho phép lặp lại nhanh chóng trên phần cứng cấp độ người tiêu dùng.
Hơn nữa, trong khi EfficientDet và DAMO- YOLO bị giới hạn nghiêm ngặt trong các hộp giới hạn, Ultralytics Nó hỗ trợ phân đoạn đối tượng và phân loại hình ảnh một cách tự nhiên trong cùng một khuôn khổ trực quan. Đối với người dùng đang duy trì các dự án cũ, Ultralytics YOLOv8 vẫn là một lựa chọn thay thế vững chắc, được triển khai rộng rãi và đáng để khám phá.
Kết luận
Việc lựa chọn kiến trúc thị giác phù hợp đòi hỏi phải cân nhắc hiệu năng lý thuyết thuần túy so với thực tế triển khai. EfficientDet cung cấp một phương pháp mở rộng quy mô thanh lịch về mặt toán học, và DAMO- YOLO cung cấp nội dung thô hấp dẫn GPU tốc độ. Tuy nhiên, đối với các nhóm ưu tiên phát triển nhanh chóng, triển khai đáng tin cậy và các tính năng tiên tiến, các mô hình Ultralytics rõ ràng vượt trội hơn. Bằng cách kết hợp các cải tiến như NMS Với khả năng suy luận tự do và tối ưu hóa MuSGD, YOLO26 đảm bảo các dự án thị giác máy tính của bạn được xây dựng trên nền tảng mạnh mẽ, dễ bảo trì và hiệu quả nhất hiện nay.