Chuyển đến nội dung

So sánh kỹ thuật chi tiết giữa EfficientDet và YOLO11

Trang này cung cấp so sánh kỹ thuật chi tiết giữa EfficientDet của Google và Ultralytics YOLO11, hai mô hình phát hiện đối tượng nổi bật. Chúng tôi phân tích kiến trúc, điểm chuẩn hiệu suất và tính phù hợp của chúng cho các ứng dụng khác nhau để hỗ trợ bạn lựa chọn mô hình tối ưu cho nhu cầu thị giác máy tính của bạn. Mặc dù cả hai mô hình đều hướng đến mục tiêu phát hiện đối tượng hiệu quả và chính xác, nhưng chúng xuất phát từ các dòng nghiên cứu khác nhau (GoogleUltralytics) và sử dụng các triết lý kiến trúc khác biệt.

EfficientDet

EfficientDet là một họ các mô hình phát hiện đối tượng được phát triển bởi các nhà nghiên cứu tại Google Brain. Được giới thiệu vào năm 2019, nó đã thiết lập một tiêu chuẩn mới về hiệu quả bằng cách kết hợp một xương sống mạnh mẽ với một cơ chế hợp nhất đặc trưng mới và một phương pháp mở rộng độc đáo.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

Kiến trúc của EfficientDet được xây dựng dựa trên ba thành phần cốt lõi:

  1. EfficientNet Backbone: Sử dụng EfficientNet hiệu quả cao làm backbone để trích xuất đặc trưng.
  2. BiFPN (Mạng lưới Kim tự tháp Đặc trưng Hai hướng): Một mạng lưới kim tự tháp đặc trưng có trọng số, mới lạ cho phép hợp nhất đặc trưng đa tỷ lệ đơn giản và nhanh chóng. Nó giới thiệu các trọng số có thể học được để hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau và áp dụng cả kết nối từ trên xuống và từ dưới lên.
  3. Compound Scaling: Một cải tiến quan trọng, trong đó độ sâu, chiều rộng và độ phân giải của mô hình được mở rộng cùng nhau bằng cách sử dụng một compound coefficient duy nhất. Điều này cho phép họ mô hình (từ D0 đến D7) mở rộng hiệu quả trên một loạt các ràng buộc về tài nguyên.

Điểm mạnh

  • Hiệu suất cao: Các mô hình EfficientDet nổi tiếng với số lượng tham số và FLOPs thấp, đạt được độ chính xác cao so với ngân sách tính toán của chúng.
  • Khả năng mở rộng: Phương pháp mở rộng hỗn hợp cung cấp một lộ trình rõ ràng để tăng hoặc giảm kích thước mô hình, giúp mô hình thích ứng với nhiều cấu hình phần cứng khác nhau, từ thiết bị di động đến trung tâm dữ liệu.
  • Điểm chuẩn học thuật mạnh mẽ: Đây là một mô hình hiện đại khi phát hành và vẫn là một baseline mạnh mẽ cho nghiên cứu tập trung vào hiệu quả.

Điểm yếu

  • Suy luận trên GPU chậm hơn: Mặc dù hiệu quả về FLOP, EfficientDet có thể chậm hơn về độ trễ suy luận thực tế trên GPU so với các mô hình như YOLO11, vốn được thiết kế đặc biệt cho phần cứng xử lý song song.
  • Tính linh hoạt hạn chế: EfficientDet chủ yếu là một trình phát hiện đối tượng. Nó thiếu sự hỗ trợ gốc cho các tác vụ khác như phân đoạn thể hiện, ước tính tư thế hoặc phân loại được tích hợp vào các khuôn khổ hiện đại như Ultralytics.
  • Hệ sinh thái ít được bảo trì hơn: Kho lưu trữ chính thức không được phát triển tích cực như hệ sinh thái Ultralytics. Điều này có thể dẫn đến những thách thức trong khả năng sử dụng, hỗ trợ cộng đồng và tích hợp với các công cụ và nền tảng triển khai mới nhất.

Tìm hiểu thêm về EfficientDet

Ultralytics YOLO11

Ultralytics YOLO11 là một bước tiến mới nhất trong loạt YOLO (You Only Look Once), được phát triển bởi Ultralytics. Nó xây dựng dựa trên thành công của những phiên bản tiền nhiệm như YOLOv8, tập trung vào việc vượt qua các ranh giới về độ chính xác và hiệu suất thời gian thực, đồng thời mang lại sự dễ sử dụng và tính linh hoạt tuyệt vời.

Chi tiết kỹ thuật:

Kiến trúc và các tính năng chính

YOLO11 sử dụng kiến trúc đầu dò không neo một giai đoạn được tối ưu hóa cho tốc độ và độ chính xác. Thiết kế của nó có các lớp trích xuất đặc trưng được tinh chỉnh và cấu trúc mạng được sắp xếp hợp lý, giúp giảm số lượng tham số và tải tính toán mà không làm giảm độ chính xác. Điều này đảm bảo hiệu suất vượt trội trên các phần cứng khác nhau, từ thiết bị biên như NVIDIA Jetson đến các máy chủ đám mây mạnh mẽ.

Một ưu điểm đáng kể của YOLO11 là khả năng tích hợp trong hệ sinh thái Ultralytics toàn diện. Điều này cung cấp cho các nhà phát triển:

  • Tính dễ sử dụng: Python APICLI đơn giản và trực quan giúp việc huấn luyện, xác thực và suy luận trở nên đơn giản.
  • Tính linh hoạt: YOLO11 là một mô hình đa nhiệm hỗ trợ phát hiện đối tượng, phân đoạn thể hiện, phân loại ảnh, ước tính tư thế và hộp giới hạn theo hướng (OBB) trong một khuôn khổ thống nhất duy nhất.
  • Hệ sinh thái được duy trì tốt: Mô hình này được hưởng lợi từ quá trình phát triển tích cực, một cộng đồng mã nguồn mở lớn mạnh và luôn hỗ trợ, cập nhật thường xuyên và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps đầu cuối.
  • Hiệu quả về huấn luyện và bộ nhớ: YOLO11 được thiết kế để huấn luyện hiệu quả, thường yêu cầu ít bộ nhớ CUDA hơn và hội tụ nhanh hơn so với các lựa chọn thay thế. Nó đi kèm với các weights (trọng số) đã được huấn luyện trước, có sẵn trên các tập dữ liệu như COCO.

Điểm mạnh

  • Hiệu suất vượt trội: Đạt được sự cân bằng tuyệt vời giữa điểm số mAP cao và tốc độ suy luận nhanh, đặc biệt là trên GPU.
  • Deployment Flexibility (Tính linh hoạt khi triển khai): Được tối ưu hóa cho nhiều loại phần cứng, với khả năng dễ dàng xuất sang các định dạng như ONNXTensorRT để có hiệu suất tối đa.
  • Framework Thân Thiện Với Người Dùng: Được hỗ trợ bởi tài liệu, hướng dẫn và một cộng đồng vững mạnh, giảm bớt rào cản gia nhập cho cả người mới bắt đầu và chuyên gia.
  • Hỗ trợ đa nhiệm: Một mô hình YOLO11 duy nhất có thể được đào tạo cho nhiều tác vụ thị giác khác nhau, giảm độ phức tạp và thời gian phát triển.

Điểm yếu

  • Đánh đổi hiệu suất CPU: Mặc dù được tối ưu hóa cao cho GPU, nhưng các mô hình YOLO11 lớn hơn có thể chậm hơn trên các môi trường chỉ có CPU so với các biến thể EfficientDet nhỏ nhất.
  • Phát Hiện Vật Thể Nhỏ: Giống như các detector một giai đoạn khác, đôi khi nó có thể gặp khó khăn trong việc phát hiện các vật thể cực kỳ nhỏ hoặc bị che khuất nhiều trong các cảnh dày đặc, mặc dù những cải tiến liên tục được thực hiện với mỗi phiên bản.

Tìm hiểu thêm về YOLO11

Hiệu năng và điểm chuẩn

So sánh hiệu năng trên tập dữ liệu COCO val2017 làm nổi bật triết lý thiết kế khác nhau của EfficientDet và YOLO11. EfficientDet vượt trội về hiệu quả lý thuyết (mAP trên mỗi tham số/FLOP), đặc biệt là với các mô hình nhỏ hơn. Tuy nhiên, khi nói đến triển khai thực tế, đặc biệt là trên GPU, YOLO11 thể hiện lợi thế rõ ràng về tốc độ suy luận.

Ví dụ: YOLO11s đạt được mAP (47.0) tương đương với EfficientDet-d3 (47.5), nhưng với tốc độ suy luận nhanh hơn đáng kinh ngạc 2.9 lần trên GPU T4. Mô hình lớn nhất, YOLO11x, vượt trội hơn tất cả các mô hình EfficientDet về độ chính xác (54.7 mAP), đồng thời vẫn nhanh hơn đáng kể trên GPU so với cả các mô hình EfficientDet cỡ trung. Điều này làm cho YOLO11 trở thành lựa chọn vượt trội cho các ứng dụng mà suy luận theo thời gian thực là rất quan trọng.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Các trường hợp sử dụng lý tưởng

EfficientDet

EfficientDet phù hợp nhất cho các tình huống mà tài nguyên tính toán là nút thắt cổ chai chính và tối ưu hóa GPU ít quan trọng hơn.

  • Nghiên cứu học thuật: Tuyệt vời cho các nghiên cứu tập trung vào hiệu quả mô hình và thiết kế kiến trúc.
  • Các ứng dụng bị giới hạn bởi CPU: Các biến thể nhỏ hơn (D0-D2) có thể hoạt động tốt trong các môi trường không có GPU chuyên dụng.
  • Triển khai trên Cloud nhạy cảm về chi phí: Nơi mà việc thanh toán được gắn trực tiếp với FLOPs hoặc mức sử dụng CPU.

YOLO11

YOLO11 vượt trội trong một loạt các ứng dụng thực tế đòi hỏi độ chính xác cao, tốc độ và hiệu quả phát triển.

  • Hệ thống tự động: Cung cấp sức mạnh cho robotxe tự lái bằng khả năng nhận diện độ trễ thấp.
  • An ninh và Giám sát: Cho phép giám sát theo thời gian thực cho hệ thống an ninh và an toàn công cộng.
  • Tự động hóa công nghiệp: Được sử dụng để kiểm soát chất lượng tốc độ cao và phát hiện lỗi trên dây chuyền sản xuất.
  • Phân tích bán lẻ: Thúc đẩy các ứng dụng như quản lý hàng tồn kho và phân tích hành vi khách hàng.

Kết luận

EfficientDet là một kiến trúc mang tính bước ngoặt đã thúc đẩy ranh giới của hiệu quả mô hình. Thiết kế có khả năng mở rộng của nó vẫn là một đóng góp có giá trị cho lĩnh vực này, đặc biệt đối với các môi trường hạn chế về tài nguyên.

Tuy nhiên, đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp hiện đại, linh hoạt và thân thiện với người dùng, Ultralytics YOLO11 là lựa chọn rõ ràng. Nó cung cấp một sự kết hợp vượt trội giữa độ chính xác và tốc độ thực tế, đặc biệt là trên phần cứng hiện đại. Các lợi thế chính của YOLO11 không chỉ nằm ở hiệu suất của nó mà còn ở hệ sinh thái mạnh mẽ xung quanh nó. API được sắp xếp hợp lý, tài liệu mở rộng, khả năng đa tác vụ và hỗ trợ cộng đồng tích cực giúp tăng tốc đáng kể vòng đời phát triển và triển khai, làm cho nó trở thành lựa chọn thiết thực và mạnh mẽ nhất cho một loạt các thách thức về thị giác máy tính ngày nay.

Khám phá các Mô hình Khác

Để khám phá thêm, hãy xem xét các so sánh với các mô hình hiện đại khác sau:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận