EfficientDet so với YOLOv7: Định hướng các kiến trúc phát hiện đối tượng thời gian thực

Việc lựa chọn kiến trúc mạng thần kinh hiệu quả nhất là yếu tố then chốt cho sự thành công của bất kỳ sáng kiến computer vision nào. Khi nhu cầu về các giải pháp AI hiệu năng cao tăng tốc, việc so sánh các model đã được khẳng định như EfficientDet và YOLOv7 trở nên cần thiết đối với các nhà phát triển đang hướng tới tối ưu hóa cả độ chính xác lẫn hiệu suất tính toán.

Phân tích kỹ thuật toàn diện này khám phá những sắc thái kiến trúc, performance metrics và các kịch bản triển khai lý tưởng cho cả hai model. Ngoài ra, chúng tôi sẽ minh họa lý do tại sao hệ sinh thái tích hợp được cung cấp bởi Ultralytics—đạt đỉnh cao với Ultralytics YOLO26 hiện đại—lại mang đến một giải pháp thay thế vượt trội cho các tác vụ computer vision hiện đại.

Tìm hiểu về EfficientDet

EfficientDet được thiết kế để tối đa hóa độ chính xác trong khi quản lý một cách có hệ thống chi phí tính toán trên nhiều ràng buộc tài nguyên khác nhau. Nó đạt được điều này thông qua một phương pháp tiếp cận mới về mở rộng và hợp nhất đặc trưng (feature fusion).

Chi tiết về EfficientDet:
Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google
Ngày: 20-11-2019
Arxiv: EfficientDet: Scalable and Efficient Object Detection
GitHub: Google AutoML Repository

Kiến trúc và các cải tiến

Về cốt lõi, EfficientDet sử dụng Bi-directional Feature Pyramid Network (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép hợp nhất đặc trưng đa quy mô dễ dàng và nhanh chóng bằng cách giới thiệu các trọng số có thể học được để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này được kết hợp với phương pháp compound scaling nhằm mở rộng đồng nhất độ phân giải, độ sâu và độ rộng của backbone, mạng đặc trưng và các mạng dự đoán box/class cùng một lúc.

Điểm mạnh và Điểm yếu

EfficientDet có khả năng mở rộng cao. Các biến thể nhỏ hơn của nó (d0-d2) cực kỳ hiệu quả về tham số, khiến chúng phù hợp cho các môi trường có hạn chế nghiêm ngặt về lưu trữ. Các biến thể lớn hơn (như d7) đẩy giới hạn của mAP cho quá trình xử lý offline cao cấp.

Tuy nhiên, EfficientDet phụ thuộc nặng nề vào các triển khai TensorFlow cũ và các đường ống AutoML phức tạp. Cơ sở hạ tầng kế thừa này khiến nó nổi tiếng là khó tích hợp vào các quy trình làm việc tập trung vào PyTorch hiện đại. Hơn nữa, nó bị trễ inference đáng kể trên các thiết bị edge khi mở rộng lên các biến thể có độ chính xác cao hơn.

Tìm hiểu thêm về EfficientDet

Tìm hiểu về YOLOv7

YOLOv7, được giới thiệu vào năm 2022, đã mang lại một bước tiến vượt bậc về tốc độ và độ chính xác cho các ứng dụng thời gian thực, thiết lập một baseline mới cho gia đình YOLO vốn đã rất phổ biến vào thời điểm đó.

Chi tiết về YOLOv7:
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Thông tin, Academia Sinica, Đài Loan
Ngày: 06-07-2022
Arxiv: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
GitHub: Official YOLOv7 Repository

Kiến trúc và các cải tiến

YOLOv7 đã giới thiệu Extended Efficient Layer Aggregation Network (E-ELAN). Cải tiến kiến trúc này giúp cải thiện khả năng học tập của mạng mà không phá hủy đường dẫn gradient gốc, cho phép model học các đặc trưng đa dạng hơn một cách hiệu quả. Ngoài ra, nó thực hiện một "trainable bag-of-freebies", tận dụng các kỹ thuật như planned re-parameterization và dynamic label assignment để tăng độ chính xác mà không làm tăng chi phí inference.

Điểm mạnh và Điểm yếu

YOLOv7 vượt trội trong các kịch bản thời gian thực, chẳng hạn như video analytics và điều hướng robot tốc độ cao. Nó mở rộng cực kỳ tốt trên các GPUs cấp máy chủ và cung cấp một triển khai PyTorch gốc, giúp các nhà nghiên cứu học thuật dễ dàng tiếp cận.

Mặc dù có tốc độ ấn tượng, YOLOv7 vẫn dựa vào Non-Maximum Suppression (NMS) để hậu xử lý, điều này có thể gây ra độ trễ thay đổi trong các cảnh đông đúc. Hơn nữa, dung lượng bộ nhớ của nó trong quá trình training lớn hơn đáng kể so với các thế hệ mới hơn, đòi hỏi phần cứng mạnh mẽ hơn để xử lý các batch size lớn.

Tìm hiểu thêm về YOLOv7

So sánh hiệu suất và các chỉ số

Khi so sánh các model này, việc kiểm tra sự đánh đổi giữa độ chính xác, tốc độ inference và kích thước tham số là rất quan trọng. Dưới đây là đánh giá chi tiết về các cấu hình EfficientDet và YOLOv7 khác nhau.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Đánh giá về hiệu năng

Trong khi EfficientDet-d7 đạt được mAP cao nhất, nó đòi hỏi gần 128ms trên một GPU T4. Ngược lại, YOLOv7x đạt mức 53.1 mAP tương đương ở tốc độ 11.57ms cực nhanh, chứng tỏ một bước nhảy vọt lớn về hiệu quả tính toán cho các triển khai thời gian thực.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa EfficientDet và YOLOv7 phụ thuộc vào yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn EfficientDet

EfficientDet là lựa chọn mạnh mẽ cho:

  • Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu với Google Cloud Vision APIs hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa nguyên bản.
  • Nghiên cứu về Compound Scaling: Các đánh giá học thuật tập trung vào việc nghiên cứu ảnh hưởng của sự cân bằng giữa độ sâu mạng, chiều rộng và mở rộng độ phân giải.
  • Triển khai trên di động thông qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho các thiết bị Android hoặc Linux nhúng.

Khi nào nên chọn YOLOv7

YOLOv7 được khuyến nghị cho:

  • Academic Benchmarking: Tái hiện các kết quả hiện đại nhất (state-of-the-art) từ năm 2022 hoặc nghiên cứu tác động của E-ELAN và các kỹ thuật trainable bag-of-freebies.
  • Reparameterization Research: Nghiên cứu các convolution được tái tham số hóa theo kế hoạch và các chiến lược mở rộng mô hình hỗn hợp.
  • Existing Custom Pipelines: Các dự án với quy trình tùy chỉnh mạnh mẽ được xây dựng dựa trên kiến trúc cụ thể của YOLOv7 mà không dễ dàng để tái cấu trúc.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Ưu thế của Ultralytics

Việc chọn đúng kiến trúc không chỉ dừng lại ở các chỉ số thô; nó liên quan đến việc đánh giá toàn bộ vòng đời học máy. Hệ sinh thái Ultralytics cung cấp trải nghiệm nhà phát triển tuyệt vời, làm giảm đáng kể rào cản gia nhập đối với các triển khai AI mạnh mẽ.

  • Dễ sử dụng: Ultralytics cung cấp một Python API rất thống nhất. Các nhà phát triển có thể train, validate và export model chỉ với vài dòng code, loại bỏ nhu cầu quản lý các codebase phức tạp, rời rạc điển hình của EfficientDet.
  • Hệ sinh thái được bảo trì tốt: Hưởng lợi từ các bản cập nhật nhanh chóng, tài liệu phong phú và cộng đồng tích cực, Ultralytics đảm bảo khả năng tương thích với các deployment frameworks mới nhất như TensorRT và OpenVINO.
  • Yêu cầu về bộ nhớ: Bằng cách sử dụng các PyTorch data loader được tối ưu hóa cao và cấu trúc mạng tinh gọn, các model Ultralytics YOLO đòi hỏi ít bộ nhớ CUDA hơn đáng kể trong quá trình training so với các mạng đa nhánh và các model nặng về Transformer.
  • Tính linh hoạt: Không giống như các kiến trúc cũ chỉ gắn liền với việc phát hiện bounding box, các model Ultralytics là những cỗ máy đa nhiệm hỗ trợ Instance Segmentation, Pose EstimationOriented Bounding Boxes (OBB).

Hiệu quả huấn luyện với Ultralytics

Code sau đây chứng minh sự đơn giản khi training một model hiện đại bằng cách sử dụng gói Python của Ultralytics, một sự tương phản rõ rệt với việc cấu hình các đường ống TensorFlow cũ.

from ultralytics import YOLO

# Load the highly recommended YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model automatically handling hyperparameter tuning and augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the model to TensorRT for deployment
model.export(format="engine")

Tiêu chuẩn mới: YOLO26

Trong khi YOLOv7 và EfficientDet đã đặt nền móng cho computer vision hiện đại, bối cảnh đã thay đổi đáng kể với sự ra đời của Ultralytics YOLO26 vào tháng 1 năm 2026. Được thiết kế cho cả độ chính xác cực cao và hiệu suất edge chưa từng có, YOLO26 là khuyến nghị tối ưu cho tất cả các dự án vision mới.

Những đổi mới chính trên YOLO26

  • Thiết kế End-to-End NMS-Free: Dựa trên nền tảng được đặt ra bởi YOLOv10, YOLO26 là end-to-end một cách tự nhiên. Bằng cách loại bỏ hoàn toàn hậu xử lý Non-Maximum Suppression (NMS), nó mang lại độ trễ thấp hơn, nhất quán hơn, điều này rất quan trọng đối với các hệ thống an toàn trọng yếu như xe tự lái.
  • Nhanh hơn tới 43% khi Inference trên CPU: Nhờ việc loại bỏ Distribution Focal Loss (DFL), YOLO26 có quy trình export được đơn giản hóa đáng kể và tốc độ vượt trội trên các thiết bị edge như Raspberry Pi, khiến nó trở thành nhà vô địch không thể tranh cãi của edge computing.
  • MuSGD Optimizer: YOLO26 tích hợp MuSGD Optimizer mang tính cách mạng—một sự lai tạo giữa SGD và Muon được lấy cảm hứng từ các cải tiến trong training LLM từ Moonshot AI. Điều này dẫn đến các động lực training ổn định đáng kể và tốc độ hội tụ nhanh hơn nhiều.
  • ProgLoss + STAL: Việc tích hợp Progressive Loss và Scale-Targeted Alignment Loss cải thiện đáng kể khả năng phát hiện các đối tượng nhỏ của model, giải quyết một điểm đau lớn đối với hình ảnh drone và hệ thống báo động an ninh.
  • Cải tiến theo tác vụ: YOLO26 không chỉ là một detector. Nó có tính năng Semantic segmentation loss và multi-scale proto cho segmentation hoàn hảo, Residual Log-Likelihood Estimation (RLE) cho pose tracking siêu chính xác và angle loss chuyên dụng để giải quyết các mơ hồ về ranh giới OBB.

Tìm hiểu thêm về YOLO26

Khám phá các model thay thế

Trong khi YOLO26 đại diện cho đỉnh cao của công nghệ hiện tại, hệ sinh thái Ultralytics hỗ trợ nhiều model khác nhau được điều chỉnh cho các use case khác nhau.

Đối với các nhà phát triển quản lý các hệ thống cũ vẫn cần scaling không cần anchor truyền thống, YOLO11 vẫn là một tùy chọn mạnh mẽ, được hỗ trợ cao trong nền tảng Ultralytics. Ngoài ra, đối với các kịch bản đòi hỏi rõ ràng các kiến trúc dựa trên Transformer, RT-DETR cung cấp khả năng phát hiện thời gian thực sử dụng vision transformer, thu hẹp khoảng cách giữa các cơ chế attention cao cấp và tốc độ thực thi thời gian thực.

Tóm lại, trong khi EfficientDet cung cấp những hiểu biết mang tính học thuật về compound scaling và YOLOv7 cung cấp hiệu suất thời gian thực baseline mạnh mẽ, các doanh nghiệp hiện đại được phục vụ tốt nhất bằng cách áp dụng Ultralytics Platform. Bằng cách tận dụng YOLO26, các nhóm có thể đảm bảo hiệu suất tối đa, giảm thiểu ma sát khi training và đảm bảo các triển khai AI của họ sẵn sàng cho tương lai.

Bình luận