Chuyển đến nội dung

YOLOv9 vs. EfficientDet: So sánh kỹ thuật toàn diện giữa các kiến ​​trúc phát hiện đối tượng

Lĩnh vực thị giác máy tính đã chứng kiến ​​sự phát triển nhanh chóng trong việc phát hiện đối tượng theo thời gian thực, với các nhà nghiên cứu liên tục đẩy mạnh giới hạn về độ chính xác và hiệu quả. Khi xây dựng các hệ thống thị giác mạnh mẽ, việc lựa chọn kiến ​​trúc tối ưu là một quyết định quan trọng. Hai mô hình được thảo luận nhiều trong lĩnh vực này là YOLOv9 , một phiên bản nâng cao của... YOLO dòng dõi tập trung vào thông tin về độ dốc, và EfficientDet , một khung công tác có khả năng mở rộng được phát triển bởi Google .

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu so sánh hai kiến ​​trúc này, xem xét cơ chế hoạt động, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.

Nguồn gốc và thông số kỹ thuật của mẫu xe

Việc hiểu rõ nguồn gốc và triết lý thiết kế của một mẫu xe sẽ cung cấp bối cảnh quan trọng cho các quyết định về cấu trúc và ứng dụng thực tiễn của nó.

YOLOv9 Tối đa hóa luồng thông tin

Được phát triển để giải quyết "nút thắt thông tin" trong học sâu, YOLOv9 giới thiệu các phương pháp mới để đảm bảo dữ liệu không bị mất khi đi qua các mạng nơ-ron sâu.

  • Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
  • Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
  • Ngày: 21 tháng 2, 2024
  • Liên kết:Bài báo ArXiv, GitHub chính thức

YOLOv9 Giới thiệu Thông tin Độ dốc Có thể Lập trình (Programmable Gradient Information - PGI) , một khung giám sát phụ trợ đảm bảo thông tin độ dốc được bảo toàn một cách đáng tin cậy trên các lớp sâu. Điều này được kết hợp với Mạng Tổng hợp Lớp Hiệu quả Tổng quát (Generalized Efficient Layer Aggregation Network - GELAN) , giúp tối ưu hóa hiệu quả tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN. Điều này cho phép YOLOv9 Nhằm đạt được độ chính xác cao trong khi vẫn duy trì kích thước nhỏ gọn, phù hợp cho việc xử lý dữ liệu thời gian thực tại biên.

Tìm hiểu thêm về YOLOv9

EfficientDet: Mở rộng hợp chất và BiFPN

Được giới thiệu bởi Google Brain, EfficientDet tiếp cận việc phát hiện đối tượng bằng cách mở rộng kích thước mạng một cách có hệ thống để cân bằng giữa tốc độ và độ chính xác.

EfficientDet dựa trên kiến ​​trúc xương sống EfficientNet kết hợp với Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN) . BiFPN cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng. Kiến trúc này sử dụng phương pháp mở rộng tỷ lệ phức hợp, mở rộng đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp cùng một lúc.

Tìm hiểu thêm về EfficientDet

Lựa chọn Framework phù hợp

Mặc dù kiến ​​trúc lý thuyết rất quan trọng, nhưng hệ sinh thái phần mềm thường quyết định sự thành công của dự án. Ultralytics Cung cấp trải nghiệm người dùng được tối ưu hóa và các công cụ triển khai mạnh mẽ, giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường so với các codebase phức tạp, đòi hỏi nhiều nghiên cứu.

So sánh hiệu năng và số liệu

Khi phân tích hiệu suất mô hình, việc cân bằng độ chính xác với độ trễ suy luận và chi phí tính toán là rất quan trọng. Bảng dưới đây minh họa sự đánh đổi giữa các kích thước khác nhau của... YOLOv9 và EfficientDet.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Phân tích chuyên sâu các chỉ số

  1. Ngưỡng độ chính xác: YOLOv9e đạt độ chính xác tổng thể cao nhất với 55.6% mAP (mean Average Precision) ấn tượng, vượt trội hơn mô hình EfficientDet-d7 nặng nhất (53.7%) đồng thời duy trì tốc độ TensorRT nhanh hơn.
  2. Tốc độ thời gian thực: YOLOv9t chỉ yêu cầu 2.3ms trên GPU T4 khi sử dụng TensorRT, nhấn mạnh hiệu quả của kiến trúc GELAN đối với các luồng video tốc độ cao. EfficientDet-d0 hoạt động nhanh chóng nhưng phải hy sinh mAP đáng kể để đạt được tốc độ đó.
  3. Độ phức tạp tính toán: EfficientDet mở rộng đáng kể về số lượng tham số và FLOPs khi hệ số compound tăng lên. Biến thể d7 đạt độ trễ 128ms, khiến nó chậm hơn hơn 10 lần so với các mô hình YOLO hiện đại tương đương, hạn chế đáng kể việc sử dụng nó trong các môi trường suy luận thời gian thực.

Hiệu quả huấn luyện và hệ sinh thái

Việc lựa chọn một mô hình bao gồm việc đánh giá hệ sinh thái của nhà phát triển. Hệ sinh thái Ultralytics mang lại lợi thế vượt trội về hiệu quả huấn luyện, tính linh hoạt trong triển khai và tính đa năng nói chung.

Lợi thế của Ultralytics

Các mô hình được hỗ trợ trong Ultralytics khuôn khổ, bao gồm YOLOv9 thông qua sự hội nhập cộng đồng và chính thức Ultralytics các mô hình như YOLOv8 Và YOLO11 , được hưởng lợi từ yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến ​​trúc dựa trên Transformer hoặc các kiến ​​trúc cũ hơn. TensorFlow Các kiến ​​trúc như EfficientDet. Tính mạnh mẽ PyTorch Hệ thống máy chủ đảm bảo sự hội tụ nhanh chóng và tính ổn định.

Ví dụ triển khai

Việc huấn luyện một mô hình thị giác máy tính tiên tiến không nên đòi hỏi hàng trăm dòng mã lặp đi lặp lại. Dưới đây là cách bạn có thể dễ dàng bắt đầu quá trình huấn luyện bằng cách sử dụng... Ultralytics Python bưu kiện:

from ultralytics import YOLO

# Load an official Ultralytics model (e.g., YOLO11 or YOLO26)
model = YOLO("yolo11n.pt")

# Train the model natively on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Các trường hợp sử dụng lý tưởng và ứng dụng thực tế

Các mô hình cấu trúc khác nhau làm cho các mô hình này phù hợp với các kịch bản riêng biệt.

Khi nào nên sử dụng EfficientDet: EfficientDet vẫn là một lựa chọn khả thi trong các hệ thống kế thừa đã ăn sâu vào hệ sinh thái TensorFlow, nơi việc di chuyển sang PyTorch là không khả thi. Nó cũng đáng chú ý trong lịch sử nghiên cứu phân tích hình ảnh y tế, nơi việc xử lý ngoại tuyến chậm hơn các bản quét độ phân giải cao là chấp nhận được.

Khi nào nên sử dụng YOLOv9: YOLOv9 vượt trội trong các môi trường yêu cầu trích xuất độ chính xác tối đa từ các lớp sâu mà không làm tăng số lượng tham số một cách đột biến. Các ứng dụng như quản lý giao thông thành phố thông minh phức tạp và giám sát đám đông mật độ cao được hưởng lợi rất nhiều từ khả năng của PGI trong việc duy trì tính toàn vẹn của đặc trưng.

Chuẩn bị cho tương lai: Thế hệ tiếp theo của Trí tuệ nhân tạo thị giác

Trong khi YOLOv9 Và EfficientDet đều mạnh mẽ, các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ điện toán biên , tính ổn định của quá trình huấn luyện và sự đơn giản trong triển khai nên hướng đến những cải tiến mới nhất.

Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho công nghệ tiên tiến nhất hiện nay. Nó cải tiến so với các thế hệ trước (bao gồm YOLO11YOLOv8 ) với một số đột phá quan trọng:

  • Thiết kế NMS-Free End-to-End: YOLO26 loại bỏ hoàn toàn Non-Maximum Suppression, một khái niệm được tiên phong trong YOLOv10, giúp triển khai mô hình nhanh hơn và đơn giản hơn đáng kể.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa việc xuất và khả năng tương thích tốt hơn với thiết bị biên/công suất thấp.
  • Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa hoàn hảo cho thiết bị IoT và các môi trường thiếu GPU chuyên dụng.
  • Trình tối ưu hóa MuSGD: Một sự kết hợp lai mang tính cách mạng giữa SGD và Muon (lấy cảm hứng từ những đổi mới trong huấn luyện LLM), đảm bảo hội tụ nhanh hơn và các lần chạy huấn luyện cực kỳ ổn định.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến cải thiện đáng kể khả năng detect các vật thể nhỏ, một yếu tố quan trọng đối với hình ảnh từ máy bay không người lái trên không và robot học mạnh mẽ.

Tìm hiểu thêm về YOLO26

Bằng cách tận dụng Nền tảng Ultralytics toàn diện, các nhóm có thể dễ dàng quản lý tập dữ liệu, track thử nghiệm và triển khai các mô hình như YOLO26 trên các hệ sinh thái phần cứng đa dạng, đảm bảo các pipeline thị giác máy tính của họ luôn tiên tiến và sẵn sàng cho sản xuất.


Bình luận