Chuyển đến nội dung

YOLOv7 so với EfficientDet: So sánh kỹ thuật về kiến trúc phát hiện đối tượng thời gian thực

Phát hiện vật thể vẫn là nền tảng của thị giác máy tính, thúc đẩy đổi mới trong nhiều lĩnh vực, từ xe tự hành đến hình ảnh y tế. Việc lựa chọn kiến trúc phù hợp là rất quan trọng để cân bằng giữa độ chính xác, tốc độ và tài nguyên tính toán. Phân tích này cung cấp cái nhìn sâu sắc về YOLOv7EfficientDet , hai mô hình có ảnh hưởng lớn đã định hình bối cảnh phát hiện thời gian thực.

Thiết kế và triết lý kiến trúc

Sự khác biệt cơ bản giữa hai kiến trúc này nằm ở mục tiêu tối ưu hóa của chúng. EfficientDet , được phát triển bởi Google Nhóm Brain ưu tiên hiệu quả tham số và các phép toán dấu chấm động (FLOP). Nó tận dụng kiến trúc có khả năng mở rộng cho phép người dùng đánh đổi tài nguyên để lấy độ chính xác một cách tuyến tính. Ngược lại, YOLOv7 , được tạo ra bởi các tác giả của YOLOv4 (Chien-Yao Wang và cộng sự), tập trung vào việc tối đa hóa tốc độ suy luận trên GPU phần cứng trong khi vẫn duy trì độ chính xác hiện đại.

EfficientDet: Quy mô hợp chất và BiFPN

EfficientDet được xây dựng trên nền tảng EfficientNet , sử dụng phương pháp mở rộng hợp chất để đồng đều độ phân giải, độ sâu và chiều rộng mạng. Một cải tiến quan trọng trong EfficientDet là Mạng Kim tự tháp Tính năng Hai chiều (BiFPN) . Không giống như các FPN truyền thống, BiFPN cho phép hợp nhất tính năng đa quy mô dễ dàng và nhanh chóng bằng cách áp dụng các trọng số có thể học được để tìm hiểu tầm quan trọng của các tính năng đầu vào khác nhau. Thiết kế này giúp EfficientDet cực kỳ hiệu quả cho các ứng dụng điện toán biên, nơi bộ nhớ và FLOP bị giới hạn nghiêm ngặt.

Tìm hiểu thêm về EfficientDet

YOLOv7 : E-ELAN và tham số hóa lại mô hình

YOLOv7 Giới thiệu Mạng Tổng hợp Lớp Hiệu quả Mở rộng (E-ELAN) . Kiến trúc này kiểm soát các đường dẫn gradient ngắn nhất và dài nhất để cải thiện khả năng học của mạng mà không phá hủy đường dẫn gradient ban đầu. Ngoài ra, YOLOv7 sử dụng tham số hóa lại mô hình , một kỹ thuật trong đó cấu trúc huấn luyện phức tạp được đơn giản hóa thành cấu trúc suy luận hợp lý. Điều này tạo ra một mô hình mạnh mẽ trong quá trình huấn luyện nhưng cực kỳ nhanh khi triển khai trên GPU.

Tìm hiểu thêm về YOLOv7

Phân tích hiệu suất: Số liệu và tiêu chuẩn

Khi so sánh hiệu suất, lựa chọn thường phụ thuộc vào phần cứng triển khai. EfficientDet nổi bật trong môi trường công suất thấp (CPU), trong khi YOLOv7 được thiết kế cho thông lượng cao GPU suy luận.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Những Điểm Chính

  • Độ trễ so với Hiệu quả: Trong khi EfficientDet-d0 sử dụng ít tham số hơn đáng kể (3,9M), YOLOv7l cung cấp cao hơn nhiều mAP (51,4%) với độ trễ cực thấp trên GPU (6,84ms). Điều này chứng minh YOLOv7 sử dụng hiệu quả hơn sức mạnh xử lý song song.
  • Khả năng mở rộng: EfficientDet cung cấp một đường dẫn mở rộng chi tiết từ d0 đến d7, cho phép các nhà phát triển tinh chỉnh kích thước mô hình cho các mục đích cụ thể CPU hạn chế.
  • Độ chính xác cao cấp: Ở mức cao nhất, EfficientDet-d7 đạt được độ chính xác tuyệt vời (53,7% mAP ), nhưng phải trả giá bằng độ trễ cao (~128ms). YOLOv7x đạt được độ chính xác tương đương (53,1% mAP ) ở mức ít hơn một phần mười thời gian suy luận (11,57ms) trên T4 GPU .

Cân nhắc về phần cứng

Nếu mục tiêu triển khai của bạn là một mục tiêu chung CPU hoặc bộ xử lý di động, FLOP thấp hơn của các mô hình EfficientDet (cụ thể là d0-d2) thường mang lại thời lượng pin và khả năng quản lý nhiệt tốt hơn. Đối với GPU biên (như NVIDIA Jetson) hoặc máy chủ suy luận đám mây, YOLOv7 cung cấp tốc độ khung hình cao hơn đáng kể cho phân tích video thời gian thực.

Phương pháp đào tạo và tối ưu hóa

Các chiến lược đào tạo cho các mô hình này phản ánh mục tiêu kiến trúc của chúng.

YOLOv7 sử dụng phương pháp "Túi quà tặng miễn phí", kết hợp các phương pháp làm tăng chi phí đào tạo nhưng cải thiện độ chính xác mà không ảnh hưởng đến tốc độ suy luận. Các kỹ thuật chính bao gồm:

  • Giám sát sâu từ thô đến tinh: Một đầu phụ được sử dụng để giám sát các lớp giữa của mạng, với các chiến lược gán nhãn hướng dẫn đầu phụ khác với đầu chính.
  • Gán nhãn động: Mô hình điều chỉnh cách gán các đối tượng thực tế vào mỏ neo trong quá trình đào tạo, cải thiện sự hội tụ.

EfficientDet chủ yếu dựa vào AutoML để tìm ra xương sống tối ưu và kiến trúc mạng tính năng. Việc đào tạo của nó thường bao gồm:

  • Độ sâu ngẫu nhiên: Bỏ các lớp ngẫu nhiên trong quá trình đào tạo để cải thiện khả năng khái quát hóa.
  • Kích hoạt Swish: Một chức năng mượt mà, không đơn điệu luôn vượt trội hơn ReLU trong các mạng sâu hơn.

Các Ultralytics Lợi thế

Trong khi cả hai YOLOv7 và EfficientDet rất mạnh mẽ, bối cảnh thị giác máy tính đang phát triển nhanh chóng. Hệ sinh thái Ultralytics cung cấp các giải pháp thay thế hiện đại như YOLO11 , tổng hợp những đặc điểm tốt nhất của các kiến trúc trước đây đồng thời nâng cao trải nghiệm của nhà phát triển.

Dễ sử dụng và hệ sinh thái

Một trong những thách thức chính với các kho lưu trữ hướng đến nghiên cứu (như cơ sở mã EfficientDet ban đầu) là tính phức tạp của việc tích hợp. Ultralytics giải quyết điều này bằng một sự thống nhất Python gói. Các nhà phát triển có thể đào tạo, xác thực và triển khai các mô hình chỉ với một vài dòng mã, được hỗ trợ bởi tài liệu toàn diện và sự hỗ trợ tích cực của cộng đồng.

Sự cân bằng giữa tính linh hoạt và hiệu suất

Ultralytics Các mô hình không bị giới hạn bởi các hộp giới hạn. Chúng hỗ trợ phân đoạn thực thể , ước lượng tư thế , phân loạiPhát hiện Đối tượng Định hướng (OBB) . Về mặt hiệu suất, các mô hình hiện đại YOLO các phiên bản (như YOLOv8 Và YOLO11 ) thường đạt được độ chính xác cao hơn trên mỗi tham số so với EfficientDet và suy luận nhanh hơn YOLOv7 , tạo ra sự cân bằng lý tưởng cho việc triển khai trong thế giới thực.

Trí nhớ và hiệu quả đào tạo

Ultralytics YOLO các mô hình nổi tiếng về hiệu quả bộ nhớ. Chúng thường yêu cầu ít hơn CUDA bộ nhớ trong quá trình đào tạo so với các bộ dò dựa trên Transformer hoặc các kiến trúc mở rộng cũ hơn. Điều này cho phép các nhà nghiên cứu đào tạo các mô hình tiên tiến trên phần cứng tiêu dùng. Hơn nữa, việc học chuyển giao được hợp lý hóa với các trọng số được đào tạo trước chất lượng cao có thể tải xuống ngay lập tức.

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
predictions = model("https://ultralytics.com/images/bus.jpg")

Thông số kỹ thuật của mô hình

YOLOv7

EfficientDet

Các trường hợp sử dụng thực tế

Khi nào nên chọn EfficientDet

EfficientDet vẫn là ứng cử viên mạnh mẽ cho các hệ thống nhúng trong đó GPU không có khả năng tăng tốc.

  • Ứng dụng di động: Android / iOS các ứng dụng thực hiện phát hiện đối tượng trên CPU .
  • Cảm biến IoT từ xa: Thiết bị chạy bằng pin theo dõi những thay đổi về môi trường , trong đó mỗi miliwatt tính toán đều có giá trị.

Khi nào nên chọn YOLOv7

YOLOv7 hoạt động tốt trong môi trường công nghiệp hiệu suất cao .

  • Lái xe tự động: Phát hiện người đi bộ và phương tiện ở tốc độ khung hình cao để đảm bảo an toàn.
  • Thành phố thông minh: Phân tích nhiều luồng video cùng lúc để quản lý lưu lượng trên máy chủ biên.

Kết luận

Cả hai kiến trúc đều là những cột mốc quan trọng trong lĩnh vực thị giác máy tính. EfficientDet đã chứng minh sức mạnh của việc mở rộng quy mô hợp chất để đạt hiệu quả tham số, trong khi YOLOv7 đã vượt qua giới hạn của những gì có thể đạt được với GPU tối ưu hóa độ trễ.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm giải pháp hiện đại, dễ bảo trì và linh hoạt nhất, dòng sản phẩm Ultralytics YOLO11 là lựa chọn được khuyến nghị. Dòng sản phẩm này mang lại sự cân bằng giữa độ chính xác và tốc độ vượt trội, quy trình làm việc đơn giản hơn và hệ sinh thái mạnh mẽ giúp đơn giản hóa hành trình từ khâu quản lý dữ liệu đến triển khai .

Khám phá các Mô hình Khác

Nếu bạn muốn so sánh các kiến trúc phát hiện đối tượng khác, hãy cân nhắc các tài nguyên sau:


Bình luận