Chuyển đến nội dung

EfficientDet so với YOLOv6 -3.0: So sánh kỹ thuật toàn diện

Trong bối cảnh thị giác máy tính đang phát triển không ngừng, việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là rất quan trọng để triển khai thành công. So sánh này khám phá những điểm khác biệt về mặt kỹ thuật giữa EfficientDet , một mô hình tập trung vào nghiên cứu, với Google và YOLOv6 -3.0 , một máy dò cấp công nghiệp của Meituan. Trong khi EfficientDet giới thiệu các khái niệm hiệu quả đột phá như quy mô hợp chất, YOLOv6 -3.0 được thiết kế đặc biệt cho các ứng dụng công nghiệp có độ trễ thấp, làm nổi bật sự chuyển dịch từ chuẩn mực học thuật sang thông lượng thực tế.

So sánh các chỉ số hiệu suất

Các điểm chuẩn sau đây trên tập dữ liệu COCO minh họa sự đánh đổi giữa hiệu quả kiến trúc và độ trễ suy luận. YOLOv6 -3.0 thể hiện tốc độ vượt trội trên GPU phần cứng, tận dụng các kỹ thuật tham số hóa lại, trong khi EfficientDet vẫn duy trì độ chính xác cạnh tranh với chi phí tính toán cao hơn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7

EfficientDet: Hiệu quả có thể mở rộng

EfficientDet đại diện cho một bước chuyển đổi mô hình trong thiết kế mô hình bằng cách tối ưu hóa một cách có hệ thống độ sâu, chiều rộng và độ phân giải của mạng. Được xây dựng trên nền tảng EfficientNet, EfficientDet đã giới thiệu Mạng Kim tự tháp Tính năng Hai chiều (BiFPN), cho phép hợp nhất tính năng đa quy mô một cách dễ dàng.

Đổi mới kiến trúc

Cốt lõi của EfficientDet là BiFPN , cho phép thông tin được truyền tải theo cả hướng từ trên xuống và từ dưới lên, liên tục hợp nhất các đặc trưng ở các tỷ lệ khác nhau. Điều này trái ngược với Mạng Kim tự tháp Đặc trưng (FPN) đơn giản hơn thường được sử dụng trong các bộ dò cũ. Ngoài ra, EfficientDet sử dụng Compound Scaling , một phương pháp đồng nhất tỷ lệ mạng xương sống, BiFPN và mạng lớp/hộp bằng một hệ số hợp chất $\phi$ duy nhất. Cách tiếp cận có cấu trúc này đảm bảo tài nguyên được cân bằng trên các chiều của mô hình, tránh tình trạng tắc nghẽn thường gặp trong các kiến trúc được thiết kế thủ công.

Điểm mạnh và Điểm yếu

EfficientDet vượt trội về hiệu suất tham số, đạt được mAP cao với số lượng tham số tương đối ít hơn so với các đối thủ cùng thời như YOLOv3. EfficientDet đặc biệt hiệu quả cho các tác vụ phân loại và phát hiện hình ảnh , trong đó kích thước mô hình (lưu trữ) là một hạn chế nhưng độ trễ có thể thương lượng. Tuy nhiên, các kết nối bất thường phức tạp trong lớp BiFPN và việc sử dụng rộng rãi các phép tích chập phân tách theo chiều sâu có thể không hiệu quả trên các GPU tiêu chuẩn, dẫn đến độ trễ suy luận cao hơn mặc dù số lượng FLOP thấp hơn.

Độ trễ so với FLOP

Mặc dù EfficientDet có FLOP (Phép tính dấu chấm động) thấp, nhưng điều này không phải lúc nào cũng đồng nghĩa với tốc độ nhanh hơn trên GPU. Chi phí truy cập bộ nhớ của các phép tích chập tách rời theo chiều sâu có thể gây tắc nghẽn hiệu suất so với các phép tích chập tiêu chuẩn được sử dụng trong YOLO các mô hình.

Tìm hiểu thêm về EfficientDet

YOLOv6 -3.0: Tốc độ công nghiệp

YOLOv6 -3.0 chuyển từ các số liệu thuần túy mang tính học thuật sang tập trung vào thông lượng thực tế, đặc biệt là tối ưu hóa cho các hạn chế về phần cứng trong môi trường công nghiệp.

Kiến trúc và Thiết kế

YOLOv6 -3.0 sử dụng EfficientRep Backbone , sử dụng tham số hóa lại (kiểu RepVGG) để tách rời kiến trúc thời gian huấn luyện và thời gian suy luận. Trong quá trình huấn luyện, mô hình sử dụng các khối đa nhánh phức tạp để cải thiện luồng gradient; trong quá trình suy luận, các khối này được gộp thành các phép tích chập $3 \times 3$ đơn, tối đa hóa mật độ tính toán GPU . Phiên bản 3.0 cũng tích hợp các chiến lược nâng cao như Huấn luyện Nhận biết Lượng tử hóa (QAT) và tự chưng cất, cho phép mô hình duy trì độ chính xác ngay cả khi được lượng tử hóa ở độ chính xác INT8 để triển khai trên các thiết bị biên.

Các trường hợp sử dụng lý tưởng

Do thiết kế thân thiện với phần cứng, YOLOv6 -3.0 lý tưởng cho:

  • Sản xuất tốc độ cao : Phát hiện lỗi trên băng chuyền chuyển động nhanh khi tốc độ suy luận không thể thương lượng.
  • Tự động hóa bán lẻ : Cung cấp năng lượng cho hệ thống thanh toán không cần thu ngân, yêu cầu nhận dạng đối tượng có độ trễ thấp.
  • Phân tích thành phố thông minh : Xử lý nhiều luồng video để phân tích giao thông hoặc hệ thống an ninh .

Tìm hiểu thêm về YOLOv6 -3.0

Phân tích so sánh

Sự khác biệt trong triết lý thiết kế giữa hai mô hình này tạo ra những lợi thế riêng biệt tùy thuộc vào phần cứng triển khai.

Độ chính xác so với Tốc độ

Như thể hiện trong bảng, YOLOv6 -3.0l đạt được hiệu suất tương đương mAP (52,8) đến EfficientDet-d6 (52,6) nhưng hoạt động nhanh hơn gần 10 lần trên T4 GPU (8,95ms so với 89,29ms). Khoảng cách lớn này làm nổi bật sự kém hiệu quả của phép tích chập theo chiều sâu trên phần cứng thông lượng cao so với phép tích chập dày đặc của YOLOv6 EfficientDet vẫn giữ được lợi thế nhỏ về độ chính xác tuyệt đối với biến thể D7 lớn nhất của mình, nhưng lại có chi phí độ trễ cản trở việc suy luận theo thời gian thực .

Đào tạo và tính linh hoạt

EfficientDet phụ thuộc rất nhiều vào TensorFlow hệ sinh thái và TPU tăng tốc cho việc đào tạo hiệu quả. Ngược lại, YOLOv6 phù hợp trong PyTorch hệ sinh thái, giúp các nhà nghiên cứu nói chung dễ tiếp cận hơn. Tuy nhiên, cả hai mô hình đều được thiết kế chủ yếu để phát hiện đối tượng . Đối với các dự án yêu cầu phân đoạn thực thể hoặc ước tính tư thế , người dùng thường cần tìm kiếm các nhánh bên ngoài hoặc kiến trúc thay thế.

Các Ultralytics Lợi thế

Trong khi YOLOv6 -3.0 và EfficientDet là những mô hình có khả năng, Ultralytics YOLO11 đại diện cho sự phát triển tiếp theo trong thị giác máy tính, giải quyết những hạn chế của cả hai mô hình tiền nhiệm thông qua một khuôn khổ thống nhất, lấy người dùng làm trung tâm.

Tại sao nên chọn Ultralytics YOLO11?

  1. Dễ sử dụng & Hệ sinh thái : Không giống như các kho lưu trữ phân mảnh của các mô hình nghiên cứu, Ultralytics mang lại trải nghiệm liền mạch. API Python nhất quán cho phép bạn đào tạo, xác thực và triển khai các mô hình chỉ trong vài dòng mã.
  2. Tính linh hoạt vô song : YOLO11 không chỉ giới hạn ở các hộp giới hạn. Nó hỗ trợ Phân loại hình ảnh , Phân đoạn thực thể , Ước tính tư thếHộp giới hạn định hướng (OBB) , biến nó thành giải pháp trọn gói cho các quy trình AI phức tạp.
  3. Hiệu quả đào tạo : Ultralytics Các mô hình được tối ưu hóa cho yêu cầu bộ nhớ , thường hội tụ nhanh hơn và sử dụng ít VRAM hơn so với các kiến trúc nặng về bộ biến áp hoặc kiến trúc cũ. Khả năng tiếp cận này giúp phổ cập hóa việc phát triển AI cao cấp cho những người không có cụm máy tính lớn.
  4. Hệ sinh thái được duy trì tốt : Được hỗ trợ bởi một cộng đồng năng động và cập nhật thường xuyên, Ultralytics hệ sinh thái đảm bảo các dự án của bạn luôn sẵn sàng cho tương lai, với khả năng tích hợp dễ dàng vào các công cụ chú thích dữ liệu , ghi nhật ký và triển khai.

Phát triển hợp lý

Với Ultralytics , việc chuyển từ Phát hiện đối tượng sang Phân đoạn phiên bản cũng đơn giản như việc thay đổi tên mô hình (ví dụ: yolo11n.pt đến yolo11n-seg.pt). Tính linh hoạt này giúp giảm đáng kể thời gian phát triển so với việc áp dụng các kiến trúc khác nhau như EfficientDet cho các tác vụ mới.

Ví dụ mã

Trải nghiệm sự đơn giản của Ultralytics API so với cơ sở mã nghiên cứu phức tạp:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

Tìm hiểu thêm về YOLO11

Kết luận

EfficientDet vẫn là một cột mốc trong lý thuyết về tỷ lệ mô hình, lý tưởng cho nghiên cứu học thuật hoặc xử lý ngoại tuyến, nơi độ chính xác là thước đo duy nhất. YOLOv6 -3.0 mở rộng phạm vi ứng dụng AI công nghiệp, mang lại tốc độ tuyệt vời trên phần cứng được hỗ trợ.

Tuy nhiên, đối với một giải pháp toàn diện, cân bằng giữa hiệu suất tiên tiến và năng suất của nhà phát triển, Ultralytics YOLO11 là lựa chọn được khuyến nghị. Việc tích hợp các tác vụ thị giác đa dạng, dung lượng bộ nhớ thấp và hệ thống hỗ trợ mạnh mẽ cho phép các nhà phát triển tự tin chuyển từ nguyên mẫu sang sản xuất.

Khám phá các Mô hình Khác

Nếu bạn muốn tìm hiểu sâu hơn, hãy xem xét những so sánh liên quan sau trong tài liệu của chúng tôi:


Bình luận