Chuyển đến nội dung

YOLOv6 -3.0 so với EfficientDet: Cân bằng tốc độ và độ chính xác trong phát hiện đối tượng

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là rất quan trọng cho sự thành công của dự án. Bài so sánh này đi sâu vào YOLOv6EfficientDet , hai mô hình nổi bật tiếp cận thách thức nhận dạng hình ảnh từ nhiều góc độ khác nhau. Trong khi EfficientDet tập trung vào hiệu quả tham số và khả năng mở rộng, YOLOv6 -3.0 được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi độ trễ suy luận và tốc độ thời gian thực là không thể thương lượng.

Chỉ số hiệu suất và phân tích kỹ thuật

Sự khác biệt cơ bản giữa hai kiến trúc này nằm ở triết lý thiết kế của chúng. EfficientDet dựa trên một cơ chế hợp nhất tính năng tinh vi được gọi là BiFPN, giúp cải thiện độ chính xác nhưng thường phải đánh đổi bằng tốc độ tính toán trên GPU. Ngược lại, YOLOv6 -3.0 áp dụng thiết kế nhận biết phần cứng, sử dụng tham số hóa lại để hợp lý hóa các hoạt động trong quá trình suy luận, mang lại FPS (khung hình mỗi giây) cao hơn đáng kể.

Bảng dưới đây minh họa sự đánh đổi này. Trong khi EfficientDet-d7 đạt được hiệu suất cao mAP , độ trễ của nó là đáng kể. Ngược lại, YOLOv6 -3.0l cung cấp độ chính xác tương đương với thời gian suy luận được giảm đáng kể, khiến nó phù hợp hơn nhiều với các tình huống suy luận thời gian thực .

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Tối ưu hóa hiệu suất

Đối với việc triển khai công nghiệp, kết hợp YOLOv6 -3.0 với TensorRT có thể mang lại những cải tiến tốc độ đáng kể. Sự đơn giản về mặt kiến trúc của YOLOv6 cho phép nó lập bản đồ rất hiệu quả GPU hướng dẫn phần cứng so với mạng lưới kim tự tháp tính năng phức tạp được tìm thấy trong các mô hình cũ hơn.

YOLOv6 -3.0: Được xây dựng cho ngành công nghiệp

YOLOv6 -3.0 là máy dò vật thể một tầng được thiết kế để thu hẹp khoảng cách giữa nghiên cứu hàn lâm và yêu cầu công nghiệp. Nó ưu tiên tốc độ mà không ảnh hưởng đến độ chính xác cần thiết cho các nhiệm vụ như kiểm tra chất lượng .

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: YOLOv6 v3.0: Tải lại toàn diện
GitHub: meituan/ YOLOv6
Tài liệu: Tài liệu YOLOv6

Kiến trúc và Điểm mạnh

Cốt lõi của YOLOv6 -3.0 là xương sống hiệu quả và thiết kế "RepOpt" của nó. Bằng cách sử dụng tham số hóa lại, mô hình tách biệt các cấu trúc đa nhánh trong thời gian huấn luyện khỏi các cấu trúc đơn nhánh trong thời gian suy luận. Điều này tạo ra một mô hình dễ huấn luyện với các gradient phong phú nhưng lại cực kỳ nhanh chóng để thực thi.

  • Tự chưng cất: Chiến lược đào tạo sử dụng tự chưng cất, trong đó dự đoán của chính mô hình đóng vai trò như một nhãn mềm để hướng dẫn việc học, tăng cường độ chính xác mà không cần dữ liệu bổ sung.
  • Hỗ trợ lượng tử hóa: Được thiết kế có tính đến lượng tử hóa mô hình , giảm thiểu độ chính xác bị mất khi chuyển đổi sang INT8 để triển khai ở biên.
  • Tập trung vào công nghiệp: Lý tưởng cho AI trong sản xuất và robot, nơi độ trễ tính bằng mili giây rất quan trọng.

Tìm hiểu thêm về YOLOv6 -3.0

EfficientDet: Độ chính xác có thể mở rộng

EfficientDet đã cách mạng hóa lĩnh vực này bằng cách giới thiệu khái niệm mở rộng hợp chất vào phát hiện đối tượng. Công nghệ này tối ưu hóa đồng thời độ sâu, chiều rộng và độ phân giải của mạng để đạt hiệu suất tuyệt vời trên mỗi tham số.

Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
Tổ chức: Google
Ngày: 2019-11-20
Arxiv: EfficientDet: Phát hiện đối tượng hiệu quả và có khả năng mở rộng
GitHub: google /automl/efficientdet

Kiến trúc và Điểm mạnh

EfficientDet dựa trên nền tảng EfficientNet và giới thiệu Mạng Kim tự tháp Tính năng Hai chiều (BiFPN). Cấu trúc cổ phức tạp này cho phép hợp nhất tính năng đa tỷ lệ dễ dàng và nhanh chóng.

  • BiFPN: Không giống như FPN truyền thống, BiFPN cho phép thông tin truyền theo cả hướng từ trên xuống và từ dưới lên, áp dụng trọng số cho các tính năng đầu vào khác nhau để nhấn mạnh tầm quan trọng của chúng.
  • Tỷ lệ hợp chất: Hệ số đơn giản $\phi$ cho phép người dùng mở rộng mô hình (từ d0 đến d7) tùy thuộc vào các tài nguyên có sẵn, cung cấp đường cong tính toán độ chính xác có thể dự đoán được.
  • Hiệu quả tham số: Các biến thể nhỏ hơn (d0-d2) cực kỳ nhẹ về mặt kích thước đĩa và FLOP , khiến chúng hữu ích cho các môi trường hạn chế về lưu trữ.

Sự phức tạp về kiến trúc

Mặc dù BiFPN có hiệu quả cao về độ chính xác, nhưng các mẫu truy cập bộ nhớ không đều của nó có thể khiến nó chậm hơn trên GPU so với các khối tích chập dày đặc, thông thường được sử dụng trong YOLO kiến trúc. Đây là lý do tại sao EfficientDet thường đánh giá chuẩn với độ trễ suy luận cao hơn mặc dù có ít tham số hơn.

Tìm hiểu thêm về EfficientDet

Các trường hợp sử dụng thực tế

Sự lựa chọn giữa các mô hình này thường phụ thuộc vào những hạn chế cụ thể của môi trường triển khai.

Kịch bản lý tưởng cho YOLOv6 -3.0

  • Sản xuất tốc độ cao: Phát hiện các lỗi trên băng tải chuyển động nhanh, nơi cần FPS cao để track mọi mặt hàng.
  • Điều hướng tự động: Cho phép robot điều hướng trong môi trường động bằng cách xử lý nguồn cấp dữ liệu video theo thời gian thực.
  • Điện toán biên: Triển khai trên các thiết bị như NVIDIA Jetson , nơi GPU tài nguyên phải được tối đa hóa để đạt được thông lượng.

Kịch bản lý tưởng cho EfficientDet

  • Phân tích y tế: phân tích hình ảnh tĩnh có độ phân giải cao, chẳng hạn như phát hiện khối u trên phim X-quang, trong đó thời gian xử lý ít quan trọng hơn độ chính xác.
  • Cảm biến từ xa: Xử lý hình ảnh vệ tinh ngoại tuyến để xác định những thay đổi về môi trường hoặc sự phát triển đô thị.
  • IoT lưu trữ thấp: Các thiết bị có dung lượng lưu trữ cực kỳ hạn chế, yêu cầu kích thước tệp mô hình nhỏ (như EfficientDet-d0).

Lợi thế của Ultralytics: Tại sao nên chọn YOLO11?

Trong khi YOLOv6 -3.0 và EfficientDet là những mô hình có khả năng, Ultralytics YOLO11 đại diện cho công nghệ thị giác máy tính tiên tiến nhất. YOLO11 tinh chỉnh các thuộc tính tốt nhất của trước đó YOLO các thế hệ và tích hợp chúng thành một hệ sinh thái liền mạch, thân thiện với người dùng.

Ưu điểm chính của YOLO11

  1. Dễ sử dụng: Ultralytics ưu tiên trải nghiệm của nhà phát triển. Với API Pythonic, bạn có thể đào tạo, xác thực và triển khai các mô hình chỉ trong vài dòng mã, không giống như các tệp cấu hình phức tạp thường được yêu cầu cho EfficientDet.
  2. Tính linh hoạt: Không giống như YOLOv6 và EfficientDet chủ yếu là các mô hình phát hiện đối tượng , YOLO11 hỗ trợ nhiều tác vụ bao gồm phân đoạn trường hợp , ước tính tư thế , hộp giới hạn định hướng (OBB) và phân loại.
  3. Cân bằng hiệu suất: YOLO11 đạt được sự cân bằng tối ưu giữa tốc độ và độ chính xác. Nó luôn vượt trội hơn các kiến trúc cũ trên tập dữ liệu COCO trong khi vẫn duy trì độ trễ thấp.
  4. Hệ sinh thái được duy trì tốt: Ultralytics Các mô hình được hỗ trợ bởi một cộng đồng năng động và cập nhật thường xuyên. Bạn có quyền truy cập vào tài liệu , hướng dẫn chi tiết và tích hợp liền mạch với các công cụ như Ultralytics HUB để đào tạo đám mây và quản lý dữ liệu.
  5. Hiệu quả đào tạo: YOLO11 được thiết kế để tiết kiệm tài nguyên trong quá trình đào tạo, thường hội tụ nhanh hơn và yêu cầu ít bộ nhớ GPU so với các mô hình dựa trên máy biến áp phức tạp hoặc kiến trúc cũ hơn.
from ultralytics import YOLO

# Load the YOLO11 model (recommended over older versions)
model = YOLO("yolo11n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Tìm hiểu thêm về YOLO11

Khám phá các Mô hình Khác

Nếu bạn đang đánh giá các tùy chọn cho quy trình xử lý thị giác máy tính của mình, hãy cân nhắc khám phá các mô hình khác trong Ultralytics Danh mục. YOLOv8 cung cấp hiệu suất mạnh mẽ cho nhiều tác vụ, trong khi RT-DETR dựa trên bộ biến áp cung cấp một giải pháp thay thế cho các tình huống đòi hỏi nhận thức ngữ cảnh toàn cầu. Đối với các ứng dụng dành riêng cho thiết bị di động, YOLOv10 cũng đáng để tìm hiểu. Việc so sánh chúng với EfficientDet có thể giúp bạn tinh chỉnh lựa chọn cho phù hợp với yêu cầu cụ thể về phần cứng và độ chính xác.


Bình luận