Chuyển đến nội dung

EfficientDet so với YOLOv10 : Sự phát triển của hiệu quả phát hiện đối tượng

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc tìm kiếm sự cân bằng tối ưu giữa hiệu suất tính toán và độ chính xác phát hiện luôn là một thách thức không ngừng. Hai kiến trúc đã định hình kỷ nguyên của chúng là EfficientDet , một họ mô hình có khả năng mở rộng từ Google Research , và YOLOv10 , bộ phát hiện đầu cuối thời gian thực mới nhất từ các nhà nghiên cứu tại Đại học Thanh Hoa .

Sự so sánh này khám phá các sắc thái kỹ thuật của cả hai mô hình, xem xét cách YOLOv10 Triết lý thiết kế hiện đại của EfficientDet được cải tiến dựa trên các khái niệm nền tảng do EfficientDet giới thiệu. Chúng tôi sẽ phân tích kiến trúc, số liệu hiệu suất và khả năng triển khai thực tế của họ.

Nguồn gốc và Tổng quan về Mô hình

Hiểu được bối cảnh lịch sử của các mô hình này giúp đánh giá cao những bước tiến công nghệ đã đạt được trong những năm gần đây.

EfficientDet

EfficientDet được giới thiệu vào cuối năm 2019, nhằm mục đích giải quyết vấn đề kém hiệu quả của việc mở rộng mô hình phát hiện đối tượng. EfficientDet đề xuất một phương pháp mở rộng hợp chất, đồng nhất về độ phân giải, độ sâu và chiều rộng.

YOLOv10

Phát hành vào tháng 5 năm 2024, YOLOv10 đẩy mạnh ranh giới của phát hiện thời gian thực bằng cách loại bỏ nhu cầu về việc ngăn chặn không tối đa ( NMS ) trong quá trình xử lý hậu kỳ, giúp giảm độ trễ và đơn giản hóa việc triển khai.

Tìm hiểu thêm về YOLOv10

Tìm hiểu sâu về kiến trúc

Sự khác biệt cốt lõi giữa các mô hình này nằm ở cách tiếp cận hợp nhất tính năng và xử lý hậu kỳ.

EfficientDet: Quy mô hợp chất và BiFPN

EfficientDet được xây dựng trên nền tảng EfficientNet . Đặc điểm nổi bật của nó là Mạng Kim tự tháp Tính năng Hai chiều (BiFPN) . Không giống như các FPN truyền thống vốn tổng hợp các tính năng từ nhiều thang đo khác nhau, BiFPN giới thiệu các trọng số có thể học được để nhấn mạnh các tính năng quan trọng hơn trong quá trình hợp nhất. Nó cũng bổ sung các đường dẫn từ trên xuống và từ dưới lên để tạo điều kiện cho luồng thông tin tốt hơn.

Mặc dù hiệu quả lý thuyết của nó xét về FLOP (Phép tính dấu chấm động trên giây), việc sử dụng nhiều phép tích chập tách biệt theo chiều sâu và cấu trúc BiFPN phức tạp đôi khi có thể dẫn đến thông lượng thấp hơn trên GPU phần cứng so với kiến trúc đơn giản hơn.

YOLOv10 : NMS - Phát hiện đầu cuối miễn phí

YOLOv10 giới thiệu một sự thay đổi mô hình bằng cách loại bỏ sự phụ thuộc vào NMS . Các bộ dò thời gian thực truyền thống tạo ra nhiều dự đoán trùng lặp phải được lọc, tạo ra tình trạng tắc nghẽn độ trễ. YOLOv10 sử dụng các nhiệm vụ kép nhất quán trong quá trình đào tạo: một đầu một-nhiều cho các tín hiệu giám sát phong phú và một đầu một-một cho các tín hiệu chính xác, NMS -suy luận tự do.

Ngoài ra, YOLOv10 sử dụng thiết kế mô hình toàn diện, tập trung vào hiệu quả và độ chính xác . Thiết kế này bao gồm các đầu phân loại nhẹ, lấy mẫu giảm tách biệt kênh không gian và thiết kế khối hướng dẫn theo thứ hạng, đảm bảo mọi tham số đều đóng góp hiệu quả vào hiệu suất của mô hình.

Ưu điểm của NMS -Suy luận tự do

Sự ức chế không tối đa ( NMS ) là một bước hậu xử lý được sử dụng để lọc các hộp giới hạn chồng chéo. Quá trình này diễn ra tuần tự và tốn kém về mặt tính toán, tốc độ thường thay đổi tùy thuộc vào số lượng đối tượng được phát hiện. Bằng cách thiết kế một kiến trúc tự động dự đoán một hộp cho mỗi đối tượng (từ đầu đến cuối), YOLOv10 ổn định độ trễ suy luận, giúp ứng dụng AI biên có khả năng dự đoán cao.

Phân tích hiệu năng: Tốc độ so với độ chính xác

Khi so sánh hiệu suất, YOLOv10 cho thấy những lợi thế đáng kể trên phần cứng hiện đại, đặc biệt là GPU. Mặc dù EfficientDet được tối ưu hóa cho FLOP, YOLOv10 được tối ưu hóa cho độ trễ và thông lượng thực tế.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Những Điểm Chính

  • Độ trễ GPU : YOLOv10 cung cấp khả năng giảm đáng kể thời gian suy luận. Ví dụ, YOLOv10b đạt được mAP (52,7) so với EfficientDet-d6 (52,6) trong khi nhanh hơn 13 lần trên T4 GPU (6,54ms so với 89,29ms).
  • Hiệu suất tham số: YOLOv10 Các mô hình thường yêu cầu ít tham số hơn để có độ chính xác tương đương. Phiên bản YOLOv10n cực kỳ nhẹ (2,3 triệu tham số), lý tưởng cho việc triển khai di động.
  • Độ chính xác: Ở mức cao cấp, YOLOv10x đạt được độ chính xác hiện đại mAP của 54,4, vượt qua biến thể EfficientDet-d7 lớn nhất trong khi vẫn duy trì một phần nhỏ độ trễ.

Hiệu quả đào tạo và dễ sử dụng

Một trong những yếu tố quan trọng nhất đối với các nhà phát triển là khả năng tích hợp dễ dàng các mô hình này vào quy trình làm việc hiện có.

Ultralytics Lợi ích của hệ sinh thái

YOLOv10 được tích hợp vào Ultralytics Hệ sinh thái này mang lại lợi thế đáng kể về tính dễ sử dụngbảo trì . Người dùng được hưởng lợi từ API Python thống nhất, chuẩn hóa việc đào tạo, xác thực và triển khai trên nhiều thế hệ mô hình khác nhau.

  • API đơn giản: Đào tạo mô hình bằng 3 dòng mã.
  • Tài liệu: Hướng dẫn và ví dụ toàn diện.
  • Cộng đồng: Một cộng đồng rộng lớn, năng động cung cấp hỗ trợ và cập nhật.
  • Hiệu quả bộ nhớ: Ultralytics YOLO các mô hình được tối ưu hóa cho thấp hơn CUDA sử dụng bộ nhớ trong quá trình đào tạo so với các kiến trúc cũ hơn hoặc các mô hình dựa trên bộ biến áp nặng.

Ví dụ mã

Đào tạo YOLOv10 với Ultralytics rất đơn giản. Khung này xử lý việc tăng cường dữ liệu, điều chỉnh siêu tham số và ghi nhật ký tự động.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
# efficiently using available GPU resources
model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Run inference on an image
results = model("path/to/image.jpg")

Ngược lại, việc tái tạo kết quả EfficientDet thường đòi hỏi sự phức tạp TensorFlow cấu hình hoặc phiên bản cụ thể của thư viện AutoML, có thể ít thân thiện với người dùng hơn đối với việc tạo mẫu nhanh.

Các trường hợp sử dụng lý tưởng

Cả hai mô hình đều có ưu điểm riêng, nhưng phạm vi ứng dụng lý tưởng của chúng lại khác nhau tùy theo đặc điểm kiến trúc.

YOLOv10 : Ứng dụng thời gian thực và Edge

Do của nó NMS -thiết kế miễn phí và độ trễ thấp, YOLOv10 là sự lựa chọn tuyệt vời cho các nhiệm vụ khẩn cấp.

  • Hệ thống tự động: Quan trọng đối với xe tự lái và máy bay không người lái, nơi các quyết định có độ trễ tính bằng mili giây có thể ngăn ngừa tai nạn.
  • Sản xuất: Kiểm soát chất lượng tốc độ cao trên băng tải nơi vật thể di chuyển nhanh.
  • Bán lẻ thông minh: Quản lý hàng tồn kho theo thời gian thực và phân tích khách hàng bằng các thiết bị biên.
  • Ứng dụng di động: Kích thước nhỏ gọn của YOLOv10n cho phép triển khai dễ dàng trên iOS Và Android thiết bị thông qua CoreML hoặc TFLite .

EfficientDet: Hệ thống học thuật và kế thừa

EfficientDet vẫn có liên quan trong các bối cảnh cụ thể:

  • CPU bị hạn chế về tài nguyên: Các biến thể EfficientDet nhỏ hơn (d0, d1) được tối ưu hóa cao cho chế độ FLOP thấp, đôi khi hoạt động tốt trên các CPU cũ hơn CPU -chỉ phần cứng.
  • Cơ sở nghiên cứu: Đây là cơ sở tuyệt vời cho nghiên cứu học thuật so sánh các quy luật tỷ lệ trong mạng nơ-ron.
  • Các đường ống hiện có: Các tổ chức có di sản TensorFlow các đường ống có thể thấy việc duy trì các triển khai EfficientDet hiện tại dễ dàng hơn là di chuyển.

Tóm tắt điểm mạnh và điểm yếu

YOLOv10

  • Điểm mạnh:
    • NMS -Miễn phí: Triển khai toàn diện giúp đơn giản hóa quá trình tích hợp.
    • Cân bằng hiệu suất: sự đánh đổi giữa tốc độ và độ chính xác không gì sánh bằng trên GPU.
    • Tính linh hoạt: Có khả năng xử lý hiệu quả nhiều nhiệm vụ phát hiện khác nhau.
    • Được bảo trì tốt: Được hỗ trợ bởi Ultralytics hệ sinh thái với những cập nhật thường xuyên.
  • Điểm yếu:
    • Là một kiến trúc mới hơn, nó có thể có ít năm thử nghiệm độ ổn định lâu dài hơn so với các mô hình thời kỳ 2019, mặc dù việc áp dụng nhanh chóng sẽ giảm thiểu điều này.

EfficientDet

  • Điểm mạnh:
    • Khả năng mở rộng: Về mặt lý thuyết, phương pháp mở rộng hợp chất rất hiệu quả và tinh tế.
    • Hiệu quả tham số: Tỷ lệ chính xác/tham số tốt so với thời gian.
  • Điểm yếu:
    • Suy luận chậm: Việc sử dụng nhiều phép tích chập theo chiều sâu thường chậm hơn trên GPU so với YOLO các phép tích chập chuẩn của 's.
    • Độ phức tạp: BiFPN làm tăng thêm độ phức tạp về mặt kiến trúc, có thể khó gỡ lỗi hoặc tối ưu hóa hơn cho các bộ tăng tốc phần cứng tùy chỉnh.

Kết luận

Trong khi EfficientDet là kiến trúc tiên phong giới thiệu các khái niệm quan trọng trong việc mở rộng mô hình, YOLOv10 đại diện cho tiêu chuẩn hiện đại về phát hiện đối tượng. Sự chuyển dịch sang NMS -kiến trúc đầu cuối miễn phí cho phép YOLOv10 để mang lại hiệu suất vượt trội, rất quan trọng cho các ứng dụng thời gian thực ngày nay.

Đối với các nhà phát triển và nhà nghiên cứu muốn xây dựng các hệ thống thị giác mạnh mẽ, hiệu suất cao, YOLOv10 —và rộng hơn Ultralytics Hệ sinh thái này mang đến sự kết hợp hấp dẫn giữa tốc độ, độ chính xác và kinh nghiệm của nhà phát triển. Khả năng đào tạo, xuất và triển khai mô hình liền mạch bằng một nền tảng thống nhất giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường.

Những người quan tâm đến những tiến bộ mới nhất cũng nên khám phá Ultralytics YOLO11 , công cụ này tiếp tục cải tiến các khả năng này để có phạm vi tác vụ thị giác máy tính rộng hơn, bao gồm phân đoạn, ước tính tư thế và phát hiện đối tượng theo hướng.

Khám Phá Các So Sánh Khác

Để đưa ra quyết định sáng suốt nhất, hãy cân nhắc xem xét các so sánh kỹ thuật liên quan sau:


Bình luận