EfficientDet so với YOLOX: So sánh kỹ thuật toàn diện

Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là một quyết định then chốt trong quá trình phát triển thị giác máy tính. Hai mô hình nổi bật đã định hình bối cảnh thị giác máy tính là EfficientDet , được phát triển bởi Google để có khả năng mở rộng tối ưu, và YOLOX , một bộ phát hiện không cần neo hiệu suất cao từ Megvii. Trong khi EfficientDet tập trung vào việc tối đa hóa độ chính xác trong phạm vi ngân sách tính toán chặt chẽ bằng cách sử dụng phương pháp mở rộng hợp chất, YOLOX ưu tiên tốc độ suy luận và quy trình đào tạo được đơn giản hóa.

Hướng dẫn này cung cấp phân tích chi tiết về kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp bạn lựa chọn giải pháp phù hợp nhất cho dự án của mình. Ngoài ra, chúng tôi cũng khám phá cách các giải pháp thay thế hiện đại như Ultralytics YOLO11 tích hợp điểm mạnh của những giải pháp tiền nhiệm này vào một khuôn khổ thống nhất, thân thiện với người dùng.

EfficientDet: Hiệu quả có thể mở rộng

EfficientDet được giới thiệu để giải quyết thách thức trong việc mở rộng quy mô mô hình phát hiện đối tượng một cách hiệu quả. Không giống như các kiến trúc trước đây chỉ mở rộng kích thước một cách tùy ý, EfficientDet sử dụng phương pháp mở rộng quy mô hợp chất có nguyên tắc, cho phép mở rộng đồng đều độ phân giải, độ sâu và chiều rộng.

Kiến trúc và các tính năng chính

Cải tiến cốt lõi của EfficientDet nằm ở Mạng Kim tự tháp Đặc tính Hai chiều (BiFPN) . FPN truyền thống tổng hợp các đặc trưng từ nhiều thang đo khác nhau mà không phân biệt, nhưng BiFPN đưa ra các trọng số có thể học được để nhấn mạnh các đặc trưng quan trọng nhất trong quá trình hợp nhất. Kết hợp với nền tảng EfficientNet , điều này cho phép mô hình đạt được độ chính xác tiên tiến với số lượng tham số và FLOP (Phép tính Dấu phẩy Động trên Giây) ít hơn đáng kể.

Tỷ lệ hợp chất: Đồng thời tỷ lệ chiều rộng, chiều sâu và độ phân giải hình ảnh của mạng bằng cách sử dụng hệ số hợp chất đơn giản.
BiFPN: Cho phép kết hợp nhiều tính năng dễ dàng và nhanh chóng.
Hiệu quả: được tối ưu hóa để giảm thiểu việc sử dụng tài nguyên trong khi tối đa hóa mAP (Độ chính xác trung bình) .

Siêu dữ liệu mô hình

Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google
Date: 2019-11-20
Arxiv:EfficientDet: detect Đối tượng Hiệu quả và Có khả năng Mở rộng

Tìm hiểu thêm về EfficientDet

YOLOX: Sự tiến hóa không có mỏ neo

YOLOX đại diện cho sự thay đổi trong YOLO hướng tới thiết kế không có neo. Bằng cách loại bỏ nhu cầu sử dụng các hộp neo được xác định trước, YOLOX đơn giản hóa quy trình đào tạo và cải thiện khả năng khái quát hóa trên nhiều tập dữ liệu khác nhau.

Kiến trúc và các tính năng chính

YOLOX tách rời đầu phát hiện, tách các tác vụ phân loại và hồi quy thành các nhánh khác nhau. Thiết kế "đầu tách rời" này thường mang lại khả năng hội tụ nhanh hơn và hiệu suất tốt hơn. Hơn nữa, nó tích hợp SimOTA , một chiến lược gán nhãn tiên tiến, cho phép gán động các mẫu dương tính, giảm thời gian huấn luyện và cải thiện độ chính xác.

Không mỏ neo (Anchor-Free): Loại bỏ nhu cầu điều chỉnh anchor box thủ công, giảm độ phức tạp trong thiết kế.
Đầu tách rời: Cải thiện hiệu suất bằng cách tách biệt nhiệm vụ phân loại và định vị.
Tăng cường nâng cao: Sử dụng các phương pháp tăng cường Mosaic và MixUp để huấn luyện mạnh mẽ.

Siêu dữ liệu mô hình

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Date: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021

Tìm hiểu thêm về YOLOX

So sánh hiệu năng và điểm chuẩn

Sự đánh đổi giữa hai mô hình này rất rõ ràng. EfficientDet được thiết kế để tối ưu hóa hiệu suất tham số , khiến nó trở thành một ứng cử viên sáng giá cho các ứng dụng hoặc tình huống bị giới hạn bởi CPU , trong đó kích thước mô hình (lưu trữ) là hạn chế chính. Ngược lại, YOLOX được tối ưu hóa cho độ trễ GPU , tận dụng các hoạt động thân thiện với phần cứng để mang lại tốc độ suy luận nhanh chóng trên các thiết bị như NVIDIA T4 hoặc V100.

Bảng dưới đây nêu bật những khác biệt này trên COCO tập dữ liệu. Lưu ý cách các mô hình YOLOX thường cung cấp tốc độ suy luận nhanh hơn trên GPU phần cứng so với các biến thể EfficientDet có độ chính xác tương tự.

Mô hình	Kích thước ^(pixels)	mAP ^{giá trị 50-95}	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Những Điểm Chính

Độ trễ so với thông lượng: YOLOX-s đạt tốc độ cực nhanh 2,56 ms trên T4 TensorRT nhanh hơn đáng kể so với EfficientDet-d0 (3,92 ms), mặc dù có nhiều tham số hơn. Điều này minh họa khả năng tối ưu hóa vượt trội của YOLOX cho suy luận thời gian thực trên GPU.
Kích thước mô hình: EfficientDet-d0 vẫn có sức cạnh tranh cao đối với các thiết bị biên có dung lượng lưu trữ cực kỳ hạn chế, tự hào với số lượng tham số nhỏ gọn là 3,9M.
Mở rộng quy mô: EfficientDet-d7 đạt đến mức cao mAP của 53,7 nhưng phải trả giá bằng độ trễ cao (128ms), khiến nó ít phù hợp hơn cho các luồng video trực tiếp so với các mẫu nhẹ hơn.

Các Ultralytics Lợi thế

Trong khi EfficientDet và YOLOX tiên phong trong các kỹ thuật quan trọng, lĩnh vực thị giác máy tính đang phát triển nhanh chóng. Ultralytics YOLO11 đại diện cho công nghệ tiên tiến nhất, tích hợp những bài học kiến trúc tốt nhất từ các thế hệ trước vào một gói thống nhất, hiệu suất cao.

Đối với các nhà phát triển và nhà nghiên cứu, Ultralytics mang lại những lợi thế hấp dẫn hơn so với các mô hình cũ:

Dễ sử dụng: Ultralytics Python API được thiết kế đơn giản. Bạn có thể tải mô hình, dự đoán dựa trên hình ảnh và trực quan hóa kết quả chỉ trong vài dòng mã, giúp giảm thiểu rào cản gia nhập các giải pháp AI .
Hệ sinh thái toàn diện: Không giống như các kho lưu trữ độc lập, Ultralytics Các mô hình được hỗ trợ bởi một hệ sinh thái mạnh mẽ, bao gồm tích hợp liền mạch với các công cụ MLOps như Weights & Biases và ClearML , cũng như sự hỗ trợ tích cực từ cộng đồng.
Cân bằng hiệu suất: Ultralytics YOLO Các mô hình được thiết kế để mang lại sự cân bằng tối ưu giữa tốc độ và độ chính xác. Chúng thường vượt trội hơn YOLOX về độ trễ trong khi vẫn đạt hiệu quả tham số tương đương EfficientDet.
Yêu cầu về bộ nhớ: Ultralytics các mô hình được tối ưu hóa cho thấp hơn CUDA sử dụng bộ nhớ trong quá trình đào tạo so với nhiều kiến trúc CNN cũ hoặc dựa trên máy biến áp, cho phép bạn đào tạo các đợt lớn hơn trên phần cứng tiêu chuẩn.
Tính linh hoạt: Một Ultralytics Khung hỗ trợ Phát hiện Đối tượng , Phân đoạn Thể hiện , Ước tính Tư thế , Phân loại và Hộp Giới hạn Định hướng (OBB) . Tính linh hoạt này giúp loại bỏ nhu cầu phải học các cơ sở mã khác nhau cho các tác vụ khác nhau.

Ví dụ suy luận đơn giản

Xem cách dễ dàng để chạy suy luận với Ultralytics YOLO11 so với các đường ống phức tạp cũ:

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on a local image
results = model("bus.jpg")

# Display the results
results[0].show()

Kết luận: Các trường hợp sử dụng lý tưởng

Lựa chọn giữa EfficientDet, YOLOX và Ultralytics YOLO phụ thuộc vào những hạn chế cụ thể của bạn.

Hãy chọn EfficientDet nếu ứng dụng của bạn được triển khai trên phần cứng mà dung lượng lưu trữ và FLOPs là điểm nghẽn thực sự, chẳng hạn như các bộ vi điều khiển nhúng rất nhỏ. Khả năng mở rộng theo nguyên lý của nó cho phép kiểm soát chi tiết kích thước mô hình.
Hãy chọn YOLOX nếu bạn đang triển khai trên GPU và cần tốc độ xử lý cao. Kiến trúc của nó tránh được một số chi phí vận hành của các phương pháp dựa trên neo, giúp nó cực kỳ hiệu quả cho việc phân tích video thời gian thực trên phần cứng được hỗ trợ.
Hãy chọn Ultralytics YOLO11 để có hiệu suất toàn diện tốt nhất. Sản phẩm kết hợp tốc độ của YOLOX với hiệu quả của thiết kế kiến trúc hiện đại. Hơn nữa, hệ sinh thái, tài liệu hướng dẫn và hỗ trợ đa tác vụ của nó giúp giảm đáng kể thời gian phát triển, khiến nó trở thành lựa chọn ưu việt cho cả việc tạo mẫu nhanh và triển khai sản xuất có khả năng mở rộng.

So sánh các mô hình khác

Khám phá sâu hơn về sự khác biệt kỹ thuật giữa các mô hình thị giác máy tính hàng đầu:

EfficientDet so với YOLOX: So sánh kỹ thuật toàn diện

EfficientDet: Hiệu quả có thể mở rộng

Kiến trúc và các tính năng chính

YOLOX: Sự tiến hóa không có mỏ neo

Kiến trúc và các tính năng chính

So sánh hiệu năng và điểm chuẩn

Những Điểm Chính

Các Ultralytics Lợi thế

Kết luận: Các trường hợp sử dụng lý tưởng

So sánh các mô hình khác

Bình luận