Chuyển đến nội dung

YOLOX so với EfficientDet: So sánh kỹ thuật giữa các kiến ​​trúc phát hiện đối tượng

Việc lựa chọn kiến ​​trúc tối ưu cho việc phát hiện đối tượng là một quyết định quan trọng, ảnh hưởng đến độ trễ, độ chính xác và khả năng mở rộng của các hệ thống thị giác máy tính. Bài so sánh này đi sâu vào những điểm khác biệt kỹ thuật giữa YOLOX , một bộ phát hiện không cần neo hiệu suất cao từ Megvii, và EfficientDet . Google Kiến trúc có khả năng mở rộng, tập trung vào hiệu quả.

Mặc dù cả hai mô hình đều đã định hình nên lĩnh vực thị giác máy tính , nhưng các ứng dụng hiện đại ngày càng đòi hỏi các giải pháp cung cấp khả năng triển khai đơn giản và hiệu năng gốc tại biên. Chúng ta cũng sẽ tìm hiểu cách YOLO26 tiên tiến xây dựng dựa trên những nền tảng này để mang lại kết quả vượt trội.

Các chỉ số hiệu suất và điểm chuẩn

Bảng sau đây so sánh hiệu năng của các mô hình với quy mô khác nhau trên tập dữ liệu COCO . Các chỉ số chính bao gồm Độ chính xác trung bình ( mAP ) và độ trễ suy luận, làm nổi bật sự đánh đổi giữa tốc độ và độ chính xác.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

YOLOX: Sự tiến hóa không anchor

YOLOX đại diện cho một sự thay đổi đáng kể trong... YOLO Chuỗi này được tạo ra bằng cách áp dụng cơ chế không cần neo và tách rời đầu phát hiện. Thiết kế này đơn giản hóa quá trình huấn luyện và cải thiện hiệu suất trên các tập dữ liệu đa dạng.

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun
Tổ chức: Megvii
Ngày: 18/07/2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX

Các tính năng kiến trúc chính

  • Đầu tách rời: Không giống như các phiên bản trước YOLO Trong các thuật toán lặp sử dụng đầu đọc/ghi kết hợp cho phân loại và định vị, YOLOX tách biệt các nhiệm vụ này. Điều này dẫn đến sự hội tụ nhanh hơn và độ chính xác tốt hơn.
  • Thiết kế không cần neo: Bằng cách loại bỏ các hộp neo , YOLOX loại bỏ nhu cầu điều chỉnh neo thủ công, giúp mô hình mạnh mẽ hơn đối với các hình dạng đối tượng khác nhau.
  • Phân bổ nhãn SimOTA: YOLOX giới thiệu SimOTA, một chiến lược phân bổ nhãn tiên tiến giúp tự động khớp các đối tượng thực tế với các dự đoán, cân bằng hàm mất mát một cách hiệu quả.

Điểm mạnh và Điểm yếu

YOLOX vượt trội trong các trường hợp đòi hỏi sự cân bằng giữa tốc độ và độ chính xác, đặc biệt là khi các vấn đề dựa trên anchor truyền thống (như mất cân bằng dữ liệu) gây khó khăn. Tuy nhiên, việc phụ thuộc vào các pipeline tăng cường dữ liệu phức tạp đôi khi có thể làm phức tạp quá trình thiết lập huấn luyện cho các tập dữ liệu tùy chỉnh.

EfficientDet: Hiệu quả có khả năng mở rộng

EfficientDet tập trung vào việc tối ưu hóa hiệu quả thông qua phương pháp mở rộng phức hợp, giúp mở rộng đồng đều độ phân giải, độ sâu và độ rộng của mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp.

Tác giả: Mingxing Tan, Ruoming Pang, Quốc V. Lê
Tổ chức: Google Research
Ngày: 20/11/2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google

Các tính năng kiến trúc chính

  • Kiến trúc xương sống EfficientNet: Sử dụng EfficientNet, được tối ưu hóa về hiệu suất phép tính (FLOPs) và số lượng tham số.
  • BiFPN (Bidirectional Feature Pyramid Network): Một lớp kết hợp đặc trưng có trọng số cho phép kết hợp đặc trưng đa tỷ lệ một cách dễ dàng và nhanh chóng.
  • Mở rộng phức hợp: Một phương pháp riêng biệt giúp mở rộng đồng thời tất cả các chiều của mạng, thay vì chỉ tăng chiều sâu hoặc chiều rộng một cách riêng lẻ.

Điểm mạnh và Điểm yếu

EfficientDet rất hiệu quả cho các ứng dụng mà kích thước mô hình (dung lượng lưu trữ) là một hạn chế chính, chẳng hạn như ứng dụng di động. Mặc dù nó đạt được hiệu suất cao, EfficientDet vẫn đạt được hiệu suất cao. mAP Tốc độ suy luận của nó trên GPU thường chậm hơn. YOLO Các kiến ​​trúc này gặp khó khăn do sự phức tạp của BiFPN và các phép tích chập tách biệt theo chiều sâu, đôi khi được tối ưu hóa kém hơn về phần cứng so với các phép tích chập tiêu chuẩn.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Mặc dù YOLOX và EfficientDet đóng vai trò then chốt trong giai đoạn 2019-2021, lĩnh vực này đã phát triển nhanh chóng. YOLO26 , được phát hành bởi Ultralytics Ra mắt vào tháng 1 năm 2026, sản phẩm này đại diện cho công nghệ trí tuệ nhân tạo thị giác tiên tiến nhất, khắc phục những hạn chế của các thế hệ trước bằng những cải tiến đột phá.

Tìm hiểu thêm về YOLO26

Dễ sử dụng và hệ sinh thái

Các nhà phát triển lựa chọn Ultralytics Bạn sẽ được hưởng lợi từ một hệ sinh thái thống nhất, "từ con số không đến người hùng". Không giống như các kho lưu trữ nghiên cứu phân tán của YOLOX hoặc EfficientDet, Nền tảng và API Ultralytics cho phép bạn huấn luyện, xác thực và triển khai các mô hình một cách liền mạch. Hệ sinh thái hỗ trợ quá trình lặp lại nhanh chóng với các tính năng như tự động chú thích và xuất chỉ bằng một cú nhấp chuột sang các định dạng như ONNXOpenVINO .

Các tính năng hiệu năng thế hệ tiếp theo

YOLO26 giới thiệu một số đột phá về kiến ​​trúc, giúp nó trở nên vượt trội hơn trong việc triển khai hiện đại:

  1. Thiết kế không cần NMS từ đầu đến cuối: YOLO26 được thiết kế từ đầu đến cuối, loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Điều này giúp giảm sự biến động độ trễ và đơn giản hóa quy trình triển khai, một khái niệm được tiên phong trong YOLOv10 và được hoàn thiện ở đây.

  2. Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM), Bộ tối ưu hóa MuSGD kết hợp tính ổn định của SGD Với các đặc tính động lượng của Muon, điều này giúp quá trình huấn luyện hội tụ nhanh hơn và tạo ra các trọng số cuối cùng ổn định hơn.

  3. Hiệu quả ưu tiên xử lý tại biên: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL) , YOLO26 đơn giản hóa cấu trúc lớp đầu ra. Sự thay đổi này, kết hợp với các tối ưu hóa kiến ​​trúc, giúp tăng tốc độ suy luận CPU lên tới 43% so với các thế hệ trước, làm cho nó nhanh hơn đáng kể so với EfficientDet trên phần cứng biên.

  4. ProgLoss + STAL: Hai hàm mất mát mới, ProgLossSTAL , mang lại những cải tiến đáng kể trong việc phát hiện các vật thể nhỏ , một điểm yếu phổ biến trong các mô hình không sử dụng neo trước đây. Điều này rất quan trọng đối với các ứng dụng trong ảnh chụp từ trên không và robot .

Mẹo huấn luyện

Trình tối ưu hóa MuSGD của YOLO26 cho phép tốc độ học nhanh hơn. Khi huấn luyện trên các tập dữ liệu tùy chỉnh, hãy cân nhắc sử dụng hướng dẫn điều chỉnh siêu tham số Ultralytics để tối đa hóa hiệu suất.

Tính linh hoạt và bộ nhớ

Không giống như YOLOX và EfficientDet, chủ yếu là các thiết bị dò tìm, YOLO26 là một công cụ đa năng mạnh mẽ. Nó hỗ trợ natively:

Hơn nữa, Ultralytics Các mô hình được tối ưu hóa về hiệu quả bộ nhớ . Việc huấn luyện một mô hình YOLO26 thường yêu cầu ít hơn. CUDA có bộ nhớ lớn hơn so với các giải pháp thay thế dựa trên bộ biến đổi như RT-DETR , cho phép kích thước lô lớn hơn trên GPU dành cho người tiêu dùng.

Ví dụ mã: Huấn luyện YOLO26

Việc chuyển sang YOLO26 rất dễ dàng với Ultralytics Python API.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26n model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free output is generated natively
results = model("https://ultralytics.com/images/bus.jpg")

Kết luận

Trong khi YOLOX cung cấp nền tảng vững chắc cho nghiên cứu không cần neo và EfficientDet cung cấp nghiên cứu về hiệu quả mở rộng quy mô, YOLO26 nổi bật như một lựa chọn thực tiễn cho năm 2026 và những năm tiếp theo. Sự kết hợp của nó NMS - suy luận tự do, ưu việt CPU tốc độ và sự hỗ trợ mạnh mẽ của Ultralytics Hệ sinh thái này biến nó trở thành lựa chọn lý tưởng cho các nhà phát triển muốn vượt qua giới hạn của suy luận thời gian thực .

Đối với những ai sẵn sàng nâng cấp, hãy khám phá đầy đủ các tính năng của YOLO26 trong tài liệu của chúng tôi hoặc tham khảo các tùy chọn hiện đại khác như YOLO11 để so sánh với các phiên bản cũ.


Bình luận