YOLOX so với EfficientDet: Đánh giá khả năng phát hiện đối tượng không cần neo và có thể mở rộng.

Sự phát triển của lĩnh vực phát hiện đối tượng được thúc đẩy bởi sự theo đuổi không ngừng nghỉ việc cân bằng giữa tốc độ, độ chính xác và hiệu quả tính toán. Hai mô hình mang tính bước ngoặt có ảnh hưởng đáng kể đến quỹ đạo này là YOLOX và EfficientDet. Trong khi YOLOX giới thiệu thiết kế không cần neo được tối ưu hóa cao cho... YOLO Trong số các mô hình thuộc cùng một họ, EfficientDet tập trung vào kiến trúc có khả năng mở rộng bằng cách sử dụng mở rộng phức hợp và BiFPN. Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết về kiến trúc, số liệu hiệu suất và phương pháp huấn luyện của chúng, đồng thời giới thiệu các lựa chọn thay thế hiện đại như mô hình Ultralytics YOLO26 tiên tiến.

Nguồn gốc và thông tin kỹ thuật của mẫu xe

Trước khi đi sâu vào sự khác biệt về cấu trúc của chúng, điều quan trọng là phải hiểu rõ nguồn gốc và nghiên cứu nền tảng đằng sau cả hai mô hình.

Chi tiết YOLOX:

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 18 tháng 7 năm 2021
ArXiv:YOLOX: Vượt trội dòng YOLO vào năm 2021
GitHub:Megvii-BaseDetection/YOLOX
Tài liệu:Tài liệu chính thức của YOLOX

Tìm hiểu thêm về YOLOX

Chi tiết EfficientDet:

Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức:Google Brain
Ngày: 20 tháng 11 năm 2019
ArXiv:EfficientDet: detect Đối tượng Hiệu quả và Có khả năng Mở rộng
GitHub & Tài liệu:Google AutoML EfficientDet

Tìm hiểu thêm về EfficientDet

So sánh kiến trúc

Sự khác biệt cơ bản giữa YOLOX và EfficientDet nằm ở cách chúng trích xuất đặc trưng và dự đoán khung bao. Hiểu rõ kiến trúc phát hiện đối tượng này rất quan trọng để lựa chọn mô hình phù hợp với môi trường triển khai của bạn.

YOLOX: Nhà tiên phong không cần neo giữ

YOLOX đã tạo nên một cuộc cách mạng trong lĩnh vực này. YOLO Chuỗi này được cải tiến bằng cách chuyển từ bộ dò dựa trên điểm neo sang thiết kế không dựa trên điểm neo. Sự chuyển đổi này đã giảm đáng kể số lượng tham số thiết kế và đơn giản hóa quy trình huấn luyện.

Các đặc điểm kiến trúc chính bao gồm một đầu xử lý tách rời, giúp phân biệt nhiệm vụ phân loại và hồi quy. Điều này giải quyết mâu thuẫn giữa việc xác định đối tượng là gì và dự đoán chính xác vị trí của nó. Hơn nữa, YOLOX sử dụng các chiến lược gán nhãn tiên tiến như SimOTA, giúp gán động các mẫu tích cực cho các đối tượng thực tế trong quá trình huấn luyện, dẫn đến sự hội tụ nhanh hơn và cân bằng hiệu suất vượt trội.

EfficientDet: Mở rộng hợp chất và BiFPN

EfficientDet tiếp cận việc phát hiện đối tượng thông qua lăng kính hiệu quả và khả năng mở rộng. Được phát triển bởi Google Nó phụ thuộc rất nhiều vào kiến trúc EfficientNet để trích xuất đặc trưng.

Đặc điểm nổi bật của nó là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng bằng cách giới thiệu các trọng số có thể học được để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Kết hợp với phương pháp mở rộng phức hợp giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp, EfficientDet có thể mở rộng từ các mô hình kích thước di động (d0) đến các mô hình máy chủ khổng lồ (d7).

Độ phức tạp kiến trúc

Mặc dù khả năng mở rộng theo cấp số nhân của EfficientDet cung cấp một lộ trình có thể dự đoán được để đạt được độ chính xác cao hơn, nhưng nó thường dẫn đến các đồ thị tính toán phức tạp, khó tối ưu hóa cho điện toán biên thời gian thực so với thiết kế đơn giản, không cần neo của YOLOX.

Phân tích hiệu suất và số liệu

Khi đánh giá các mô hình này cho các ứng dụng thị giác máy tính thực tế, các chỉ số như độ chính xác trung bình (Average Precision), tốc độ suy luận và số lượng tham số là vô cùng quan trọng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Phân tích các đánh đổi

Dữ liệu cho thấy sự khác biệt rõ rệt trong triết lý thiết kế. EfficientDet-d7 đạt độ chính xác tổng thể cao nhất với mAP ấn tượng là 53,7%, nhưng phải trả giá rất đắt bằng tốc độ suy luận (128,07ms trên T4). GPU Ngược lại, YOLOXx đạt được tỷ lệ thành công rất cao là 51,1%. mAP trong khi vẫn duy trì tốc độ suy luận nhanh 16,1ms, khiến nó vượt trội hơn hẳn trong việc hiểu video thời gian thực và ứng dụng robot.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOX và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.

Khi nào nên chọn EfficientDet

EfficientDet được khuyến nghị sử dụng cho:

Hệ thống Google Cloud và TPU Pipelines: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc cơ sở hạ tầng TPU, nơi EfficientDet có tối ưu hóa gốc.
Nghiên cứu về Compound Scaling: Đánh giá chuẩn học thuật tập trung vào việc nghiên cứu ảnh hưởng của việc mở rộng quy mô độ sâu, chiều rộng và độ phân giải mạng cân bằng.
Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể xuất TensorFlow Lite cho thiết bị Android hoặc Linux nhúng.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Giải pháp thay thế hiện đại: Ultralytics YOLO26

Mặc dù YOLOX và EfficientDet đại diện cho những cột mốc quan trọng, nhưng lĩnh vực học máy đã phát triển nhanh chóng. Đối với các nhà phát triển đang tìm kiếm các hệ thống thị giác hiện đại nhất hiện nay, lựa chọn được đánh giá cao nhất là YOLO26 , mẫu sản phẩm chủ lực mới nhất từ... Ultralytics Được phát hành vào tháng 1 năm 2026.

YOLO26 cung cấp một hệ sinh thái được duy trì tốt và một bước tiến vượt bậc về cả tốc độ và tính dễ sử dụng, vượt trội so với các kiến trúc cũ ở một số lĩnh vực quan trọng:

Những đổi mới chính của YOLO26

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 loại bỏ nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Phương pháp đầu cuối tự nhiên này, được tiên phong trong các thế hệ trước, đơn giản hóa quy trình xuất và giảm đáng kể độ trễ triển khai.
Tăng tốc suy luận trên CPU lên đến 43%: Nhờ các tối ưu hóa kiến trúc sâu và việc loại bỏ Distribution Focal Loss (DFL), YOLO26 cực kỳ nhanh trên các thiết bị biên không có GPU rời, vượt xa các biến thể EfficientDet nặng nề.
Trình tối ưu hóa MuSGD: Mang những đổi mới của Mô hình Ngôn ngữ Lớn (LLM) vào thị giác, YOLO26 sử dụng trình tối ưu hóa MuSGD (một sự kết hợp lai giữa SGD và Muon) để huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, mang lại hiệu quả huấn luyện vượt trội.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng cho các trường hợp sử dụng như hoạt động của máy bay không người lái và phân tích hình ảnh trên không.
Tính linh hoạt vượt trội: Không giống như YOLOX, vốn chỉ là một trình detect đối tượng, YOLO26 hỗ trợ nguyên bản một loạt các tác vụ bao gồm phân đoạn đối tượng, phân loại ảnh, ước tính tư thế và phát hiện Hộp giới hạn định hướng (OBB).

Tìm hiểu thêm về YOLO26

Dễ sử dụng với Ultralytics API

Một trong những ưu điểm quan trọng nhất của Ultralytics Ưu điểm của YOLO26 là trải nghiệm người dùng được tối ưu hóa. Việc huấn luyện và triển khai mô hình YOLO26 yêu cầu dung lượng bộ nhớ thấp hơn đáng kể so với các mô hình transformer phức tạp và chỉ cần một vài dòng mã. Python mã số:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for blazing-fast inference
model.export(format="engine", dynamic=True)

Đối với người dùng ưa thích giao diện trực quan, Nền tảng Ultralytics cung cấp các công cụ mạnh mẽ để chú thích dữ liệu, tinh chỉnh siêu tham số và triển khai liền mạch.

Các trường hợp sử dụng thực tế

Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào các ràng buộc triển khai cụ thể của bạn.

Khi nào nên cân nhắc EfficientDet

EfficientDet vẫn là một chủ đề được giới học thuật quan tâm trong các môi trường mà tốc độ suy luận hoàn toàn không quan trọng, và mục tiêu duy nhất là đạt được độ chính xác lý thuyết tối đa trên ảnh có độ phân giải cao. Việc triển khai nó trong... TensorFlow Hệ sinh thái này cũng có thể hấp dẫn các nhóm đang duy trì hệ thống cũ, lỗi thời. Google cơ sở hạ tầng.

Khi nào nên cân nhắc YOLOX

YOLOX phù hợp với các ứng dụng yêu cầu sự cân bằng giữa tốc độ và độ chính xác mà không cần đến sự phức tạp của các hộp neo. Nó đã chứng tỏ hiệu quả trong các kịch bản sản xuất công nghiệp , nơi cần phát hiện lỗi nhanh chóng trên băng tải.

Vì sao YOLO26 là sự lựa chọn vượt trội?

YOLO26 cung cấp giải pháp tốt nhất cho hầu hết các ứng dụng hiện đại. NMS Thiết kế không phụ thuộc vào bộ nhớ đảm bảo độ trễ xác định, biến nó trở thành ứng cử viên hoàn hảo cho lái xe tự động, hệ thống báo động an ninh nhanh chóng và triển khai thành phố thông minh. Hơn nữa, sự hỗ trợ mạnh mẽ từ cộng đồng và các bản cập nhật thường xuyên từ... Ultralytics Đảm bảo các nhà phát triển không bao giờ phải đối mặt với các thư viện phụ thuộc đã lỗi thời.

Các nhà phát triển khám phá thị giác máy tính nâng cao cũng nên tìm hiểu các kiến trúc đa năng khác trong hệ sinh thái Ultralytics, chẳng hạn như YOLO11 cho các triển khai kế thừa ổn định hoặc các mô hình chuyên biệt như FastSAM cho các tác vụ segment dựa trên lời nhắc. Việc sử dụng bộ công cụ Ultralytics đầy đủ đảm bảo một pipeline AI thị giác có khả năng chống lỗi trong tương lai và được tối ưu hóa cao.