YOLOX so với EfficientDet: Đánh giá khả năng phát hiện đối tượng không cần neo và có thể mở rộng.
Sự phát triển của lĩnh vực phát hiện đối tượng được thúc đẩy bởi sự theo đuổi không ngừng nghỉ việc cân bằng giữa tốc độ, độ chính xác và hiệu quả tính toán. Hai mô hình mang tính bước ngoặt có ảnh hưởng đáng kể đến quỹ đạo này là YOLOX và EfficientDet. Trong khi YOLOX giới thiệu thiết kế không cần neo được tối ưu hóa cao cho... YOLO Trong số các mô hình thuộc cùng một họ, EfficientDet tập trung vào kiến trúc có khả năng mở rộng bằng cách sử dụng mở rộng phức hợp và BiFPN. Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết về kiến trúc, số liệu hiệu suất và phương pháp huấn luyện của chúng, đồng thời giới thiệu các lựa chọn thay thế hiện đại như mô hình Ultralytics YOLO26 tiên tiến.
Nguồn gốc và thông tin kỹ thuật của mẫu xe
Trước khi đi sâu vào những khác biệt về cấu trúc, điều quan trọng là phải hiểu nguồn gốc và các nghiên cứu nền tảng đằng sau cả hai mô hình.
Chi tiết YOLOX:
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức:Megvii
- Ngày: 18 tháng 7 năm 2021
- ArXiv: YOLOX: Vượt qua kỷ lục của YOLO Series năm 2021
- GitHub:Megvii-BaseDetection/YOLOX
- Tài liệu: Tài liệu chính thức của YOLOX
Chi tiết EfficientDet:
- Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
- Tổ chức:Google Brain
- Ngày: 20 tháng 11 năm 2019
- ArXiv:EfficientDet: detect Đối tượng Hiệu quả và Có khả năng Mở rộng
- GitHub & Tài liệu: Google AutoML EfficientDet
So sánh kiến trúc
Sự khác biệt cơ bản giữa YOLOX và EfficientDet nằm ở cách chúng trích xuất đặc trưng và dự đoán khung bao. Hiểu rõ kiến trúc phát hiện đối tượng này rất quan trọng để lựa chọn mô hình phù hợp với môi trường triển khai của bạn.
YOLOX: Nhà tiên phong không cần neo giữ
YOLOX đã tạo nên một cuộc cách mạng trong lĩnh vực này. YOLO Chuỗi này được cải tiến bằng cách chuyển từ bộ dò dựa trên điểm neo sang thiết kế không dựa trên điểm neo. Sự chuyển đổi này đã giảm đáng kể số lượng tham số thiết kế và đơn giản hóa quy trình huấn luyện.
Các đặc điểm kiến trúc chính bao gồm một đầu xử lý tách rời, giúp phân biệt nhiệm vụ phân loại và hồi quy. Điều này giải quyết mâu thuẫn giữa việc xác định đối tượng là gì và dự đoán chính xác vị trí của nó. Hơn nữa, YOLOX sử dụng các chiến lược gán nhãn tiên tiến như SimOTA, giúp gán động các mẫu tích cực cho các đối tượng thực tế trong quá trình huấn luyện, dẫn đến sự hội tụ nhanh hơn và cân bằng hiệu suất vượt trội.
EfficientDet: Mở rộng hợp chất và BiFPN
EfficientDet tiếp cận việc phát hiện đối tượng thông qua lăng kính hiệu quả và khả năng mở rộng. Được phát triển bởi Google Nó phụ thuộc rất nhiều vào kiến trúc EfficientNet để trích xuất đặc trưng.
Đặc điểm nổi bật của nó là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng bằng cách giới thiệu các trọng số có thể học được để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Kết hợp với phương pháp mở rộng phức hợp giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp, EfficientDet có thể mở rộng từ các mô hình kích thước di động (d0) đến các mô hình máy chủ khổng lồ (d7).
Độ phức tạp kiến trúc
Mặc dù khả năng mở rộng theo cấp số nhân của EfficientDet cung cấp một lộ trình có thể dự đoán được để đạt được độ chính xác cao hơn, nhưng nó thường dẫn đến các đồ thị tính toán phức tạp, khó tối ưu hóa cho điện toán biên thời gian thực so với thiết kế đơn giản, không cần neo của YOLOX.
Phân tích hiệu suất và số liệu
Khi đánh giá các mô hình này cho các ứng dụng thị giác máy tính thực tế, các chỉ số như độ chính xác trung bình (Average Precision), tốc độ suy luận và số lượng tham số là vô cùng quan trọng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Phân tích các đánh đổi
Dữ liệu cho thấy sự khác biệt rõ rệt trong triết lý thiết kế. EfficientDet-d7 đạt độ chính xác tổng thể cao nhất với mAP ấn tượng là 53,7%, nhưng phải trả giá rất đắt bằng tốc độ suy luận (128,07ms trên T4). GPU Ngược lại, YOLOXx đạt được tỷ lệ thành công rất cao là 51,1%. mAP trong khi vẫn duy trì tốc độ suy luận nhanh 16,1ms, khiến nó vượt trội hơn hẳn trong việc hiểu video thời gian thực và ứng dụng robot.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOX và EfficientDet phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên chọn EfficientDet
EfficientDet được khuyến nghị sử dụng cho:
- Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu rộng với Google API Cloud Vision hoặc TPU cơ sở hạ tầng nơi EfficientDet có khả năng tối ưu hóa gốc.
- Nghiên cứu về mở rộng quy mô phức hợp: Nghiên cứu chuẩn mực học thuật tập trung vào việc nghiên cứu tác động của việc mở rộng quy mô cân bằng về độ sâu, độ rộng và độ phân giải của mạng.
- Triển khai trên thiết bị di động thông qua TFLite : Các dự án yêu cầu xuất sang TensorFlow Lite . Android hoặc các thiết bị Linux nhúng.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Giải pháp thay thế hiện đại: Ultralytics YOLO26
Mặc dù YOLOX và EfficientDet đại diện cho những cột mốc quan trọng, nhưng lĩnh vực học máy đã phát triển nhanh chóng. Đối với các nhà phát triển đang tìm kiếm các hệ thống thị giác hiện đại nhất hiện nay, lựa chọn được đánh giá cao nhất là YOLO26 , mẫu sản phẩm chủ lực mới nhất từ... Ultralytics Được phát hành vào tháng 1 năm 2026.
YOLO26 cung cấp một hệ sinh thái được duy trì tốt và một bước tiến vượt bậc về cả tốc độ và tính dễ sử dụng, vượt trội so với các kiến trúc cũ ở một số lĩnh vực quan trọng:
Những đổi mới chính của YOLO26
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Cách tiếp cận từ đầu đến cuối này, được tiên phong trong các thế hệ trước, đơn giản hóa quy trình xuất dữ liệu và giảm đáng kể độ trễ triển khai.
- Suy luận CPU nhanh hơn tới 43%: Nhờ những tối ưu hóa kiến trúc chuyên sâu và việc loại bỏ tổn hao tiêu điểm phân tán (DFL), YOLO26 hoạt động cực kỳ nhanh trên các thiết bị biên không có GPU rời, vượt xa các biến thể EfficientDet nặng nề.
- Trình tối ưu hóa MuSGD: Mang những cải tiến của Mô hình Ngôn ngữ Lớn (LLM) vào thị giác, YOLO26 sử dụng trình tối ưu hóa MuSGD (một sự kết hợp của...) SGD và Muon) để huấn luyện ổn định cao và hội tụ nhanh, dẫn đến hiệu quả huấn luyện tuyệt vời.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều này rất quan trọng đối với các trường hợp sử dụng như vận hành máy bay không người lái và phân tích ảnh chụp từ trên không.
- Tính linh hoạt vượt trội: Không giống như YOLOX, chỉ là một công cụ phát hiện đối tượng, YOLO26 hỗ trợ một loạt các tác vụ bao gồm phân đoạn đối tượng , phân loại hình ảnh, ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) .
Dễ sử dụng với Ultralytics API
Một trong những ưu điểm quan trọng nhất của Ultralytics Ưu điểm của YOLO26 là trải nghiệm người dùng được tối ưu hóa. Việc huấn luyện và triển khai mô hình YOLO26 yêu cầu dung lượng bộ nhớ thấp hơn đáng kể so với các mô hình transformer phức tạp và chỉ cần một vài dòng mã. Python mã số:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for blazing-fast inference
model.export(format="engine", dynamic=True)
Đối với người dùng ưa thích giao diện trực quan, Nền tảng Ultralytics cung cấp các công cụ mạnh mẽ để chú thích dữ liệu, tinh chỉnh siêu tham số và triển khai liền mạch.
Các trường hợp sử dụng thực tế
Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào các ràng buộc triển khai cụ thể của bạn.
Khi nào nên cân nhắc EfficientDet
EfficientDet vẫn là một chủ đề được giới học thuật quan tâm trong các môi trường mà tốc độ suy luận hoàn toàn không quan trọng, và mục tiêu duy nhất là đạt được độ chính xác lý thuyết tối đa trên ảnh có độ phân giải cao. Việc triển khai nó trong... TensorFlow Hệ sinh thái này cũng có thể hấp dẫn các nhóm đang duy trì hệ thống cũ, lỗi thời. Google cơ sở hạ tầng.
Khi nào nên cân nhắc YOLOX
YOLOX phù hợp với các ứng dụng yêu cầu sự cân bằng giữa tốc độ và độ chính xác mà không cần đến sự phức tạp của các hộp neo. Nó đã chứng tỏ hiệu quả trong các kịch bản sản xuất công nghiệp , nơi cần phát hiện lỗi nhanh chóng trên băng tải.
Vì sao YOLO26 là sự lựa chọn vượt trội?
YOLO26 cung cấp giải pháp tốt nhất cho hầu hết các ứng dụng hiện đại. NMS Thiết kế không phụ thuộc vào bộ nhớ đảm bảo độ trễ xác định, biến nó trở thành ứng cử viên hoàn hảo cho lái xe tự động, hệ thống báo động an ninh nhanh chóng và triển khai thành phố thông minh. Hơn nữa, sự hỗ trợ mạnh mẽ từ cộng đồng và các bản cập nhật thường xuyên từ... Ultralytics Đảm bảo các nhà phát triển không bao giờ phải đối mặt với các thư viện phụ thuộc đã lỗi thời.
Các nhà phát triển đang nghiên cứu về thị giác máy tính tiên tiến cũng nên tìm hiểu các kiến trúc đa năng khác trong lĩnh vực này. Ultralytics hệ sinh thái, chẳng hạn như YOLO11 để triển khai ổn định các hệ thống cũ hoặc các mô hình chuyên biệt như FastSAM cho các tác vụ phân đoạn dựa trên lời nhắc. Sử dụng toàn bộ bộ công cụ của Ultralytics Các công cụ này đảm bảo một hệ thống AI xử lý hình ảnh được tối ưu hóa cao và có khả năng đáp ứng nhu cầu trong tương lai.