Link to this sectionYOLO11 so với YOLOX#
Lĩnh vực thị giác máy tính đã chứng kiến những tiến bộ vượt bậc trong vài năm qua, với các mô hình phát hiện đối tượng thời gian thực ngày càng trở nên tinh vi. Khi lựa chọn kiến trúc cho môi trường sản xuất hoặc nghiên cứu học thuật, các nhà phát triển thường cân nhắc giữa các cột mốc kế thừa và những đổi mới tiên tiến. Bài so sánh toàn diện này khám phá sự khác biệt giữa Ultralytics YOLO11 và YOLOX của Megvii, cung cấp những hiểu biết sâu sắc về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng.
Link to this sectionTổng quan về Kiến trúc#
Cả hai mô hình đều đại diện cho những bước tiến đáng kể trong việc phát hiện đối tượng, nhưng chúng bắt nguồn từ các triết lý thiết kế khác nhau và nhắm đến những trải nghiệm nhà phát triển khác nhau.
Link to this sectionYOLO11: Cỗ máy đa nhiệm linh hoạt#
Được ra mắt vào tháng 9 năm 2024 bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO11 được thiết kế như một khung thống nhất cân bằng giữa độ chính xác cao và hiệu suất cực cao.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Docs: https://docs.ultralytics.com/models/yolo11/
YOLO11 vượt xa các khung bao tiêu chuẩn, hỗ trợ nguyên bản phân đoạn đối tượng (instance segmentation), phân loại hình ảnh (image classification), ước tính tư thế (pose estimation) và phát hiện Khung bao định hướng (OBB). Kiến trúc tinh chỉnh của nó tối ưu hóa quá trình trích xuất đặc trưng để đảm bảo việc duy trì đặc trưng tốt hơn trên các phân cấp không gian phức tạp.
Link to this sectionYOLOX: Người tiên phong không dùng neo (anchor-free)#
Được phát triển bởi các nhà nghiên cứu tại Megvii, YOLOX đã thu hút sự chú ý đáng kể vào năm 2021 bằng cách thu hẹp khoảng cách giữa nghiên cứu và các ứng dụng công nghiệp với phương pháp hoàn toàn không dùng neo.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Docs: https://github.com/Megvii-BaseDetection/YOLOX/tree/main/docs
YOLOX đã giới thiệu phần đầu (head) tách rời và mô hình không dùng neo, giúp giảm đáng kể số lượng tham số thiết kế và cải thiện hiệu suất trên các tiêu chuẩn học thuật tại thời điểm ra mắt.
Thiết kế không dùng neo được phổ biến bởi YOLOX đã truyền cảm hứng cho nhiều kiến trúc kế tiếp. Ultralytics đã tích hợp và tinh chỉnh sâu sắc các khái niệm không dùng neo này trong các phiên bản sau như YOLOv8 và YOLO11 để mang lại độ chính xác vượt trội và tính linh hoạt khi triển khai.
Link to this sectionHiệu suất và chỉ số#
Khi đánh giá các mô hình phát hiện, việc xem xét sự cân bằng giữa các tham số, chi phí tính toán (FLOPs) và độ chính xác trung bình (mAP) là rất quan trọng cho việc triển khai mô hình trong thế giới thực.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Như đã thấy trong bảng, YOLO11x vượt trội đáng kể so với YOLOXx về độ chính xác tuyệt đối (54.7 mAP so với 51.1 mAP), trong khi chỉ yêu cầu khoảng một nửa số tham số (56.9M so với 99.1M). Hiệu suất này đồng nghĩa với việc yêu cầu bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận, một lợi thế to lớn cho các môi trường sản xuất.
Link to this sectionHệ sinh thái và trải nghiệm nhà phát triển#
Link to this sectionLợi thế từ Ultralytics#
Một trong những khác biệt sâu sắc nhất giữa YOLO11 và YOLOX nằm ở khả năng sử dụng. YOLOX hoạt động chủ yếu như một mã nguồn nghiên cứu, đòi hỏi cấu hình môi trường phức tạp, biên dịch thủ công các toán tử C++ và các đối số dòng lệnh dài dòng để bắt đầu huấn luyện trên tập dữ liệu tùy chỉnh.
Ngược lại, YOLO11 được tích hợp hoàn toàn vào gói Python của Ultralytics, cung cấp quy trình làm việc tinh gọn, "từ con số 0 đến chuyên nghiệp". Nền tảng Ultralytics cung cấp các công cụ mở rộng để gán nhãn dữ liệu, theo dõi thử nghiệm và huấn luyện trên đám mây, giúp lược bỏ các mã soạn sẵn (boilerplate) để các kỹ sư có thể tập trung vào hiệu suất của mô hình.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly using the Ultralytics API
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Hơn nữa, việc xuất mô hình Ultralytics sang các định dạng như TensorRT, CoreML hoặc OpenVINO chỉ cần một lệnh duy nhất, trong khi các kho lưu trữ cũ thường yêu cầu các công cụ bên thứ ba phức tạp hoặc thao tác biểu đồ (graph) thủ công.
Link to this sectionCác trường hợp sử dụng thực tế#
Link to this sectionKhi nào nên cân nhắc YOLOX#
YOLOX vẫn là một lựa chọn hợp lệ cho các triển khai đặc biệt, kế thừa, nơi các nhà phát triển đã xây dựng các quy trình suy luận C++ tùy chỉnh chuyên sâu xung quanh các đầu ra tensor đầu tách rời cụ thể của nó. Ngoài ra, các nhà nghiên cứu thực hiện các nghiên cứu so sánh với các kiến trúc tiên tiến năm 2021 vẫn sẽ sử dụng YOLOX làm tiêu chuẩn tập dữ liệu chuẩn (benchmark dataset).
Link to this sectionNơi YOLO11 vượt trội#
Đối với gần như tất cả các kịch bản sản xuất hiện đại, YOLO11 cung cấp trải nghiệm vượt trội hơn hẳn:
- Thành phố thông minh và Bán lẻ: Nhờ tỷ lệ tốc độ trên độ chính xác vượt trội, YOLO11 xử lý các cảnh đông đúc một cách dễ dàng, cung cấp năng lượng cho phân tích bán lẻ tự động và các hệ thống quản lý giao thông mà không yêu cầu các cụm GPU lớn.
- Edge Computing: The high memory efficiency and robust export options make YOLO11 perfect for edge AI deployments on devices like Raspberry Pi or NVIDIA Jetson platforms.
- Quy trình phức tạp: Nếu một dự án yêu cầu kết hợp phát hiện đối tượng với điểm khóa tư thế (pose keypoints) (ví dụ: phân tích thể thao) hoặc phân đoạn đối tượng chính xác (ví dụ: chẩn đoán hình ảnh y tế), YOLO11 xử lý tất cả các tác vụ nguyên bản thông qua một API thống nhất.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLO11 và YOLOX phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLO11#
YOLO11 là lựa chọn mạnh mẽ cho:
- Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
- Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
- Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.
Link to this sectionKhi nào nên chọn YOLOX#
YOLOX được khuyến nghị cho:
- Nghiên cứu Phát hiện Anchor-Free: Nghiên cứu học thuật sử dụng kiến trúc anchor-free sạch, gọn của YOLOX làm baseline để thử nghiệm với các head phát hiện hoặc hàm mất mát mới.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ nơi mà footprint cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu Gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong đào tạo.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionHướng tới tương lai: Sức mạnh của YOLO26#
Mặc dù YOLO11 là một lựa chọn đặc biệt, bối cảnh AI không ngừng tăng tốc. Đối với các nhóm tìm kiếm đỉnh cao tuyệt đối về hiệu suất và sự ổn định, YOLO26 (ra mắt tháng 1 năm 2026) là khuyến nghị tối ưu cho các dự án thị giác máy tính mới.
YOLO26 đại diện cho một bước nhảy vọt lớn bằng cách triển khai Thiết kế NMS-Free End-to-End. Bằng cách loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS), nó loại bỏ hoàn toàn sự biến thiên độ trễ, đơn giản hóa đáng kể logic triển khai—một khái niệm lần đầu tiên được tiên phong trong YOLOv10.
Hơn nữa, YOLO26 có tính năng DFL Removal (Distribution Focal Loss), tối ưu hóa kiến trúc để đạt được suy luận trên CPU nhanh hơn tới 43%, khiến nó trở thành nhà vô địch tuyệt đối cho các thiết bị công suất thấp và thiết bị biên. Sự ổn định trong huấn luyện cũng được tăng cường thông qua Trình tối ưu hóa MuSGD—một sự kết hợp lai giữa SGD và Muon lấy cảm hứng từ LLM giúp tăng tốc độ hội tụ. Kết hợp với các hàm mất mát nâng cao như ProgLoss + STAL, YOLO26 vượt trội trong việc phát hiện các đối tượng nhỏ trong các môi trường đầy thách thức như hình ảnh máy bay không người lái và các cảm biến biên IoT.
Bạn muốn mở rộng kiến thức về các kiến trúc phát hiện đối tượng? Hãy khám phá khả năng từ vựng mở của YOLO-World hoặc tìm hiểu sâu về mô hình RT-DETR dựa trên Transformer được ghi lại trong hệ sinh thái Ultralytics.
Tóm lại, trong khi YOLOX đã giới thiệu các khái niệm kiến trúc quan trọng vào năm 2021, thì bộ công cụ toàn diện, hiệu suất bộ nhớ và hiệu suất tiên tiến của YOLO11—và đặc biệt là kiến trúc mang tính cách mạng của YOLO26—khiến hệ sinh thái Ultralytics trở thành lựa chọn rõ ràng cho các nhà nghiên cứu và nhà phát triển doanh nghiệp ngày nay.