YOLO11 So sánh với YOLOX: Sự tiến hóa kiến trúc và phân tích hiệu năng

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của dự án. Hai cột mốc quan trọng trong hành trình này là YOLO11 và YOLOX . Trong khi YOLOX giới thiệu các khái niệm đột phá không cần neo vào năm 2021, YOLO11 (ra mắt vào cuối năm 2024) đã hoàn thiện những ý tưởng này với những cải tiến kiến trúc hiện đại, hiệu quả vượt trội và sự hỗ trợ mạnh mẽ từ hệ sinh thái Ultralytics .

Hướng dẫn này cung cấp sự so sánh kỹ thuật chuyên sâu để giúp các nhà phát triển, nhà nghiên cứu và kỹ sư lựa chọn mô hình tối ưu cho nhu cầu cụ thể của họ, từ triển khai thời gian thực tại biên đến phân tích phía máy chủ với độ chính xác cao.

Tóm tắt điều hành

YOLO11 là thành quả của nhiều năm tinh chỉnh lặp đi lặp lại. Ultralytics Nó nổi bật về tính linh hoạt , cung cấp hỗ trợ gốc cho việc phát hiện, phân đoạn, ước tính tư thế và hộp giới hạn định hướng (OBB). Kiến trúc của nó được tối ưu hóa cho phần cứng hiện đại, mang lại độ chính xác cao hơn trên mỗi FLOP so với các mô hình cũ hơn.

YOLOX , được Megvii phát triển vào năm 2021, là một bản phát hành quan trọng đã phổ biến mô hình phát hiện không cần anchor . Nó đơn giản hóa quá trình huấn luyện bằng cách loại bỏ các anchor box và giới thiệu các kỹ thuật tăng cường dữ liệu tiên tiến như... MixUp và Mosaic. Mặc dù vẫn là một thiết bị dò tìm có khả năng, nhưng nó thiếu các khả năng đa nhiệm và quy trình triển khai liền mạch vốn là đặc điểm của các thiết bị mới hơn. Ultralytics mô hình.

Đối với các nhà phát triển bắt đầu các dự án mới hiện nay, YOLO11 hoặc YOLO26 tiên tiến thường được khuyến nghị do tỷ lệ hiệu năng trên hiệu quả vượt trội và dễ sử dụng.

Các chỉ số so sánh kỹ thuật

Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa hai kiến trúc trên các kích thước mô hình khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Phân tích hiệu suất

YOLO11m đạt được mức cao hơn mAP (51,5%) so với YOLOXx lớn nhất (51,1%) trong khi sử dụng ít hơn khoảng 5 lần tham số (20,1 triệu so với 99,1 triệu) và chạy nhanh hơn gần 3 lần trên GPU T4. Sự cải thiện hiệu quả vượt trội này giúp YOLO11 Chi phí triển khai trên quy mô lớn rẻ hơn đáng kể.

Tìm hiểu sâu về kiến trúc

YOLO11: Hiệu quả và tính linh hoạt được tinh chỉnh

Tác giả: Glenn Jocher, Jing Qiu ( Ultralytics )
Ngày: Tháng 9 năm 2024

YOLO11 Được xây dựng dựa trên các mô-đun C2f (CSP Bottleneck với 2 phép tích chập) được giới thiệu trong các phiên bản trước nhưng được nâng cấp để có luồng gradient tốt hơn và khả năng trích xuất đặc trưng hiệu quả hơn.

Mạng trục chính: Mạng trục chính dựa trên CSP được tối ưu hóa, cân bằng giữa chiều sâu và chiều rộng để giảm thiểu tải tính toán đồng thời tối đa hóa trường tiếp nhận.
Đầu: Một đầu phát hiện thống nhất hỗ trợ nhiều tác vụ — phát hiện đối tượng, phân đoạn đối tượng và ước tính tư thế — mà không cần thay đổi kiến trúc đáng kể.
Không cần neo: Giống như YOLOX, YOLO11 Phương pháp này sử dụng cách tiếp cận không cần neo, giúp giảm số lượng tham số thiết kế (như kích thước và tỷ lệ neo) và đơn giản hóa độ phức tạp của mô hình.
Động lực huấn luyện: Kết hợp các chiến lược tăng cường dữ liệu tiên tiến trong quá trình huấn luyện. Ultralytics quy trình huấn luyện, đảm bảo tính ổn định trước các điều kiện ánh sáng và che khuất khác nhau.

Tìm hiểu thêm về YOLO11

YOLOX: Người tiên phong không neo

Tác giả: Zheng Ge, et al. (Megvii)
Ngày: Tháng 7 năm 2021

YOLOX được thiết kế để thu hẹp khoảng cách giữa cộng đồng nghiên cứu và các ứng dụng công nghiệp.

Cấu trúc đầu tách rời: YOLOX đã giới thiệu cấu trúc đầu tách rời, trong đó các tác vụ phân loại và hồi quy được xử lý bởi các nhánh riêng biệt. Điều này được chứng minh là giúp cải thiện tốc độ hội tụ và độ chính xác.
SimOTA: Một cải tiến quan trọng là "Phương pháp phân bổ vận chuyển tối ưu đơn giản hóa" (SimOTA) để gán nhãn. Chiến lược năng động này gán các đối tượng thực tế cho các dự đoán hiệu quả hơn so với các phương pháp cố định. IoU ngưỡng.
Cơ chế không cần neo: Bằng cách loại bỏ các hộp neo, YOLOX đã loại bỏ nhu cầu điều chỉnh neo thủ công, một điểm khó khăn thường gặp ở các sản phẩm trước đây. YOLO các phiên bản (v2-v5).
Tăng cường mạnh mẽ: Sử dụng nhiều Mosaic và MixUp Các cải tiến này cho phép YOLOX được huấn luyện hiệu quả từ đầu.

Tìm hiểu thêm về YOLOX

Hệ sinh thái và Dễ sử dụng

Một trong những yếu tố quan trọng nhất đối với các nhà phát triển là hệ sinh thái phần mềm xung quanh mô hình. Điều này quyết định mức độ dễ dàng trong việc huấn luyện, xác thực và triển khai mô hình.

Lợi thế của Ultralytics

YOLO11 được hưởng lợi từ hệ sinh thái Ultralytics đã phát triển và được duy trì tích cực. Sự tích hợp này mang lại một số lợi thế rõ rệt:

API thống nhất: Việc chuyển đổi giữa các tác vụ rất đơn giản. Bạn có thể chuyển từ phát hiện ô tô sang phân đoạn khối u chỉ bằng cách thay đổi một tham số duy nhất trong API. Python SDK hoặc CLI .
Tính linh hoạt khi triển khai: Khung phần mềm bao gồm chức năng xuất tích hợp sang các định dạng như ONNX , TensorRT , CoreML , Và OpenVINO Điều này cho phép các nhà phát triển triển khai mô hình lên môi trường sản xuất chỉ với một dòng mã.
Hỗ trợ nền tảng: Nền tảng Ultralytics đơn giản hóa toàn bộ vòng đời, từ chú thích dữ liệu đến huấn luyện trên đám mây và quản lý mô hình.

from ultralytics import YOLO

# Load a model (YOLO11n)
model = YOLO("yolo11n.pt")

# Train on a custom dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for deployment
path = model.export(format="onnx")

Hệ sinh thái YOLOX

YOLOX chủ yếu được sử dụng làm kho lưu trữ nghiên cứu. Mặc dù mã nguồn mở và chất lượng cao, nhưng nó thường yêu cầu cấu hình thủ công nhiều hơn. Người dùng thường cần tự quản lý trình tải dữ liệu, viết các tập lệnh xuất tùy chỉnh cho phần cứng cụ thể và điều hướng trong một cơ sở mã được cập nhật ít thường xuyên hơn so với các hệ thống khác. Ultralytics kho lưu trữ.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào những ràng buộc cụ thể của môi trường ứng dụng.

Các trường hợp sử dụng lý tưởng cho YOLO11

Phân tích video thời gian thực: Với tốc độ suy luận T4 chỉ 1,5ms , YOLO11n hoàn hảo để xử lý các luồng video tốc độ khung hình cao phục vụ quản lý giao thông hoặc phân tích thể thao.
Hệ thống đa nhiệm: Nếu một ứng dụng yêu cầu theo dõi đối tượng và ước tính tư thế đồng thời (ví dụ: phân tích bài tập thể dục ), YOLO11 Cấu trúc đầu đa năng của sản phẩm giúp giảm thiểu nhu cầu sử dụng nhiều mô hình nặng nề khác nhau.
Triển khai tại biên thương mại: Việc xuất dữ liệu liền mạch sang NVIDIA Jetson hoặc Raspberry Pi giúp YOLO11 Tiêu chuẩn cho các sản phẩm IoT thương mại.

Các trường hợp sử dụng lý tưởng cho YOLOX

Đánh giá chuẩn mực học thuật: YOLOX vẫn là một chuẩn mực vững chắc cho các nhà nghiên cứu so sánh các phương pháp phát hiện không dựa trên neo từ giai đoạn 2021-2022.
Hệ thống cũ: Các dự án đã đầu tư mạnh vào mã nguồn YOLOX và các quy trình tích hợp tùy chỉnh có thể thấy việc duy trì hệ thống hiện tại hiệu quả hơn về mặt chi phí so với việc chuyển đổi hoàn toàn.
Hạn chế cụ thể của thiết bị di động: Mô hình YOLOX-Nano cực kỳ nhẹ (0,91 triệu tham số), khiến nó hữu ích cho phần cứng di động có hạn chế về phần cứng, mặc dù các mô hình mới hơn như YOLO26n hiện cung cấp kích thước cạnh tranh với độ chính xác vượt trội hơn nhiều.

Tương lai: Hãy cùng bước vào YOLO26

Dành cho các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất, Ultralytics Mẫu YOLO26 vừa được ra mắt gần đây (tháng 1 năm 2026). Mẫu này thể hiện một bước tiến vượt bậc, thực sự thay thế cả hai mẫu trước đó. YOLO11 và YOLOX cho hầu hết các trường hợp sử dụng.

YOLO26 giới thiệu một số cải tiến quan trọng:

Kiến trúc End-to-End nguyên bản: Nó loại bỏ Non-Maximum Suppression ( NMS ) , một bước xử lý hậu kỳ thường gây tắc nghẽn tốc độ suy luận. Điều này dẫn đến kết quả đầu ra nhanh hơn và mang tính xác định hơn.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM, bộ tối ưu hóa này đảm bảo sự hội tụ ổn định và giảm thời gian huấn luyện.
Hiệu quả: YOLO26 cung cấp khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, biến nó thành một công cụ mạnh mẽ cho các tác vụ không yêu cầu hiệu năng cao. GPU môi trường.

Nếu bạn đang bắt đầu một dự án mới, chúng tôi đặc biệt khuyên bạn nên đánh giá YOLO26 cùng với các công cụ khác. YOLO11 .

Tìm hiểu thêm về YOLO26

Kết luận

Cả hai YOLO11 YOLOX và YOLOX đều đã khẳng định vị trí của mình trong lịch sử thị giác máy tính. YOLOX là một tiên phong chứng minh tính khả thi của việc phát hiện đối tượng không cần neo. Tuy nhiên, YOLO11 cung cấp một gói giải pháp hấp dẫn hơn cho các nhà phát triển hiện nay: nó nhanh hơn, chính xác hơn, hỗ trợ nhiều tác vụ hơn và được hỗ trợ bởi một hệ sinh thái giúp giảm đáng kể thời gian phát triển.

Các Mô hình Khác để Khám phá

YOLO26 : Mẫu đồng hồ hiện đại nhất từ... Ultralytics , bao gồm toàn bộ quy trình NMS - Phát hiện miễn phí.
RT-DETR : Một thiết bị dò dựa trên biến áp cung cấp độ chính xác cao, lý tưởng cho các tình huống cần thiết. GPU Bộ nhớ rất dồi dào.
YOLOv9 : Nổi tiếng với công nghệ Thông tin Gradient có thể lập trình (PGI) và kiến trúc GELAN.
YOLOv8: Một phiên bản cổ điển đáng tin cậy, được áp dụng rộng rãi trong dòng YOLO.

YOLO11 So sánh với YOLOX: Sự tiến hóa kiến ​​trúc và phân tích hiệu năng