YOLOv5 So sánh kỹ thuật toàn diện giữa YOLOX và YOLOX

Sự phát triển của thị giác máy tính thời gian thực đã chứng kiến nhiều cột mốc quan trọng, với các kiến trúc khác nhau liên tục đẩy mạnh giới hạn về tốc độ và độ chính xác. Hai mô hình có ảnh hưởng lớn trong lĩnh vực này là YOLOv5 và YOLOX . Mặc dù cả hai đều nổi tiếng về hiệu suất cao trong phát hiện đối tượng, nhưng chúng lại có cách tiếp cận kiến trúc hoàn toàn khác nhau.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai mô hình này, so sánh kiến trúc, các chỉ số hiệu suất, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển và nhà nghiên cứu lựa chọn công cụ phù hợp cho các dự án AI thị giác của họ.

Tổng quan về các mẫu xe và sự khác biệt về kiến trúc

Ultralytics YOLOv5

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:Kho lưu trữ Ultralytics YOLOv5
Tài liệu:Tài liệu chính thức của YOLOv5

Được giới thiệu bởi Ultralytics YOLOv5 nhanh chóng trở thành tiêu chuẩn trong ngành nhờ sự cân bằng vượt trội giữa hiệu năng, tính dễ sử dụng và hiệu quả bộ nhớ. Được xây dựng nguyên bản trên nền tảng PyTorch , YOLOv5 Nó sử dụng kiến trúc dựa trên neo. Nó dựa vào các hình dạng hộp giới hạn được xác định trước để dự đoán vị trí đối tượng, điều này làm cho nó rất hiệu quả đối với các tác vụ phát hiện đối tượng tiêu chuẩn.

Một trong những điểm mạnh lớn nhất của YOLOv5 Điểm nổi bật của nó là hệ sinh thái được duy trì tốt. Nó tự hào có hệ thống tài liệu phong phú, một hệ thống cực kỳ đơn giản. Python API và tích hợp gốc với Nền tảng Ultralytics . Điều này cho phép các nhà phát triển chuyển đổi liền mạch từ việc gắn nhãn dữ liệu sang huấn luyện và xuất sang các định dạng như ONNX và TensorRT .

Tìm hiểu thêm về YOLOv5

Lợi thế hệ sinh thái

Ultralytics YOLO các mô hình thường yêu cầu ít hơn đáng kể GPU Lượng bộ nhớ tiêu thụ thấp trong quá trình huấn luyện so với các giải pháp thay thế dựa trên transformer phức tạp hơn. Lượng bộ nhớ tiêu thụ thấp này giúp giảm thiểu tác hại. YOLOv5 Rất dễ tiếp cận đối với các nhà nghiên cứu làm việc với phần cứng dành cho người tiêu dùng.

Megvii YOLOX

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Kho lưu trữ Megvii YOLOX
Tài liệu:YOLOX ReadTheDocs

Được phát triển bởi các nhà nghiên cứu tại Megvii, YOLOX đã đi theo một con đường khác bằng cách giới thiệu thiết kế không anchor cho dòng YOLO. Bằng cách loại bỏ các hộp anchor, YOLOX đơn giản hóa đầu dò và giảm đáng kể số lượng tham số heuristic cần điều chỉnh thủ công trong quá trình huấn luyện.

YOLOX cũng tích hợp một đầu xử lý tách rời—tách biệt các nhiệm vụ phân loại và hồi quy thành các nhánh mạng khác nhau—và sử dụng chiến lược gán nhãn SimOTA. Những cải tiến này thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, giúp YOLOX đặc biệt hiệu quả trong môi trường có kích thước đối tượng rất đa dạng.

Tìm hiểu thêm về YOLOX

Hiệu suất và số liệu

Khi đánh giá các mô hình thị giác máy tính, cần xem xét sự đánh đổi giữa độ chính xác trung bình (Average Precision) ( mAP Tốc độ suy luận là rất quan trọng. Cả hai mẫu đều cung cấp nhiều kích thước (từ Nano đến Cực lớn) để phù hợp với các hạn chế phần cứng khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Trong khi YOLOXx đạt độ chính xác cao hơn một chút (51,1%). mAP ), YOLOv5 cung cấp một quy trình triển khai mạnh mẽ và được kiểm thử kỹ lưỡng hơn nhiều trên toàn hệ thống. CPU Và GPU phần cứng. Cái TensorRT tốc độ cho YOLOv5 Điểm nổi bật là khả năng tối ưu hóa sâu rộng cho các thiết bị điện toán biên, biến nó trở thành lựa chọn đáng tin cậy cho phân tích video thời gian thực.

Phương pháp luận đào tạo và Tính khả dụng

Trải nghiệm của nhà phát triển có sự khác biệt đáng kể giữa hai kiến trúc này.

Phương pháp YOLOX

Việc huấn luyện YOLOX thường yêu cầu sao chép kho lưu trữ gốc, quản lý các phụ thuộc cụ thể và thực thi các tập lệnh dòng lệnh phức tạp. Mặc dù nó hỗ trợ các tính năng nâng cao như huấn luyện độ chính xác hỗn hợp và thiết lập đa nút thông qua MegEngine , nhưng quá trình học tập có thể khá khó khăn đối với các nhà phát triển cần tạo mẫu nhanh.

Lợi thế của Ultralytics

Ngược lại, Ultralytics Ưu tiên trải nghiệm người dùng được tối giản hóa một cách vượt trội. Với ultralytics Python Với gói phần mềm này, các nhà phát triển có thể tải, huấn luyện và xác thực mô hình với lượng mã lặp lại tối thiểu. Ultralytics Tự động xử lý các thao tác tăng cường dữ liệu phức tạp, tiến hóa siêu tham số và lập lịch tốc độ học.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

Hơn nữa, YOLOv5 Tính linh hoạt của nó vượt xa khả năng phát hiện đối tượng tiêu chuẩn, cung cấp hỗ trợ mạnh mẽ cho phân loại hình ảnh và phân đoạn đối tượng trong cùng một API thống nhất.

Triển khai tinh gọn

Khi quá trình đào tạo của bạn hoàn tất, hãy xuất khẩu tệp tin. YOLOv5 mô hình tới CoreML , TFLite , hoặc OpenVINO đơn giản như chạy model.export(format="onnx"). Điều này loại bỏ nhu cầu về các script chuyển đổi của bên thứ ba thường được yêu cầu bởi các kho lưu trữ tập trung vào nghiên cứu.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường triển khai và các yêu cầu kỹ thuật của bạn:

Quản lý bán lẻ và kho hàng: Đối với các ứng dụng yêu cầu nhận dạng sản phẩm thời gian thực trên các thiết bị biên như NVIDIA Jetson, YOLOv5 đặc biệt phù hợp. Dấu chân bộ nhớ tối thiểu và tốc độ suy luận TensorRT nhanh của nó cho phép track đa camera mà không bị mất khung hình.
Academic Research and Custom Architectures:YOLOX được đánh giá cao trong cộng đồng nghiên cứu. Head tách rời và bản chất anchor-free của nó biến nó thành một mô hình cơ sở tuyệt vời cho các kỹ sư muốn thử nghiệm các chiến lược gán nhãn mới hoặc những người làm việc với các bộ dữ liệu mà các anchor box truyền thống không thể tổng quát hóa.
AI trong Nông nghiệp: Đối với các tác vụ nông nghiệp chính xác như phát hiện trái cây hoặc nhận dạng cỏ dại qua máy bay không người lái, sự dễ dàng trong việc huấn luyện và triển khai các mô hình YOLOv5 sử dụng Nền tảng Ultralytics cho phép các chuyên gia lĩnh vực triển khai các giải pháp AI mà không cần nền tảng kỹ thuật học máy chuyên sâu.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv5 và YOLOX phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv5

YOLOv5 là một lựa chọn tốt cho:

Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có nơi hồ sơ track ổn định lâu dài, tài liệu phong phú và sự hỗ trợ cộng đồng lớn của YOLOv5 được đánh giá cao.
Huấn luyện hạn chế tài nguyên: Môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 là một lợi thế.
Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng, bao gồm ONNX, TensorRT, CoreML và TFLite.

Khi nào nên chọn YOLOX

YOLOX được khuyên dùng cho:

Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Tương lai của Trí tuệ Nhân tạo Thị giác: Hãy cùng chào đón YOLO26

Trong khi cả hai YOLOv5 YOLOX và các hệ điều hành khác đã khẳng định vị trí của mình trong lịch sử thị giác máy tính, và lĩnh vực này đang phát triển nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics Tôi đặc biệt khuyên bạn nên khám phá mẫu sản phẩm chủ lực mới nhất của hãng, YOLO26 .

Ra mắt vào tháng 1 năm 2026, YOLO26 đánh dấu một bước tiến vượt bậc về cả hiệu năng và khả năng sử dụng. Nó giới thiệu thiết kế đột phá từ đầu đến cuối không cần NMS , loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Điều này giúp giảm đáng kể sự biến động độ trễ và đơn giản hóa logic triển khai trên các thiết bị tiêu thụ điện năng thấp.

Hơn nữa, YOLO26 sử dụng trình tối ưu hóa MuSGD mới — một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ những cải tiến trong huấn luyện LLM—cho khả năng hội tụ cực kỳ ổn định và nhanh chóng. Với tính năng loại bỏ DFL (Distribution Focal Loss được loại bỏ để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với các thiết bị biên/công suất thấp), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , củng cố vị thế của nó như là mô hình tối ưu cho các ứng dụng điện toán biên, robot và IoT hiện đại. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát được cải tiến với những cải tiến đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với IoT, robot và hình ảnh trên không. Người dùng quan tâm đến các thế hệ trước cũng có thể xem xét YOLO11 , mặc dù YOLO26 là lựa chọn hiện đại không thể tranh cãi.

Kết luận

YOLOv5 Cả YOLOX và YOLOX đều cung cấp khả năng phát hiện đối tượng đáng kinh ngạc. YOLOX đã vượt qua giới hạn về kiến trúc bằng cách chứng minh rằng các thiết kế không cần neo có thể cạnh tranh và vượt trội so với các phương pháp truyền thống vào năm 2021. Tuy nhiên, YOLOv5 vẫn là một thế lực thống trị nhờ tính dễ sử dụng vượt trội, hệ sinh thái rộng lớn và yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện.

Đối với phần lớn các ứng dụng thương mại, Ultralytics Hệ sinh thái này cung cấp con đường nhanh nhất từ tập dữ liệu thô đến mô hình sản xuất đã triển khai. Cho dù sử dụng các phương pháp đã được kiểm chứng hay chưa, hệ sinh thái này vẫn cung cấp con đường nhanh nhất. YOLOv5 Hoặc nâng cấp lên YOLO26 tiên tiến, các nhà phát triển sẽ được hưởng lợi từ một khung phần mềm được thiết kế để giúp trí tuệ nhân tạo thị giác trở nên dễ tiếp cận, hiệu quả và có hiệu suất cao.