YOLOv5 So sánh kỹ thuật toàn diện giữa YOLOX và YOLOX
Sự phát triển của thị giác máy tính thời gian thực đã chứng kiến nhiều cột mốc quan trọng, với các kiến trúc khác nhau liên tục đẩy mạnh giới hạn về tốc độ và độ chính xác. Hai mô hình có ảnh hưởng lớn trong lĩnh vực này là YOLOv5 và YOLOX . Mặc dù cả hai đều nổi tiếng về hiệu suất cao trong phát hiện đối tượng, nhưng chúng lại có cách tiếp cận kiến trúc hoàn toàn khác nhau.
Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai mô hình này, so sánh kiến trúc, các chỉ số hiệu suất, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng để giúp các nhà phát triển và nhà nghiên cứu lựa chọn công cụ phù hợp cho các dự án AI thị giác của họ.
Tổng quan về các mẫu xe và sự khác biệt về kiến trúc
Ultralytics YOLOv5
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- GitHub:Kho lưu trữ Ultralytics YOLOv5
- Tài liệu: Tài liệu chính thức của YOLOv5
Được giới thiệu bởi Ultralytics YOLOv5 nhanh chóng trở thành tiêu chuẩn trong ngành nhờ sự cân bằng vượt trội giữa hiệu năng, tính dễ sử dụng và hiệu quả bộ nhớ. Được xây dựng nguyên bản trên nền tảng PyTorch , YOLOv5 Nó sử dụng kiến trúc dựa trên neo. Nó dựa vào các hình dạng hộp giới hạn được xác định trước để dự đoán vị trí đối tượng, điều này làm cho nó rất hiệu quả đối với các tác vụ phát hiện đối tượng tiêu chuẩn.
Một trong những điểm mạnh lớn nhất của YOLOv5 Điểm nổi bật của nó là hệ sinh thái được duy trì tốt. Nó tự hào có hệ thống tài liệu phong phú, một hệ thống cực kỳ đơn giản. Python API và tích hợp gốc với Nền tảng Ultralytics . Điều này cho phép các nhà phát triển chuyển đổi liền mạch từ việc gắn nhãn dữ liệu sang huấn luyện và xuất sang các định dạng như ONNX và TensorRT .
Lợi thế hệ sinh thái
Ultralytics YOLO các mô hình thường yêu cầu ít hơn đáng kể GPU Lượng bộ nhớ tiêu thụ thấp trong quá trình huấn luyện so với các giải pháp thay thế dựa trên transformer phức tạp hơn. Lượng bộ nhớ tiêu thụ thấp này giúp giảm thiểu tác hại. YOLOv5 Rất dễ tiếp cận đối với các nhà nghiên cứu làm việc với phần cứng dành cho người tiêu dùng.
Megvii YOLOX
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức:Megvii
- Ngày: 2021-07-18
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub: Kho lưu trữ Megvii YOLOX
- Tài liệu hướng dẫn: YOLOX ReadTheDocs
Được phát triển bởi các nhà nghiên cứu tại Megvii, YOLOX đã đi theo một hướng khác bằng cách giới thiệu thiết kế không cần neo vào... YOLO Bằng cách loại bỏ các hộp neo, YOLOX đơn giản hóa đầu phát hiện và giảm đáng kể số lượng tham số phỏng đoán cần điều chỉnh thủ công trong quá trình huấn luyện.
YOLOX cũng tích hợp một đầu xử lý tách rời—tách biệt các nhiệm vụ phân loại và hồi quy thành các nhánh mạng khác nhau—và sử dụng chiến lược gán nhãn SimOTA. Những cải tiến này thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, giúp YOLOX đặc biệt hiệu quả trong môi trường có kích thước đối tượng rất đa dạng.
Hiệu suất và số liệu
Khi đánh giá các mô hình thị giác máy tính, cần xem xét sự đánh đổi giữa độ chính xác trung bình (Average Precision) ( mAP Tốc độ suy luận là rất quan trọng. Cả hai mẫu đều cung cấp nhiều kích thước (từ Nano đến Cực lớn) để phù hợp với các hạn chế phần cứng khác nhau.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Trong khi YOLOXx đạt độ chính xác cao hơn một chút (51,1%). mAP ), YOLOv5 cung cấp một quy trình triển khai mạnh mẽ và được kiểm thử kỹ lưỡng hơn nhiều trên toàn hệ thống. CPU Và GPU phần cứng. Cái TensorRT tốc độ cho YOLOv5 Điểm nổi bật là khả năng tối ưu hóa sâu rộng cho các thiết bị điện toán biên, biến nó trở thành lựa chọn đáng tin cậy cho phân tích video thời gian thực.
Phương pháp luận đào tạo và Tính khả dụng
Trải nghiệm của nhà phát triển có sự khác biệt đáng kể giữa hai kiến trúc này.
Phương pháp YOLOX
Việc huấn luyện YOLOX thường yêu cầu sao chép kho lưu trữ gốc, quản lý các phụ thuộc cụ thể và thực thi các tập lệnh dòng lệnh phức tạp. Mặc dù nó hỗ trợ các tính năng nâng cao như huấn luyện độ chính xác hỗn hợp và thiết lập đa nút thông qua MegEngine , nhưng quá trình học tập có thể khá khó khăn đối với các nhà phát triển cần tạo mẫu nhanh.
Lợi thế của Ultralytics
Ngược lại, Ultralytics Ưu tiên trải nghiệm người dùng được tối giản hóa một cách vượt trội. Với ultralytics Python Với gói phần mềm này, các nhà phát triển có thể tải, huấn luyện và xác thực mô hình với lượng mã lặp lại tối thiểu. Ultralytics Tự động xử lý các thao tác tăng cường dữ liệu phức tạp, tiến hóa siêu tham số và lập lịch tốc độ học.
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
Hơn nữa, YOLOv5 Tính linh hoạt của nó vượt xa khả năng phát hiện đối tượng tiêu chuẩn, cung cấp hỗ trợ mạnh mẽ cho phân loại hình ảnh và phân đoạn đối tượng trong cùng một API thống nhất.
Triển khai tinh gọn
Khi quá trình đào tạo của bạn hoàn tất, hãy xuất khẩu tệp tin. YOLOv5 mô hình tới CoreML , TFLite , hoặc OpenVINO đơn giản như chạy model.export(format="onnx")Điều này giúp loại bỏ nhu cầu sử dụng các tập lệnh chuyển đổi của bên thứ ba thường được yêu cầu bởi các kho lưu trữ tập trung vào nghiên cứu.
Các ứng dụng thực tế
Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường triển khai và yêu cầu kỹ thuật của bạn:
- Quản lý bán lẻ và tồn kho: Dành cho các ứng dụng yêu cầu nhận dạng sản phẩm theo thời gian thực trên các thiết bị đầu cuối như... NVIDIA Jetson, YOLOv5 đặc biệt phù hợp. Nó có dung lượng bộ nhớ tối thiểu và tốc độ nhanh. TensorRT Tốc độ suy luận cho phép theo dõi nhiều camera mà không làm mất khung hình.
- Nghiên cứu học thuật và kiến trúc tùy chỉnh: YOLOX được đánh giá cao trong cộng đồng nghiên cứu. Cấu trúc đầu tách rời và không có neo của nó làm cho nó trở thành một nền tảng tuyệt vời cho các kỹ sư muốn thử nghiệm các chiến lược gán nhãn mới hoặc những người làm việc trên các tập dữ liệu mà các hộp neo truyền thống không thể khái quát hóa.
- Trí tuệ nhân tạo trong nông nghiệp: Đối với các nhiệm vụ nông nghiệp chính xác như phát hiện trái cây hoặc nhận dạng cỏ dại bằng máy bay không người lái, sự dễ dàng trong việc đào tạo và triển khai. YOLOv5 Các mô hình sử dụng Nền tảng Ultralytics cho phép các chuyên gia trong lĩnh vực cụ thể triển khai các giải pháp AI mà không cần có kiến thức chuyên sâu về kỹ thuật máy học.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv5 Việc lựa chọn YOLOX phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv5
YOLOv5 là một lựa chọn tốt cho:
- Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có trong đó YOLOv5 Dài track Lịch sử hoạt động ổn định, hệ thống tài liệu đầy đủ và sự ủng hộ mạnh mẽ từ cộng đồng được đánh giá cao.
- Đào tạo trong điều kiện nguồn lực hạn chế: Môi trường có nguồn lực hạn chế GPU nguồn lực ở đâu YOLOv5 Quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn là những lợi thế của nó.
- Hỗ trợ định dạng xuất khẩu đa dạng: Các dự án yêu cầu triển khai trên nhiều định dạng khác nhau, bao gồm ONNX , TensorRT , CoreML và TFLite .
Khi nào nên chọn YOLOX
YOLOX được khuyên dùng cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Tương lai của Trí tuệ Nhân tạo Thị giác: Hãy cùng chào đón YOLO26
Trong khi cả hai YOLOv5 YOLOX và các hệ điều hành khác đã khẳng định vị trí của mình trong lịch sử thị giác máy tính, và lĩnh vực này đang phát triển nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics Tôi đặc biệt khuyên bạn nên khám phá mẫu sản phẩm chủ lực mới nhất của hãng, YOLO26 .
Ra mắt vào tháng 1 năm 2026, YOLO26 đánh dấu một bước tiến vượt bậc về cả hiệu năng và khả năng sử dụng. Nó giới thiệu thiết kế đột phá từ đầu đến cuối không cần NMS , loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Điều này giúp giảm đáng kể sự biến động độ trễ và đơn giản hóa logic triển khai trên các thiết bị tiêu thụ điện năng thấp.
Hơn nữa, YOLO26 sử dụng trình tối ưu hóa MuSGD mới — một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ những cải tiến trong huấn luyện LLM—cho khả năng hội tụ cực kỳ ổn định và nhanh chóng. Với tính năng loại bỏ DFL (Distribution Focal Loss được loại bỏ để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với các thiết bị biên/công suất thấp), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , củng cố vị thế của nó như là mô hình tối ưu cho các ứng dụng điện toán biên, robot và IoT hiện đại. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát được cải tiến với những cải tiến đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với IoT, robot và hình ảnh trên không. Người dùng quan tâm đến các thế hệ trước cũng có thể xem xét YOLO11 , mặc dù YOLO26 là lựa chọn hiện đại không thể tranh cãi.
Kết luận
YOLOv5 Cả YOLOX và YOLOX đều cung cấp khả năng phát hiện đối tượng đáng kinh ngạc. YOLOX đã vượt qua giới hạn về kiến trúc bằng cách chứng minh rằng các thiết kế không cần neo có thể cạnh tranh và vượt trội so với các phương pháp truyền thống vào năm 2021. Tuy nhiên, YOLOv5 vẫn là một thế lực thống trị nhờ tính dễ sử dụng vượt trội, hệ sinh thái rộng lớn và yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện.
Đối với phần lớn các ứng dụng thương mại, Ultralytics Hệ sinh thái này cung cấp con đường nhanh nhất từ tập dữ liệu thô đến mô hình sản xuất đã triển khai. Cho dù sử dụng các phương pháp đã được kiểm chứng hay chưa, hệ sinh thái này vẫn cung cấp con đường nhanh nhất. YOLOv5 Hoặc nâng cấp lên YOLO26 tiên tiến, các nhà phát triển sẽ được hưởng lợi từ một khung phần mềm được thiết kế để giúp trí tuệ nhân tạo thị giác trở nên dễ tiếp cận, hiệu quả và có hiệu suất cao.