Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX so với YOLOv5#

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định then chốt quyết định sự thành công của bất kỳ dự án thị giác máy tính nào. Hướng dẫn này cung cấp một bản so sánh kỹ thuật toàn diện giữa hai mô hình quan trọng trong hệ sinh thái AI: YOLOX của Megvii và Ultralytics YOLOv5. Bằng cách phân tích kiến trúc, các chỉ số hiệu suất và hệ sinh thái huấn luyện, chúng tôi hướng tới việc giúp các nhà phát triển và nghiên cứu đưa ra lựa chọn sáng suốt cho môi trường triển khai cụ thể của họ.

Link to this sectionGiới thiệu về các Model#

Cả hai mô hình đều xuất hiện trong thời kỳ phát triển nhanh chóng của công nghệ phát hiện đối tượng theo thời gian thực, tuy nhiên chúng theo đuổi các triết lý kiến trúc khác nhau để đạt được hiệu suất của mình.

Link to this sectionYOLOX: Cách tiếp cận không dùng anchor#

Được công bố bởi các nhà nghiên cứu Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii vào ngày 18 tháng 7 năm 2021, YOLOX đã giới thiệu một sự thay đổi đáng kể bằng cách loại bỏ các anchor box truyền thống. Được ghi lại trong báo cáo kỹ thuật Arxiv của họ, YOLOX đã tích hợp thiết kế không dùng anchor (anchor-free) với decoupled head và chiến lược gán nhãn SimOTA. Thiết kế này nhằm mục đích thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, mang lại hiệu suất mạnh mẽ trên các tập dữ liệu tiêu chuẩn.

Tìm hiểu thêm về YOLOX

Link to this sectionYOLOv5: Tiêu chuẩn cho AI thị giác trong sản xuất#

Được viết bởi Glenn Jocher và ra mắt bởi Ultralytics vào ngày 26 tháng 6 năm 2020, YOLOv5 đã nhanh chóng trở thành tiêu chuẩn công nghiệp cho thị giác máy tính trong triển khai thực tế. Được xây dựng dựa trên khung PyTorch, nó đã phổ cập AI tiên tiến bằng cách cung cấp sự dễ sử dụng chưa từng có, tốc độ huấn luyện cực nhanh và một kho lưu trữ được tối ưu hóa cao. Kiến trúc của YOLOv5 tập trung vào sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và khả năng triển khai dễ dàng, khiến nó trở thành lựa chọn hàng đầu cho mọi thứ, từ thiết bị biên (edge) đến triển khai quy mô lớn trên đám mây.

Tìm hiểu thêm về YOLOv5

Link to this sectionSự khác biệt về kiến trúc#

Hiểu rõ sự khác biệt cốt lõi về cơ chế giữa các mạng này sẽ làm rõ lý do tại sao chúng hoạt động khác nhau trong các tác vụ khác nhau.

Link to this sectionKhông dùng Anchor so với dùng Anchor#

Sự tương phản rõ rệt nhất là cơ chế không dùng anchor của YOLOX. Các mô hình truyền thống như YOLOv5 dựa vào các anchor box được xác định trước để dự đoán BBox, đòi hỏi phân tích phân cụm trên tập dữ liệu huấn luyện để xác định kích thước anchor tối ưu. YOLOX loại bỏ điều này, dự đoán tọa độ BBox trực tiếp tại mỗi vị trí không gian. Mặc dù cách tiếp cận không dùng anchor làm giảm số lượng tham số thiết kế và việc điều chỉnh thủ công, cách tiếp cận dùng anchor tinh chỉnh của YOLOv5, được hỗ trợ bởi tính năng auto-anchor, đảm bảo quá trình huấn luyện hội tụ cực kỳ ổn định và có thể dự đoán được ngay từ đầu.

Link to this sectionDecoupled Head so với Coupled Head#

YOLOX sử dụng decoupled head, nghĩa là các tác vụ phân loại và hồi quy được tách thành các nhánh mạng thần kinh riêng biệt. Các tác giả cho rằng điều này giải quyết các xung đột giữa việc học đặc trưng không gian và ngữ nghĩa. Ngược lại, YOLOv5 sử dụng coupled head được tối ưu hóa cao (trong các phiên bản trước đó) nhằm tối đa hóa hiệu suất tính toán và giảm độ trễ suy luận, điều này rất quan trọng cho điện toán biên theo thời gian thực.

Sự tiến hóa về kiến trúc

Trong khi YOLOX tiên phong với decoupled head vào năm 2021, Ultralytics sau đó đã áp dụng và hoàn thiện các kiến trúc này trong các mô hình tiếp theo như YOLOv8YOLO26 tiên tiến, kết hợp những điểm mạnh nhất của cả hai thế giới.

Link to this sectionChiến lược gán nhãn#

YOLOX sử dụng SimOTA cho việc gán nhãn, điều này mô hình hóa việc ghép cặp các đối tượng ground truth với các dự đoán như một bài toán vận tải tối ưu (Optimal Transport). Việc gán nhãn động này cải thiện khả năng xử lý trong các cảnh quay đông đúc. YOLOv5 sử dụng chiến lược gán nhãn dựa trên quy tắc hình dạng (shape-rule) mạnh mẽ, đảm bảo các mẫu dương chất lượng cao luôn được đưa vào hàm mất mát, điều này góp phần tạo nên sự ổn định huấn luyện huyền thoại của nó.

Link to this sectionHiệu năng và Benchmark#

Sự đánh đổi giữa tốc độ và độ chính xác là bài kiểm tra cuối cùng cho các kiến trúc này. Bảng dưới đây minh họa hiệu suất của các kích thước mô hình khác nhau trên các chuẩn benchmark tiêu chuẩn.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Mặc dù YOLOX đạt được điểm mAP cạnh tranh, đặc biệt là ở các biến thể lớn hơn, YOLOv5 vẫn duy trì ưu thế vượt trội về tốc độ suy luận TensorRT trên mọi mặt. Ví dụ, mô hình YOLOv5s cung cấp tỷ lệ tốc độ trên độ chính xác vượt trội, khiến nó trở nên rất đáng giá cho các ứng dụng thời gian thực nơi mà từng mili giây đều quan trọng.

Link to this sectionLợi thế của Ultralytics: Huấn luyện và khả năng sử dụng#

Khi chuyển từ nghiên cứu sang sản xuất, hệ sinh thái xung quanh một mô hình thường quan trọng ngang bằng với chính mô hình đó. Tại đây, những lợi thế của hệ sinh thái Ultralytics trở nên vô cùng rõ ràng.

Link to this sectionTrải nghiệm người dùng được tối ưu hóa#

YOLOv5 được ca ngợi rộng rãi vì trải nghiệm "zero-to-hero" dành cho nhà phát triển. API Python của Ultralytics và CLI cho phép bạn tải, huấn luyện và triển khai các mô hình chỉ với vài dòng mã. Ngược lại, việc chạy YOLOX từ kho lưu trữ GitHub của Megvii đòi hỏi cấu hình thủ công nhiều hơn về các biến môi trường, thiết lập đường dẫn Python phức tạp và một lộ trình học tập khó khăn hơn vốn điển hình của các codebase nghiên cứu học thuật.

Link to this sectionHiệu quả đào tạo và yêu cầu bộ nhớ#

Các mô hình Ultralytics được kỹ thuật hóa tỉ mỉ để giảm thiểu việc sử dụng bộ nhớ trong quá trình huấn luyện. YOLOv5 yêu cầu ít bộ nhớ CUDA hơn đáng kể so với các mô hình Transformer có tham số lớn như RT-DETR hoặc các mô hình nghiên cứu chưa được tối ưu hóa. Điều này cho phép các nhà phát triển huấn luyện với kích thước batch lớn hơn trên phần cứng phổ thông, thúc đẩy chu kỳ phát triển lặp lại.

Link to this sectionTính linh hoạt giữa các tác vụ#

Trong khi YOLOX chỉ đơn thuần là một khung phát hiện đối tượng, hệ sinh thái Ultralytics đã phát triển YOLOv5 để hỗ trợ nhiều tác vụ thị giác. Bạn có thể thực hiện phân loại hình ảnh, phân đoạn cá thể và phát hiện đối tượng ngay lập tức bằng cách sử dụng chính xác cùng một cú pháp API.

Đổi mới liên tục

Nếu bạn yêu cầu các tác vụ nâng cao hơn như ước tính tư thế hoặc phát hiện hộp bao xoay (OBB), chúng tôi đặc biệt khuyến nghị nâng cấp lên kiến trúc Ultralytics YOLO26 mới nhất, hỗ trợ tất cả những điều này một cách tự nhiên với độ chính xác hàng đầu.

Link to this sectionSo sánh mã nguồn#

Sự khác biệt về khả năng sử dụng được thể hiện rõ nhất qua code.

Huấn luyện với YOLOv5:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

Huấn luyện với YOLOX: (Yêu cầu clone kho lưu trữ thủ công, cài đặt setup.py và các đối số CLI phức tạp)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Cách tiếp cận của Ultralytics loại bỏ các rào cản, cho phép bạn tập trung vào tập dữ liệu và logic ứng dụng của mình thay vì gỡ lỗi các tệp cấu hình. Hơn nữa, việc theo dõi các thử nghiệm của bạn trở nên liền mạch với các tích hợp sẵn có cho Weights & BiasesComet ML.

Link to this sectionCác trường hợp sử dụng lý tưởng và ứng dụng thực tế#

Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường vận hành của dự án bạn.

Link to this sectionNơi YOLOX tỏa sáng#

YOLOX vẫn là một ứng cử viên mạnh mẽ trong các bối cảnh học thuật, nơi các nhà nghiên cứu đang nghiên cứu rõ ràng về các mô hình không dùng anchor hoặc các chiến lược gán nhãn. Nó cũng hữu ích trong các tình huống mà việc phát hiện trong các cảnh đông đúc là chỉ số quan trọng nhất và tốc độ triển khai trên thiết bị biên là thứ yếu.

Link to this sectionNơi YOLOv5 vượt trội#

YOLOv5 là nhà vô địch không thể tranh cãi về triển khai thực tế.

  • Sản xuất tốc độ cao: Đối với phát hiện lỗi trên dây chuyền lắp ráp, độ trễ suy luận tối thiểu của YOLOv5 trên các GPU biên đảm bảo sản phẩm được kiểm tra mà không làm chậm dây chuyền.
  • Drone và hình ảnh trên không: Dung lượng bộ nhớ hiệu quả cho phép nó chạy trên các máy tính đồng hành nhẹ trên drone cho các tác vụ như giám sát nông nghiệp và theo dõi động vật hoang dã.
  • Bán lẻ thông minh: Từ thanh toán tự động đến quản lý hàng tồn kho, YOLOv5 dễ dàng xuất sang TensorRTONNX để triển khai hàng loạt trên hàng ngàn camera cửa hàng.

Link to this sectionHướng tới tương lai: Lợi thế của YOLO26#

Mặc dù YOLOv5 là một mô hình huyền thoại, lĩnh vực AI đang tiến bộ nhanh chóng. Nếu bạn đang bắt đầu một dự án mới hôm nay, chúng tôi đặc biệt khuyên bạn nên xem xét thế hệ mô hình Ultralytics mới nhất.

Được ra mắt vào năm 2026, Ultralytics YOLO26 đại diện cho một bước nhảy vọt lớn. Nó có Thiết kế End-to-End không dùng NMS, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression, giúp đơn giản hóa logic triển khai một cách đáng kể. Bằng cách loại bỏ Distribution Focal Loss (DFL) và sử dụng bộ tối ưu hóa tiên tiến MuSGD, YOLO26 đạt được suy luận CPU nhanh hơn tới 43% so với các thế hệ trước trong khi vẫn duy trì độ chính xác cao hơn, đặc biệt là đối với các đối tượng nhỏ nhờ vào các hàm mất mát mới ProgLoss + STAL.

Cho dù bạn chọn sự tin cậy đã được kiểm chứng qua chiến đấu của YOLOv5 hay hiệu suất hàng đầu của YOLO26, Nền tảng Ultralytics đảm bảo bạn có các công cụ tốt nhất hiện có để đưa các giải pháp thị giác máy tính của bạn từ khái niệm đến sản xuất một cách liền mạch. Đảm bảo khám phá tài liệu toàn diện của Ultralytics để mở khóa toàn bộ tiềm năng trong pipeline AI của bạn.

Những người đóng góp

Bình luận