YOLOX so với... YOLOv5 Kết nối nghiên cứu không cần neo và phát hiện vật thể trong công nghiệp

Sự phát triển của công nghệ phát hiện đối tượng thời gian thực được thúc đẩy bởi hai triết lý khác biệt: sự theo đuổi tính thuần khiết về kiến trúc trong giới học thuật và nhu cầu thực tiễn trong ngành công nghiệp. YOLOX và YOLOv5 đại diện cho sự hội tụ của hai con đường này. YOLOX giới thiệu một bộ dò không cần neo hiệu suất cao, giúp đơn giản hóa hình học cơ bản của quá trình phát hiện, trong khi đó YOLOv5 Thiết lập tiêu chuẩn toàn cầu về khả năng sử dụng, độ bền và tính dễ triển khai trong môi trường sản xuất.

Bài so sánh chi tiết này sẽ phân tích cách hai mô hình có tầm ảnh hưởng này cạnh tranh với nhau về các lựa chọn kiến trúc, tốc độ suy luận và khả năng ứng dụng thực tế, giúp bạn quyết định khung công tác nào phù hợp nhất với nhu cầu thị giác máy tính của mình.

Thông số kỹ thuật chính

Bảng sau đây nêu bật các chỉ số hiệu suất của cả hai mô hình. Mặc dù YOLOX thể hiện kết quả lý thuyết mạnh mẽ, YOLOv5 thường mang lại một hồ sơ cân bằng hơn cho việc triển khai thực tế, đặc biệt khi xem xét sự trưởng thành của hệ sinh thái xuất khẩu của nó.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOX: Nhà tiên phong không cần neo giữ

YOLOX , được Megvii phát hành năm 2021, đánh dấu một sự thay đổi đáng kể trong... YOLO Chuỗi mô hình được cải tiến bằng cách loại bỏ các hộp neo – một đặc điểm quen thuộc của các phiên bản trước như YOLOv2 và YOLOv3. Bằng cách áp dụng cơ chế không sử dụng neo, YOLOX đã đơn giản hóa quá trình huấn luyện và loại bỏ nhu cầu điều chỉnh siêu tham số neo thủ công, điều thường đòi hỏi chuyên môn trong lĩnh vực cụ thể.

Điểm nổi bật về kiến trúc

Cơ chế không cần neo: Thay vì dự đoán độ lệch từ các hộp được xác định trước, YOLOX dự đoán trực tiếp tọa độ của hộp giới hạn. Cách tiếp cận này giảm độ phức tạp của kiến trúc đầu dò và cải thiện khả năng khái quát hóa trên nhiều hình dạng đối tượng khác nhau.
Phân tách đầu xử lý: Nhiệm vụ phân loại và định vị được tách thành các nhánh khác nhau của mạng. Việc phân tách này giải quyết mâu thuẫn giữa độ tin cậy phân loại và độ chính xác định vị, dẫn đến sự hội tụ nhanh hơn trong quá trình huấn luyện.
Phân bổ nhãn SimOTA: YOLOX đã giới thiệu SimOTA, một chiến lược phân bổ nhãn tiên tiến xem quy trình phân bổ như một bài toán vận chuyển tối ưu. Việc phân bổ động này cho phép mô hình học được nhiều mẫu tích cực hiệu quả hơn trong quá trình huấn luyện.
Tăng cường Mosaic và MixUp : Lấy cảm hứng mạnh mẽ từ YOLOv4 và Ultralytics YOLOX sử dụng các chiến lược tăng cường dữ liệu mạnh mẽ để nâng cao độ ổn định mà không làm tăng chi phí suy luận.

Bối cảnh nghiên cứu

YOLOX đóng vai trò là cầu nối quan trọng giữa nghiên cứu học thuật và ứng dụng công nghiệp, chứng minh rằng các bộ dò không cần neo có thể đạt được hiệu suất tương đương với các hệ thống dựa trên neo được tối ưu hóa như... YOLOv5 .

Chi tiết YOLOX:

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX

Tìm hiểu thêm về YOLOX

YOLOv5: Tiêu chuẩn công nghiệp

YOLOv5 , được phát triển bởi Ultralytics Có thể nói đây là mô hình phát hiện đối tượng được sử dụng rộng rãi nhất trên thế giới. Nó ưu tiên tính khả dụng, sự ổn định và trải nghiệm "chỉ cần hoạt động". Trong khi đó, YOLOX tập trung vào tính mới lạ về kiến trúc, YOLOv5 Tập trung vào sự xuất sắc trong kỹ thuật—tạo ra một mô hình dễ đào tạo, triển khai và mở rộng quy mô cho hàng ngàn trường hợp sử dụng thực tế.

Lý do các nhà phát triển chọn YOLOv5

Dễ sử dụng vượt trội: Ultralytics API đơn giản hóa quá trình huấn luyện mô hình học sâu. Người dùng có thể chuyển từ tập dữ liệu sang mô hình đã được huấn luyện chỉ với vài dòng mã. Python mã nguồn, giúp giảm đáng kể rào cản gia nhập thị trường đối với việc ứng dụng AI.
Hệ sinh thái toàn diện: Không giống như các kho lưu trữ nghiên cứu thường bị bỏ hoang sau khi công bố, YOLOv5 Được hỗ trợ bởi một hệ sinh thái khổng lồ. Điều này bao gồm sự tích hợp liền mạch với các công cụ MLOps như Weights & Biases , Comet và ClearML , đảm bảo quy trình phát triển chuyên nghiệp.
Quản lý bộ nhớ hiệu quả: YOLOv5 Được thiết kế để đạt hiệu quả cao. Thông thường, nó yêu cầu ít hơn. GPU So với nhiều đối thủ cạnh tranh, bộ nhớ trong trong quá trình huấn luyện được tiết kiệm hơn, cho phép người dùng huấn luyện các mô hình hiệu quả trên phần cứng cấp độ người tiêu dùng hoặc thậm chí là các tài nguyên đám mây miễn phí như Google Colab .
Tính linh hoạt vượt xa khả năng phát hiện: Mặc dù YOLOX chủ yếu là một khung phát hiện, YOLOv5 Hỗ trợ sẵn tính năng phân đoạn đối tượng và phân loại hình ảnh , biến nó thành một công cụ đa chức năng đáp ứng nhiều yêu cầu dự án khác nhau.

YOLOv5 Chi tiết:

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
Tài liệu:Tài liệu YOLOv5
GitHub:ultralytics/yolov5

Tìm hiểu thêm về YOLOv5

Phân tích hiệu năng và triển khai

Khi lựa chọn mô hình để sản xuất, nguyên liệu thô mAP Tuy nhiên, đây hiếm khi là yếu tố duy nhất. Các hạn chế về triển khai, khả năng tương thích phần cứng và bảo trì cũng quan trọng không kém.

Tốc độ và hiệu quả suy luận

YOLOv5 Nó vượt trội trong các kịch bản triển khai. Kiến trúc của nó được tối ưu hóa cao để xuất sang các định dạng như ONNX , TensorRT , CoreML và... TFLite Như thể hiện trong bảng so sánh, YOLOv5n (Nano) đạt tốc độ suy luận nhanh hơn đáng kể (1,12ms trên T4). TensorRT So với các mẫu máy nhẹ tương tự, sản phẩm này có ưu điểm vượt trội, lý tưởng cho các thiết bị biên, nơi mỗi mili giây đều vô cùng quan trọng.

Mặc dù có hiệu năng tốt, YOLOX đôi khi gặp khó khăn về khả năng tương thích xuất khẩu do các thành phần kiến trúc đặc thù của nó (như phần xử lý tách rời), điều này có thể đòi hỏi kỹ thuật tùy chỉnh cao hơn để tối ưu hóa cho một số công cụ suy luận nhất định.

Kinh nghiệm đào tạo

Hiệu quả đào tạo là một đặc điểm nổi bật của... Ultralytics hệ sinh thái. YOLOv5 Cơ chế tự động neo của thư viện sẽ tự động tính toán lại các điểm neo để phù hợp nhất với tập dữ liệu tùy chỉnh của bạn, mang lại lợi ích của các điểm neo được tùy chỉnh mà không cần can thiệp thủ công. Hơn nữa, sự sẵn có của các trọng số được huấn luyện trước chất lượng cao giúp tăng tốc quá trình học chuyển giao , cho phép các mô hình đạt được độ chính xác cao với các tập dữ liệu nhỏ hơn.

from ultralytics import YOLO

# Load a model (YOLOv5 or the newer YOLO26)
model = YOLO("yolov5su.pt")  # YOLOv5s with newer head

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Quy trình làm việc tinh gọn

Đoạn mã trên minh họa sự thống nhất. Ultralytics API. Giao diện đơn giản này cũng hoạt động cho YOLOv5 , YOLOv8 và công nghệ tiên tiến YOLO26 , cho phép bạn chuyển đổi mô hình ngay lập tức mà không cần viết lại mã nguồn.

Đề xuất Trường hợp Sử dụng

Lý tưởng cho YOLOX

Nghiên cứu học thuật: Việc triển khai gọn gàng, không cần neo giúp nó trở thành một nền tảng tuyệt vời cho các nhà nghiên cứu nghiên cứu các chiến lược gán nhãn hoặc kiến trúc đầu phát hiện.
Các kịch bản cụ thể đòi hỏi độ chính xác cao: Dành cho các tác vụ cần tối đa hóa mAP Nếu độ chính xác là ưu tiên hàng đầu và độ trễ suy luận ít quan trọng hơn, thì các phiên bản lớn hơn của YOLOX (như YOLOX-x) cung cấp độ chính xác cạnh tranh.

Thích hợp nhất cho YOLOv5

Triển khai thương mại: Các kênh xuất khẩu mạnh mẽ và sự ổn định tạo nên YOLOv5 Đây là lựa chọn hàng đầu cho các công ty triển khai trên hàng nghìn thiết bị, từ Raspberry Pi đến máy chủ đám mây.
AI biên (Edge AI): Các phiên bản nhẹ (Nano/Small) có tốc độ cực nhanh, hoàn hảo cho việc phân tích video thời gian thực trên điện thoại di động hoặc máy bay không người lái.
Tạo mẫu nhanh: Trải nghiệm "từ con số không đến thành công" cho phép các nhà phát triển kiểm chứng ý tưởng chỉ trong vài giờ thay vì vài ngày.

Tương lai: Ultralytics YOLO26

Trong khi YOLOv5 Mặc dù YOLOX vẫn là những công cụ mạnh mẽ, lĩnh vực này đã tiến bộ hơn. Đối với các nhà phát triển đang tìm kiếm hiệu năng tốt nhất tuyệt đối, Ultralytics YOLO26 đại diện cho thế hệ AI thị giác tiếp theo.

YOLO26 kết hợp những ưu điểm tốt nhất của cả hai thế giới:

Hệ thống quản lý NMS đầu cuối - Miễn phí: Giống như các mô hình nghiên cứu tiên tiến nhất, YOLO26 được tích hợp sẵn chức năng đầu cuối, loại bỏ nhu cầu về... NMS Xử lý hậu kỳ. Điều này giúp suy luận nhanh hơn và chính xác hơn, đơn giản hóa quy trình triển khai.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM, YOLO26 sử dụng bộ tối ưu hóa MuSGD để đạt được độ ổn định và tốc độ hội tụ cao hơn.
Tối ưu hóa cho điện toán biên: Được thiết kế đặc biệt cho điện toán biên, sản phẩm này cung cấp khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, trở thành lựa chọn vượt trội cho các ứng dụng di động và IoT.
Tính linh hoạt: Nó hỗ trợ tất cả các tác vụ—phát hiện, phân đoạn, phân loại, nhận diện tư thế và OBB—trong một khung phần mềm thống nhất duy nhất.

Tìm hiểu thêm về YOLO26

Kết luận

Lựa chọn giữa YOLOX và YOLOv5 Cuối cùng, điều đó phụ thuộc vào mục tiêu của bạn. Nếu bạn là một nhà nghiên cứu đang tìm cách thử nghiệm với các kiến trúc không cần neo (anchor-free architectures), YOLOX là một lựa chọn sáng giá. Tuy nhiên, đối với phần lớn các nhà phát triển và doanh nghiệp tập trung vào việc xây dựng các ứng dụng thời gian thực đáng tin cậy, YOLOv5 —và phiên bản kế nhiệm YOLO26 —cung cấp sự cân bằng vượt trội giữa tốc độ, độ chính xác và tính dễ sử dụng. Hệ sinh thái Ultralytics đảm bảo rằng các dự án của bạn được hỗ trợ bởi bảo trì tích cực, tài liệu đầy đủ và một cộng đồng năng động.

Để tìm hiểu thêm, bạn cũng có thể quan tâm đến việc so sánh YOLOv8 với YOLOv5 hoặc tìm hiểu về các khả năng xử lý thời gian thực của YOLOv10 .