Chuyển đến nội dung

YOLOX so với... YOLOv5 So sánh chi tiết về kiến ​​trúc và hiệu năng

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng quyết định sự thành công của bất kỳ dự án thị giác máy tính nào. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình then chốt trong lĩnh vực trí tuệ nhân tạo: YOLOX của Megvii và YOLOv5 Ultralytics . Bằng cách phân tích kiến ​​trúc, các chỉ số hiệu suất và hệ sinh thái huấn luyện của chúng, chúng tôi mong muốn giúp các nhà phát triển và nhà nghiên cứu đưa ra lựa chọn sáng suốt cho môi trường triển khai cụ thể của họ.

Giới thiệu về các mô hình

Cả hai mô hình đều xuất hiện trong thời kỳ phát triển nhanh chóng của công nghệ phát hiện đối tượng theo thời gian thực, tuy nhiên chúng lại áp dụng những triết lý kiến ​​trúc khác nhau để đạt được hiệu suất mong muốn.

YOLOX: Phương pháp tiếp cận không neo

Được các nhà nghiên cứu Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun công bố trên Megvii vào ngày 18 tháng 7 năm 2021, YOLOX đã tạo ra một bước chuyển biến đáng kể bằng cách loại bỏ các hộp neo truyền thống. Được ghi lại trong báo cáo kỹ thuật trên Arxiv của họ, YOLOX đã tích hợp thiết kế không có neo với đầu tách rời và chiến lược gán nhãn SimOTA. Thiết kế này nhằm mục đích thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, mang lại hiệu suất mạnh mẽ trên các tập dữ liệu tiêu chuẩn.

Tìm hiểu thêm về YOLOX

YOLOv5 Tiêu chuẩn cho AI thị giác sản xuất

Được viết bởi Glenn Jocher và phát hành bởi Ultralytics Vào ngày 26 tháng 6 năm 2020, YOLOv5 Nó nhanh chóng trở thành tiêu chuẩn ngành cho việc triển khai thị giác máy tính. Được xây dựng trên nền tảng PyTorch , nó đã dân chủ hóa trí tuệ nhân tạo tiên tiến bằng cách cung cấp sự dễ sử dụng chưa từng có, tốc độ huấn luyện cực nhanh và một kho lưu trữ được hoàn thiện cao. YOLOv5 Kiến trúc của nó tập trung vào sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai, khiến nó trở thành lựa chọn ưa thích cho mọi thứ, từ các thiết bị biên đến các triển khai đám mây quy mô lớn.

Tìm hiểu thêm về YOLOv5

Sự khác biệt về kiến trúc

Hiểu được những khác biệt cơ học cốt lõi giữa các mạng lưới này sẽ làm sáng tỏ lý do tại sao chúng hoạt động khác nhau trong các nhiệm vụ khác nhau.

Không neo so với Dựa trên neo

Điểm khác biệt rõ rệt nhất là cơ chế không cần neo của YOLOX. Các mẫu truyền thống như YOLOv5 Phương pháp dựa vào các hộp neo được xác định trước để dự đoán các hộp giới hạn, điều này đòi hỏi phân tích phân cụm trên tập dữ liệu huấn luyện để xác định kích thước neo tối ưu. YOLOX loại bỏ điều này bằng cách dự đoán trực tiếp tọa độ hộp giới hạn tại mỗi vị trí không gian. Mặc dù phương pháp không sử dụng neo giúp giảm số lượng tham số thiết kế và điều chỉnh theo kinh nghiệm, YOLOv5 Phương pháp dựa trên neo được tinh chỉnh của phần mềm, được hỗ trợ bởi chức năng tự động neo, đảm bảo sự hội tụ huấn luyện cực kỳ ổn định và dễ dự đoán ngay từ khi cài đặt.

Đầu tách rời so với đầu nối

YOLOX sử dụng một đầu mạng tách rời, nghĩa là các nhiệm vụ phân loại và hồi quy được tách thành các nhánh mạng thần kinh riêng biệt. Các tác giả cho rằng điều này giải quyết được xung đột giữa việc học đặc trưng không gian và ngữ nghĩa. Ngược lại, YOLOv5 Nó sử dụng một đầu ghép nối được tối ưu hóa cao (trong các phiên bản trước đó) nhằm tối đa hóa hiệu quả tính toán và giảm độ trễ suy luận, điều này rất quan trọng đối với điện toán biên thời gian thực.

Sự tiến hóa kiến trúc

Trong khi YOLOX tiên phong trong thiết kế đầu tách rời vào năm 2021, Ultralytics Sau đó, họ đã áp dụng và hoàn thiện các kiến ​​trúc tách rời trong các mẫu máy kế tiếp như YOLOv8YOLO26 tiên tiến, kết hợp những ưu điểm tốt nhất của cả hai thế giới.

Chiến lược gán nhãn

YOLOX sử dụng SimOTA để gán nhãn, phương pháp này mô tả việc ghép nối các đối tượng thực tế với các dự đoán như một bài toán Vận chuyển Tối ưu. Việc gán nhãn động này giúp cải thiện khả năng xử lý các cảnh đông đúc. YOLOv5 Nó sử dụng phương pháp gán dựa trên quy tắc hình dạng mạnh mẽ, đảm bảo các mẫu tích cực chất lượng cao luôn được đưa vào hàm mất mát, góp phần tạo nên sự ổn định huấn luyện nổi tiếng của nó.

Hiệu năng và điểm chuẩn

Sự đánh đổi giữa tốc độ và độ chính xác là phép thử cuối cùng đối với các kiến ​​trúc này. Bảng dưới đây minh họa hiệu năng của các kích thước mô hình khác nhau trên các bộ dữ liệu chuẩn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Trong khi YOLOX đạt được sự cạnh tranh mAP điểm số, đặc biệt là ở các biến thể lớn hơn của nó, YOLOv5 duy trì một lợi thế đáng kể trong TensorRT Tốc độ suy luận trên diện rộng. Ví dụ, mô hình YOLOv5s cung cấp tỷ lệ tốc độ trên độ chính xác vượt trội, khiến nó trở nên rất phù hợp cho các ứng dụng thời gian thực, nơi mỗi mili giây đều quan trọng.

Cái Ultralytics Ưu điểm: Đào tạo và khả năng sử dụng

Khi chuyển đổi từ nghiên cứu sang sản xuất, hệ sinh thái xung quanh một mô hình thường quan trọng không kém gì chính mô hình đó. Ở đây, những lợi thế của... Ultralytics Hệ sinh thái trở nên rõ ràng đến mức đáng kinh ngạc.

Trải nghiệm người dùng được tối ưu hóa

YOLOv5 được đánh giá cao trên toàn cầu nhờ trải nghiệm phát triển "từ con số không đến chuyên gia". API Python của Ultralytics và CLI Cho phép bạn tải, huấn luyện và triển khai mô hình chỉ với vài dòng mã. Ngược lại, việc chạy YOLOX từ kho lưu trữ GitHub của Megvii yêu cầu cấu hình thủ công nhiều hơn các biến môi trường, phức tạp hơn. Python các thiết lập đường dẫn và đường cong học tập dốc hơn, điển hình của các cơ sở mã nghiên cứu học thuật.

Hiệu quả đào tạo và yêu cầu về bộ nhớ

Ultralytics Các mô hình được thiết kế tỉ mỉ để giảm thiểu mức sử dụng bộ nhớ trong quá trình huấn luyện. YOLOv5 yêu cầu ít hơn đáng kể CUDA So với các mô hình transformer có nhiều tham số như RT-DETR hoặc các mô hình nghiên cứu chưa được tối ưu hóa, bộ nhớ của chúng tôi được tiết kiệm hơn. Điều này cho phép các nhà phát triển huấn luyện với kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng, giúp tăng tốc chu kỳ phát triển lặp đi lặp lại.

Tính linh hoạt trên nhiều tác vụ

Mặc dù YOLOX về bản chất là một framework phát hiện đối tượng, nhưng Ultralytics hệ sinh thái đã tiến hóa YOLOv5 Hỗ trợ nhiều tác vụ xử lý hình ảnh. Ngay từ đầu, bạn có thể thực hiện Phân loại hình ảnh , Phân đoạn đối tượng và phát hiện đối tượng bằng cùng một cú pháp API.

Đổi mới liên tục

Nếu bạn cần thực hiện các tác vụ nâng cao hơn nữa như ước tính tư thế hoặc phát hiện hộp giới hạn định hướng (OBB) , chúng tôi đặc biệt khuyên bạn nên nâng cấp lên kiến ​​trúc Ultralytics YOLO26 mới nhất, hỗ trợ tất cả các chức năng này một cách tự nhiên với độ chính xác hàng đầu.

So sánh mã

Sự khác biệt về khả năng sử dụng được thể hiện rõ nhất thông qua mã lập trình.

Đào tạo với YOLOv5 :

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

Hướng dẫn sử dụng YOLOX: (Yêu cầu sao chép kho lưu trữ thủ công, cài đặt setup.py và các tham số CLI phức tạp)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Cái Ultralytics Cách tiếp cận này loại bỏ những trở ngại, cho phép bạn tập trung vào tập dữ liệu và logic ứng dụng thay vì gỡ lỗi các tệp cấu hình. Hơn nữa, việc theo dõi các thử nghiệm của bạn diễn ra liền mạch nhờ các tích hợp sẵn có cho Weights & BiasesComet ML .

Các trường hợp sử dụng lý tưởng và ứng dụng thực tế

Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường hoạt động của dự án của bạn.

Những điểm mạnh của YOLOX

YOLOX vẫn là một ứng cử viên sáng giá trong môi trường học thuật, nơi các nhà nghiên cứu đang nghiên cứu cụ thể các mô hình không cần neo hoặc các chiến lược gán nhãn. Nó cũng hữu ích trong các trường hợp mà việc phát hiện cảnh đông đúc là tiêu chí quan trọng hàng đầu và tốc độ triển khai ở biên là thứ yếu.

YOLOv5 Vượt Trội Ở Đâu

YOLOv5 là nhà vô địch không thể tranh cãi về khả năng triển khai thực tiễn.

  • Sản xuất tốc độ cao: Để phát hiện lỗi trên dây chuyền lắp ráp, YOLOv5 Độ trễ suy luận tối thiểu trên GPU biên đảm bảo sản phẩm được kiểm tra mà không làm chậm băng chuyền.
  • Máy bay không người lái và hình ảnh trên không: Khả năng xử lý bộ nhớ hiệu quả cho phép nó hoạt động trên các máy tính phụ trợ nhẹ trên máy bay không người lái cho các tác vụ như giám sát nông nghiệp và theo dõi động vật hoang dã.
  • Bán lẻ thông minh: Từ thanh toán tự động đến quản lý hàng tồn kho, YOLOv5 Dễ dàng xuất dữ liệu sang TensorRTONNX để triển khai hàng loạt trên hàng nghìn camera cửa hàng.

Hướng tới tương lai: Lợi thế của YOLO26

Trong khi YOLOv5 Là một mô hình huyền thoại, lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Nếu bạn đang bắt đầu một dự án mới ngày nay, chúng tôi đặc biệt khuyên bạn nên xem xét thế hệ mới nhất của... Ultralytics mô hình.

Ra mắt vào năm 2026, Ultralytics YOLO26 đánh dấu một bước tiến vượt bậc. Nó sở hữu thiết kế không cần NMS từ đầu đến cuối , loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ bằng phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression), giúp đơn giản hóa đáng kể logic triển khai. Bằng cách loại bỏ hiện tượng mất mát tiêu điểm phân tán (Distribution Focal Loss - DFL) và sử dụng thuật toán tối ưu hóa MuSGD tiên tiến, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước trong khi vẫn duy trì độ chính xác cao hơn, đặc biệt là trên các đối tượng nhỏ nhờ các hàm mất mát ProgLoss + STAL mới.

Cho dù bạn chọn sự đáng tin cậy đã được kiểm chứng qua thực chiến của YOLOv5 Cho dù đó là hiệu năng tiên tiến nhất của YOLO26, Nền tảng Ultralytics đảm bảo bạn có những công cụ tốt nhất hiện có để đưa các giải pháp thị giác máy tính của mình từ ý tưởng đến sản xuất một cách liền mạch. Hãy khám phá tài liệu Ultralytics toàn diện để khai thác tối đa tiềm năng của quy trình AI của bạn.


Bình luận