Chuyển đến nội dung

So sánh kỹ thuật giữa YOLOX và YOLOv8

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa độ chính xác, tốc độ và yêu cầu triển khai. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOX, một mô hình không neo hiệu suất cao từ Megvii và Ultralytics YOLOv8, một mô hình hiện đại nổi tiếng với tính linh hoạt và hệ sinh thái mạnh mẽ. Chúng ta sẽ đi sâu vào sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho dự án thị giác máy tính của mình.

YOLOX: Công cụ phát hiện không mỏ neo hiệu suất cao

YOLOX được Megvii giới thiệu để đơn giản hóa kiến trúc YOLO đồng thời đạt được hiệu suất mạnh mẽ. Đây là một mô hình không neo nhằm mục đích thu hẹp khoảng cách giữa nghiên cứu học thuật và các ứng dụng công nghiệp.

Kiến trúc và các tính năng chính

Thiết kế của YOLOX đã giới thiệu một số đổi mới chính cho dòng YOLO:

  • Thiết Kế Không Dựa trên Anchor: Bằng cách loại bỏ các hộp neo (anchor box) được xác định trước, YOLOX đơn giản hóa quy trình phát hiện và giảm số lượng siêu tham số cần điều chỉnh, điều này có thể cải thiện khả năng tổng quát hóa trên các bộ dữ liệu khác nhau.
  • Head tách rời: Nó tách biệt các tác vụ phân loại và định vị thành hai head khác nhau. Lựa chọn kiến trúc này có thể dẫn đến sự hội tụ nhanh hơn và cải thiện độ chính xác so với các head được ghép nối được sử dụng trong một số mô hình YOLO trước đây.
  • Chiến Lược Huấn Luyện Nâng Cao: YOLOX kết hợp SimOTA (Gán Nhãn Tối Ưu Đơn Giản Hóa), một chiến lược gán nhãn động và các kỹ thuật tăng cường dữ liệu mạnh mẽ như MixUp để tăng hiệu suất.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Độ chính xác cao: YOLOX mang lại điểm mAP cạnh tranh, đặc biệt là với các biến thể mô hình lớn hơn của nó.
  • Sự đơn giản không mỏ neo (Anchor-Free): Phương pháp không mỏ neo giúp giảm độ phức tạp liên quan đến cấu hình và điều chỉnh hộp mỏ neo.
  • Mô Hình Đã Được Thiết Lập: Vì nó đã có mặt từ năm 2021, có một cộng đồng và một số tài nguyên của bên thứ ba có sẵn để triển khai.

Điểm yếu:

  • Tính linh hoạt hạn chế: YOLOX chủ yếu tập trung vào phát hiện đối tượng. Nó thiếu sự hỗ trợ tích hợp cho các tác vụ thị giác khác như phân đoạn thể hiện, ước tính tư thế hoặc phân loại, là những tính năng gốc của framework Ultralytics.
  • Hệ sinh thái và Hỗ trợ: Mặc dù là mã nguồn mở, nó không phải là một phần của hệ sinh thái tích hợp như Ultralytics. Điều này có thể có nghĩa là cần nhiều nỗ lực hơn cho việc triển khai, theo dõi thử nghiệm và tận dụng các công cụ như Ultralytics HUB.
  • Khoảng cách hiệu suất: Mặc dù nhanh, nhưng nó có thể bị vượt qua bởi các mô hình được tối ưu hóa cao gần đây hơn như YOLOv8, đặc biệt là trong các tình huống suy luận CPU, nơi các điểm chuẩn không có sẵn.

Các trường hợp sử dụng lý tưởng

YOLOX là một lựa chọn vững chắc cho các ứng dụng mà mục tiêu chính là phát hiện đối tượng có độ chính xác cao:

  • Các ứng dụng công nghiệp: Thích hợp cho các tác vụ như kiểm soát chất lượng tự động, nơi độ chính xác phát hiện là tối quan trọng.
  • Nghiên cứu: Đóng vai trò là một nền tảng tuyệt vời cho các nhà nghiên cứu khám phá các phương pháp phát hiện không mỏ neo.
  • Triển khai biên: Các biến thể nhỏ hơn như YOLOX-Nano được thiết kế cho các thiết bị bị hạn chế về tài nguyên.

Tìm hiểu thêm về YOLOX

Ultralytics YOLOv8: Tính linh hoạt và hiệu năng vượt trội

Ultralytics YOLOv8 là một mô hình hiện đại, tiên tiến, được xây dựng dựa trên thành công của các phiên bản YOLO trước đó. Nó được thiết kế để nhanh chóng, chính xác và cực kỳ dễ sử dụng, cung cấp một giải pháp toàn diện cho một loạt các tác vụ thị giác máy tính.

Kiến trúc và các tính năng chính

YOLOv8 giới thiệu những cải tiến kiến trúc đáng kể và trải nghiệm nhà phát triển vượt trội:

  • Không Dựa trên Anchor và Được Tối ưu hóa: Tương tự như YOLOX, YOLOv8 không dựa trên anchor nhưng có mạng xương sống (backbone network) mới và mô-đun C2f thay thế mô-đun C3 được tìm thấy trong YOLOv5, mang lại khả năng trích xuất đặc trưng và hiệu suất tốt hơn.
  • Hỗ trợ đa nhiệm: Một ưu điểm chính của YOLOv8 là tính linh hoạt của nó. Nó hỗ trợ nhiều tác vụ thị giác khác nhau ngay lập tức trong một khuôn khổ thống nhất duy nhất, bao gồm phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh, ước tính tư thếphát hiện hộp giới hạn theo hướng (OBB).
  • Hệ Sinh Thái Thân Thiện Với Người Dùng: YOLOv8 được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ, bao gồm tài liệu mở rộng, Python APICLI đơn giản, cùng với tích hợp liền mạch với các công cụ để labeling (gắn nhãn), training (huấn luyện) và deployment (triển khai) như RoboflowUltralytics HUB.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Cân bằng hiệu suất tuyệt vời: YOLOv8 đạt được sự cân bằng vượt trội giữa tốc độ và độ chính xác, phù hợp với nhiều ứng dụng thời gian thực.
  • Tính Linh hoạt Vượt trội: Khả năng xử lý nhiều tác vụ thị giác máy tính trong một framework duy nhất giúp đơn giản hóa quy trình phát triển và giảm nhu cầu sử dụng nhiều mô hình.
  • Dễ sử dụng: Ultralytics cung cấp trải nghiệm người dùng được tinh giản với API đơn giản, tài liệu toàn diện và nhiều hướng dẫn, giúp cả người mới bắt đầu và chuyên gia đều có thể tiếp cận.
  • Hệ sinh thái được duy trì tốt: Người dùng được hưởng lợi từ quá trình phát triển tích cực, cộng đồng mạnh mẽ, cập nhật thường xuyên và các công cụ tích hợp cho vòng đời MLOps hoàn chỉnh.
  • Hiệu quả về huấn luyện và bộ nhớ: YOLOv8 được thiết kế cho các quy trình huấn luyện hiệu quả với các weights (trọng số) đã được huấn luyện trước, có sẵn trên các tập dữ liệu như COCO. Nó cũng thể hiện khả năng sử dụng bộ nhớ hiệu quả trong quá trình huấn luyện và suy luận, đặc biệt là so với các kiến trúc phức tạp hơn.
  • Deployment Flexibility (Tính linh hoạt khi triển khai): Mô hình được tối ưu hóa cao để triển khai trên các phần cứng khác nhau, từ thiết bị biên (edge devices) đến các máy chủ đám mây, với khả năng dễ dàng xuất sang các định dạng như ONNXTensorRT.

Điểm yếu:

  • Là một mô hình linh hoạt và mạnh mẽ, các biến thể lớn nhất (như YOLOv8x) đòi hỏi tài nguyên tính toán đáng kể cho việc đào tạo và triển khai, một đặc điểm chung của các mô hình hiện đại.

Các trường hợp sử dụng lý tưởng

Sự kết hợp giữa hiệu suất, tính linh hoạt và dễ sử dụng của YOLOv8 khiến nó trở thành lựa chọn lý tưởng cho vô số ứng dụng:

  • Hệ thống thị giác thời gian thực: Hoàn hảo cho robotics, xe tự hànhhệ thống an ninh tiên tiến.
  • Giải pháp AI đa phương thức: Một mô hình duy nhất có thể cung cấp năng lượng cho các ứng dụng phức tạp đòi hỏi phát hiện, phân đoạn và ước tính tư thế đồng thời, trên các ngành như nông nghiệpchăm sóc sức khỏe.
  • Tạo mẫu và Sản xuất Nhanh chóng: Framework thân thiện với người dùng và hỗ trợ mở rộng cho phép các nhà phát triển chuyển từ ý tưởng sang sản xuất một cách nhanh chóng và hiệu quả.

Tìm hiểu thêm về YOLOv8

Hiệu năng và điểm chuẩn: YOLOX so với YOLOv8

Khi so sánh hiệu suất, rõ ràng là cả hai mô hình đều có khả năng cao. Tuy nhiên, YOLOv8 liên tục thể hiện lợi thế trong sự đánh đổi giữa tốc độ và độ chính xác. Bảng dưới đây cho thấy rằng đối với các kích thước mô hình tương đương, YOLOv8 đạt được điểm mAP cao hơn với ít tham số và FLOP hơn trong nhiều trường hợp. Hơn nữa, YOLOv8 cung cấp các điểm chuẩn rõ ràng cho suy luận CPU, một lĩnh vực mà dữ liệu YOLOX còn thiếu, làm nổi bật khả năng tối ưu hóa của nó cho một loạt phần cứng rộng hơn.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv8n 640 37.3 80.4 1.47 3.2 8.7
YOLOv8s 640 44.9 128.4 2.66 11.2 28.6
YOLOv8m 640 50.2 234.7 5.86 25.9 78.9
YOLOv8l 640 52.9 375.2 9.06 43.7 165.2
YOLOv8x 640 53.9 479.1 14.37 68.2 257.8

Kết luận: Bạn nên chọn mô hình nào?

Cả YOLOX và YOLOv8 đều là những mô hình phát hiện đối tượng mạnh mẽ, nhưng chúng phục vụ các nhu cầu và ưu tiên khác nhau.

YOLOX là một trình phát hiện không neo mạnh mẽ và đã được thiết lập, cung cấp độ chính xác cao. Đây là một lựa chọn khả thi cho các dự án chỉ tập trung vào phát hiện đối tượng, đặc biệt là trong bối cảnh nghiên cứu hoặc cho các nhóm có nguồn lực để xây dựng các quy trình MLOps của riêng họ.

Tuy nhiên, đối với phần lớn các nhà phát triển và nhà nghiên cứu ngày nay, Ultralytics YOLOv8 mang đến một lựa chọn hấp dẫn và ưu việt hơn. Sự cân bằng vượt trội giữa tốc độ và độ chính xác, kết hợp với tính linh hoạt tuyệt vời để xử lý nhiều tác vụ thị giác, làm cho nó trở thành một công cụ mạnh mẽ và linh hoạt hơn. Sự khác biệt thực sự là hệ sinh thái Ultralytics — tính dễ sử dụng, tài liệu phong phú, hỗ trợ cộng đồng tích cực và các công cụ tích hợp như Ultralytics HUB giúp giảm đáng kể rào cản gia nhập và tăng tốc chu kỳ phát triển.

Đối với những ai đang tìm kiếm một khuôn khổ hiện đại, hiệu suất cao và thân thiện với người dùng, hỗ trợ nhiều ứng dụng từ nghiên cứu đến sản xuất, Ultralytics YOLOv8 là lựa chọn rõ ràng.

So sánh các mô hình khác

Nếu bạn quan tâm đến việc so sánh hiệu quả của các mô hình này so với các mô hình khác trong lĩnh vực, hãy xem các trang so sánh khác sau:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận