Chuyển đến nội dung

YOLOX so với YOLOv10 : So sánh kỹ thuật

Lĩnh vực phát hiện đối tượng đã chứng kiến sự phát triển nhanh chóng, được thúc đẩy bởi nhu cầu về các mô hình cân bằng giữa độ chính xác cao và tốc độ suy luận thời gian thực. YOLOXYOLOv10 đại diện cho hai cột mốc quan trọng trong dòng thời gian này. YOLOX, được phát hành vào năm 2021, đã làm mới YOLO gia đình bằng cách giới thiệu một kiến trúc không có mỏ neo, trong khi YOLOv10 , được phát hành vào năm 2024, đặt ra một tiêu chuẩn mới bằng cách loại bỏ nhu cầu về việc ngăn chặn không tối đa ( NMS ), làm giảm đáng kể độ trễ suy luận .

Phân tích toàn diện này khám phá những đổi mới về kiến trúc, số liệu hiệu suất và trường hợp sử dụng lý tưởng cho cả hai mô hình, giúp các nhà phát triển và nhà nghiên cứu lựa chọn công cụ tốt nhất cho các ứng dụng thị giác máy tính của họ.

YOLOX: Người tiên phong không cần neo

YOLOX được Megvii giới thiệu vào năm 2021, đánh dấu sự thay đổi so với các thiết kế dựa trên mỏ neo đã thống trị trước đó YOLO phiên bản. Bằng cách áp dụng cơ chế không neo và tích hợp các kỹ thuật tiên tiến như đầu tách rời và SimOTA, YOLOX đã đạt được hiệu suất cạnh tranh và thu hẹp khoảng cách giữa khuôn khổ nghiên cứu và ứng dụng công nghiệp.

Chi tiết kỹ thuật:
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18-07-2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Tài liệu: https://yolox.readthedocs.io/en/latest/

Kiến trúc và các tính năng chính

YOLOX khác biệt so với các phiên bản trước như YOLOv4YOLOv5 bằng cách triển khai một số thay đổi quan trọng về kiến trúc được thiết kế để cải thiện khả năng khái quát hóa và đơn giản hóa quy trình đào tạo.

  • Cơ chế không neo: Bằng cách loại bỏ các hộp neo được xác định trước, YOLOX loại bỏ nhu cầu điều chỉnh neo thủ công, giúp mô hình mạnh mẽ hơn với nhiều hình dạng vật thể khác nhau và giảm số lượng tham số thiết kế.
  • Đầu tách rời: Không giống như các đầu ghép nối chia sẻ các đặc điểm để phân loại và định vị, YOLOX sử dụng đầu tách rời . Sự tách biệt này cho phép mỗi tác vụ tối ưu hóa các tham số của nó một cách độc lập, dẫn đến hội tụ nhanh hơn và độ chính xác tổng thể tốt hơn.
  • Gán nhãn SimOTA: YOLOX giới thiệu SimOTA (Gán vận chuyển tối ưu giản hóa), một chiến lược gán nhãn động xử lý bài toán gán nhãn như một tác vụ vận chuyển tối ưu. Phương pháp này thích ứng hiệu quả với các quy mô đối tượng khác nhau và cải thiện tính ổn định khi huấn luyện.
  • Tăng cường mạnh mẽ: Đường ống đào tạo kết hợp MixUp và tăng cường dữ liệu Mosaic, đóng vai trò quan trọng để đạt được kết quả tiên tiến nhất tại thời điểm phát hành.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Độ chính xác cao: YOLOX mang lại hiệu suất mạnh mẽ mAP điểm số trên tập dữ liệu COCO , đặc biệt là với các biến thể lớn hơn như YOLOX-x.
  • Thiết kế đơn giản: Phương pháp không có mỏ neo làm giảm các siêu tham số theo kinh nghiệm, đơn giản hóa cấu hình mô hình.
  • Hỗ trợ Legacy: Là một mô hình đã được thiết lập, nó đã được thử nghiệm rộng rãi trong nhiều bối cảnh học thuật và công nghiệp khác nhau.

Điểm yếu:

  • Độ trễ cao hơn: So với các máy dò hiện đại, YOLOX dựa vào NMS hậu xử lý, có thể là nút thắt đối với các ứng dụng có độ trễ cực thấp.
  • Chi phí tính toán: Thông thường, cần nhiều FLOP và tham số hơn so với các mô hình mới hơn để đạt được độ chính xác tương tự.
  • Tích hợp: Mặc dù là mã nguồn mở, nhưng nó thiếu sự tích hợp liền mạch được tìm thấy trong Ultralytics hệ sinh thái, có khả năng đòi hỏi nhiều nỗ lực hơn cho các đường ống triển khai.

Tìm hiểu thêm về YOLOX

YOLOv10 : Phát hiện đầu cuối theo thời gian thực

Được phát hành vào tháng 5 năm 2024 bởi các nhà nghiên cứu từ Đại học Thanh Hoa, YOLOv10 đại diện cho một sự thay đổi mô hình trong phát hiện đối tượng thời gian thực. Bằng cách loại bỏ nhu cầu về việc loại bỏ Không tối đa ( NMS ) và tối ưu hóa các thành phần mô hình để đạt hiệu quả, YOLOv10 đạt được tốc độ và độ chính xác vượt trội với chi phí tính toán thấp hơn đáng kể.

Chi tiết kỹ thuật:
Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23-05-2024
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Tài liệu: https://docs. ultralytics .com/models/yolov10/

Kiến trúc và Đổi mới

YOLOv10 tập trung vào thiết kế mô hình toàn diện hướng đến hiệu quả-độ chính xác, giải quyết cả kiến trúc và quy trình xử lý hậu kỳ.

  • NMS - Đào tạo Miễn phí: Tính năng đột phá nhất là việc sử dụng các phép gán kép nhất quán . Chiến lược này cho phép mô hình được đào tạo với các tín hiệu giám sát phong phú, đồng thời cho phép so khớp một-một trong quá trình suy luận. Điều này loại bỏ nhu cầu NMS , một nút thắt về độ trễ phổ biến trong quá trình triển khai .
  • Thiết kế mô hình toàn diện: YOLOv10 sử dụng đầu phân loại nhẹ, kỹ thuật hạ mẫu tách rời kênh không gian và thiết kế khối hướng dẫn theo thứ hạng. Những tối ưu hóa này giúp giảm thiểu sự dư thừa tính toán và sử dụng bộ nhớ mà không làm giảm hiệu suất.
  • Tích chập hạt nhân lớn: Kiến trúc này sử dụng tích chập theo chiều sâu của hạt nhân lớn một cách có chọn lọc để mở rộng trường tiếp nhận , tăng cường khả năng phát hiện các đối tượng nhỏ.

Điểm mạnh và lợi ích

Điểm mạnh:

  • Hiệu quả hiện đại: YOLOv10 cung cấp sự cân bằng vô song giữa tốc độ và độ chính xác. NMS -Thiết kế miễn phí giúp giảm đáng kể độ trễ đầu cuối.
  • Hiệu quả tham số: Đạt độ chính xác cao hơn với ít tham số hơn so với các thế hệ trước, khiến nó trở nên lý tưởng cho các thiết bị AI Edge như Raspberry Pi .
  • Tích hợp Ultralytics : Trở thành một phần của Ultralytics Hệ sinh thái đảm bảo dễ sử dụng, được ghi chép đầy đủ và hỗ trợ nhiều định dạng xuất khác nhau như ONNXTensorRT .

Tìm hiểu thêm về YOLOv10

Phân tích hiệu suất

Bảng sau đây so sánh hiệu suất của YOLOX và YOLOv10 trên tập dữ liệu chuẩn COCO . Các số liệu cho thấy những cải thiện đáng kể về hiệu quả của mô hình mới hơn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Phân tích: Dữ liệu chứng minh rõ ràng YOLOv10 Ưu thế về hiệu quả. Ví dụ, YOLOv10 -s đạt được hiệu suất cao hơn đáng kể mAP 46,7% so với YOLOX-s (40,5%), trong khi sử dụng ít tham số hơn (7,2M so với 9,0M). Đáng chú ý, YOLOv10 -x vượt trội hơn YOLOX-x về độ chính xác (54,4% so với 51,1%) trong khi nhanh hơn đáng kể (12,2ms so với 16,1ms) và chỉ yêu cầu gần một nửa số tham số (56,9M so với 99,1M). Hiệu quả này làm cho YOLOv10 một lựa chọn tốt hơn nhiều cho các hệ thống thời gian thực .

Hiểu biết sâu sắc về hiệu quả

YOLOv10 việc loại bỏ của NMS hậu xử lý có nghĩa là thời gian suy luận ổn định hơn và có thể dự đoán được, một yếu tố quan trọng đối với các ứng dụng quan trọng về an toàn như xe tự hành và robot công nghiệp.

Phương pháp luận đào tạo và Hệ sinh thái

Trong khi YOLOX giới thiệu các kỹ thuật tăng cường tiên tiến hiện đã trở thành tiêu chuẩn, YOLOv10 lợi ích từ sự trưởng thành và thân thiện với người dùng Ultralytics đường ống đào tạo.

  • Dễ sử dụng: Ultralytics các mô hình nổi tiếng với API Python hợp lý của chúng. Đào tạo một YOLOv10 mô hình chỉ cần một vài dòng mã, trong khi sử dụng YOLOX thường liên quan đến các tệp cấu hình phức tạp hơn và quản lý phụ thuộc.
  • Hệ sinh thái được duy trì tốt: YOLOv10 được tích hợp hoàn toàn vào Ultralytics khung. Điều này cấp cho người dùng quyền truy cập vào các tính năng như điều chỉnh siêu tham số tự động, quản lý tập dữ liệu liền mạch thông qua Ultralytics Explorer và nhiều tùy chọn triển khai khác nhau.
  • Hiệu quả bộ nhớ: Ultralytics tối ưu hóa đảm bảo rằng các mô hình như YOLOv10 tiêu thụ ít hơn CUDA bộ nhớ trong quá trình đào tạo so với các kiến trúc cũ hơn hoặc các mô hình máy biến áp nặng, cho phép kích thước lô lớn hơn trên GPU của người tiêu dùng.

Ví dụ mã: Sử dụng YOLOv10

Ví dụ sau đây minh họa cách các nhà phát triển có thể dễ dàng tải một chương trình được đào tạo trước YOLOv10 mô hình hóa và chạy suy luận trên một hình ảnh bằng cách sử dụng Ultralytics thư viện.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Các trường hợp sử dụng lý tưởng

Cả hai mô hình đều có chỗ đứng của chúng, nhưng YOLOv10 Kiến trúc hiện đại của nó phù hợp với nhiều ứng dụng đương đại hơn.

  • Trí tuệ nhân tạo và IoT biên: YOLOv10 Số lượng tham số thấp và tốc độ cao khiến nó trở nên hoàn hảo để triển khai trên các thiết bị có khả năng tính toán hạn chế, chẳng hạn như NVIDIA Jetson hoặc camera thông minh.
  • Sản xuất tốc độ cao: Trong quá trình kiểm tra công nghiệp , nơi băng tải di chuyển nhanh chóng, NMS -suy luận tự do của YOLOv10 đảm bảo rằng việc phát hiện đối tượng theo kịp dây chuyền sản xuất mà không gặp phải tình trạng tắc nghẽn.
  • Giám sát và An ninh: Để phân tích nhiều luồng video cùng lúc, hiệu quả tính toán của YOLOv10 cho phép mật độ luồng cao hơn trên mỗi máy chủ so với YOLOX.
  • Cơ sở nghiên cứu: YOLOX vẫn là cơ sở có giá trị đối với các nhà nghiên cứu đang nghiên cứu quá trình phát triển của các máy dò không neo và các phương pháp phân công vận chuyển tối ưu.

Kết luận

Trong khi YOLOX đóng vai trò quan trọng trong việc phổ biến công nghệ phát hiện không có neo, YOLOv10 nổi bật là lựa chọn vượt trội cho phát triển hiện đại. NMS -kiến trúc tự do, kết hợp với toàn diện Ultralytics hệ sinh thái, cung cấp giải pháp mạnh mẽ, nhanh hơn và chính xác hơn.

Dành cho các nhà phát triển đang tìm kiếm sự cân bằng hiệu suất tốt nhất, dễ sử dụng và hỗ trợ lâu dài, YOLOv10 rất được khuyến khích. Ngoài ra, đối với những người cần tính linh hoạt cao hơn trong các tác vụ như ước tính tư thế hoặc phân đoạn thực thể , mô hình YOLO11 mạnh mẽ là một lựa chọn thay thế tuyệt vời trong cùng một khuôn khổ thân thiện với người dùng.

Bằng cách lựa chọn Ultralytics mô hình, bạn đảm bảo các dự án của mình được xây dựng trên nền tảng nghiên cứu tiên tiến, hỗ trợ cộng đồng tích cực và độ tin cậy sẵn sàng sản xuất.


Bình luận