Chuyển đến nội dung

YOLOv10 so với YOLOX: Sự tiến hóa của công nghệ Anchor-Free và NMS - Phát hiện đối tượng miễn phí

Lĩnh vực thị giác máy tính được thúc đẩy bởi những tiến bộ nhanh chóng trong kiến ​​trúc phát hiện đối tượng thời gian thực. Bài so sánh kỹ thuật chi tiết này khám phá hai mô hình có ảnh hưởng lớn, đã đẩy mạnh giới hạn về hiệu quả và các mô hình thiết kế: YOLOv10YOLOX . Bằng cách xem xét sự khác biệt về kiến ​​trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng, các nhà phát triển và nhà nghiên cứu có thể đưa ra quyết định sáng suốt để triển khai các hệ thống thị giác mạnh mẽ.

Thông tin về nguồn gốc và xuất thân của người mẫu

Việc hiểu rõ nguồn gốc của các mô hình học sâu này cung cấp bối cảnh có giá trị liên quan đến mục tiêu kiến ​​trúc và các trường hợp sử dụng cụ thể của chúng.

YOLOv10 Loại bỏ NMS Để phát hiện từ đầu đến cuối thực sự

Được phát triển để giải quyết các vấn đề tắc nghẽn độ trễ tồn tại lâu nay, YOLOv10 đã giới thiệu một phương pháp tiếp cận toàn diện, nguyên bản cho YOLO gia đình.

Tìm hiểu thêm về YOLOv10

YOLOX: Thu hẹp khoảng cách giữa nghiên cứu và công nghiệp

YOLOX xuất hiện như một phiên bản không cần neo của mô hình truyền thống. YOLO Thiết kế này mang đến phương pháp đơn giản hơn với hiệu suất cạnh tranh, đặc biệt nhằm mục đích tạo điều kiện thuận lợi cho việc triển khai trong các cộng đồng công nghiệp.

Tìm hiểu thêm về YOLOX

Những điểm nổi bật và đổi mới về kiến ​​trúc

Cả hai framework đều khác biệt so với các bộ phát hiện dựa trên điểm neo truyền thống, nhưng chúng giải quyết các vấn đề khác nhau trong quy trình phát hiện đối tượng.

Kiến trúc YOLOX

Năm 2021, YOLOX đã mang đến một số cập nhật quan trọng cho hệ sinh thái. Đóng góp chính của nó là chuyển sang thiết kế bộ dò không cần neo . Bằng cách loại bỏ các hộp neo được xác định trước, YOLOX đã giảm đáng kể số lượng tham số thiết kế và điều chỉnh theo kinh nghiệm cần thiết cho các tập dữ liệu khác nhau.

Hơn nữa, YOLOX sử dụng một đầu xử lý tách rời , phân biệt nhiệm vụ phân loại và hồi quy. Điều này giải quyết được xung đột giữa hai mục tiêu, giúp tăng tốc đáng kể quá trình hội tụ trong quá trình huấn luyện. Nó cũng sử dụng SimOTA để gán nhãn nâng cao, cải thiện khả năng xử lý các cảnh đông đúc và hiện tượng che khuất thường gặp trong tập dữ liệu COCO .

Lợi thế không cần neo

Các thiết kế không sử dụng neo, như thiết kế tiên phong của YOLOX, giúp giảm đáng kể độ phức tạp của việc tinh chỉnh mô hình. Các nhà phát triển không còn cần phải thực hiện phân cụm k-means trên các tập dữ liệu tùy chỉnh để xác định kích thước hộp neo tối ưu, tiết kiệm được thời gian chuẩn bị quý báu.

Kiến trúc YOLOv10

Mặc dù YOLOX đã cải tiến đầu dò, nhưng nó vẫn dựa vào phương pháp loại bỏ cực đại không tối đa (Non-Maximum Suppression) NMS ) trong quá trình suy luận, gây ra sự biến đổi về độ trễ. YOLOv10 đã nhắm mục tiêu cụ thể vào lỗi này bằng cách giới thiệu chiến lược gán kép nhất quán cho NMS - huấn luyện miễn phí. Trong quá trình huấn luyện, nó sử dụng cả gán nhãn một-nhiều và một-một, nhưng trong quá trình suy luận, nó loại bỏ hoàn toàn đầu nối một-nhiều, đưa ra các dự đoán sạch mà không cần. NMS xử lý hậu kỳ.

YOLOv10 Ngoài ra, mô hình này còn có thiết kế hướng đến hiệu quả và độ chính xác toàn diện. Nó tích hợp các đầu phân loại nhẹ và lấy mẫu giảm không gian-kênh, giúp giảm đáng kể số lượng tham số và FLOPs mà không làm giảm độ chính xác.

So sánh hiệu suất

Đánh giá các mô hình này trên phần cứng như... NVIDIA T4 GPU Mỗi phương pháp đều cho thấy những ưu điểm riêng biệt tùy thuộc vào quy mô. Bảng so sánh toàn diện được trình bày bên dưới.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Như đã thấy ở trên, YOLOv10 Khả năng mở rộng cực kỳ tốt. YOLOv10x biến thể đạt độ chính xác cao nhất (54,4 mAP), trong khi YOLOv10n biến thể này cung cấp khả năng suy luận nhanh nhất bằng cách sử dụng TensorRT tích hợp. Ngược lại, mẫu YOLOX nano truyền thống có kích thước tổng thể nhỏ nhất, phù hợp với những môi trường bị hạn chế không gian nghiêm ngặt.

Phương pháp đào tạo và yêu cầu về nguồn lực

Khi triển khai các mô hình để đưa vào sản xuất, hệ sinh thái huấn luyện và nhu cầu tài nguyên cũng quan trọng không kém tốc độ suy luận thô.

YOLOX thường dựa vào các cấu hình môi trường cũ, gây khó khăn trong việc quản lý. Hơn nữa, mã nguồn cũ của nó đòi hỏi nhiều mã mẫu hơn để đạt được nhiều chức năng. GPU Huấn luyện phân tán hoặc tối ưu hóa độ chính xác hỗn hợp.

Ngược lại, YOLOv10 tích hợp mượt mà với các hệ thống hiện đại PyTorch các quy trình làm việc, nhưng chính hệ sinh thái Ultralytics mới thực sự biến đổi trải nghiệm của nhà phát triển. Ultralytics các mô hình được đặc trưng bởi mức thấp hơn đáng kể CUDA Mức sử dụng bộ nhớ trong quá trình huấn luyện so với các kiến ​​trúc dựa trên Transformer như RT-DETR .

Ví dụ mã: Đào tạo được tối ưu hóa

Sử dụng phương pháp thống nhất Ultralytics Với API này, bạn có thể dễ dàng huấn luyện các mô hình hiện đại chỉ với vài dòng mã. Python Điều này giúp tránh việc biên dịch thủ công các toán tử C++ hoặc các tệp cấu hình phức tạp.

from ultralytics import YOLO

# Initialize a pre-trained YOLOv10 model
model = YOLO("yolov10s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to ONNX format
model.export(format="onnx")

Cú pháp đơn giản này cung cấp khả năng truy cập tức thì vào độ chính xác hỗn hợp tự động , tăng cường dữ liệu tự động và tích hợp với các công cụ như Weights & Biases ngay từ đầu.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv10 Việc lựa chọn YOLOX phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

  • NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.

Khi nào nên chọn YOLOX

YOLOX được khuyên dùng cho:

  • Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến ​​trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
  • Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
  • Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Tương lai của Trí tuệ Nhân tạo Thị giác: Hãy cùng chào đón YOLO26

Trong khi YOLOv10 và YOLOX đại diện cho những cột mốc quan trọng, lĩnh vực thị giác máy tính đang không ngừng tiến bộ. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics YOLO26 là sự lựa chọn tối ưu.

Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 được xây dựng dựa trên bước đột phá nền tảng của thiết kế hoàn toàn không cần NMS do tiên phong bởi YOLOv10 , tinh chỉnh nó để đạt được độ ổn định và tốc độ cao hơn nữa.

YOLO26 nổi bật nhờ mang đến một số bước tiến vượt bậc:

  • Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ một cách chiến lược hiện tượng mất mát tiêu điểm phân tán (DFL), YOLO26 đạt được hiệu suất vượt trội hơn hẳn trên các thiết bị biên không có GPU.
  • MuSGD Optimizer: Lấy cảm hứng từ tính ổn định của quá trình huấn luyện LLM, thuật toán lai mới này... SGD và Muon đảm bảo sự hội tụ nhanh hơn và các lần chạy huấn luyện có độ ổn định cao.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, một yếu tố quan trọng đối với ảnh chụp từ trên không và cảm biến IoT.
  • Tính linh hoạt vượt trội: Không giống như YOLOX, chỉ là một công cụ phát hiện đối tượng, YOLO26 hỗ trợ đầy đủ các chức năng Phân đoạn đối tượng , Ước tính tư thế , Phân loại hình ảnhPhát hiện OBB trong một thư viện duy nhất.

Tìm hiểu thêm về YOLO26

Tận dụng Ultralytics Nền tảng

Để đơn giản hóa quá trình triển khai, các nhà phát triển có thể sử dụng Nền tảng Ultralytics để chú thích tập dữ liệu, huấn luyện mô hình YOLO26 trên đám mây và triển khai đến bất kỳ thiết bị biên nào mà không cần thiết lập gì.

Các ứng dụng thực tế

Việc lựa chọn mô hình phù hợp quyết định sự thành công của các triển khai thực tế trong nhiều ngành công nghiệp khác nhau.

Phân tích video tốc độ cao

Đối với việc xử lý các luồng video có mật độ dữ liệu cao, chẳng hạn như quản lý giao thông thành phố thông minh, YOLOv10 mang lại lợi thế đáng kể nhờ vào các tính năng của nó. NMS - Xử lý hậu kỳ miễn phí. Loại bỏ NMS Công nghệ bottleneck cho phép duy trì độ trễ thấp ổn định, lý tưởng để kết hợp với các thuật toán theo dõi như BoT-SORT .

Triển khai Edge cũ

Dành cho các cơ sở học thuật cũ hoặc hệ thống kế thừa. Android Trong các ứng dụng được tối ưu hóa cao cho các mô hình tích chập thuần túy, các mô hình nhỏ hơn như YOLOX-Tiny vẫn có thể tìm thấy các trường hợp sử dụng chuyên biệt mà việc duy trì các mô hình cũ hơn là cần thiết. PyTorch Môi trường là một sự đánh đổi được chấp nhận.

Các thiết bị biên và IoT hiện đại

Đối với các triển khai phần cứng thế hệ tiếp theo, chẳng hạn như robot, máy bay không người lái và phân tích kệ hàng bán lẻ, YOLO26 là giải pháp tối ưu. Chi phí của nó đã được giảm đáng kể. CPU Độ trễ thấp và khả năng phát hiện vật thể nhỏ vượt trội khiến nó trở nên đặc biệt phù hợp cho việc điều hướng tự động và quản lý kho hàng chi tiết.

Để có thêm những so sánh và mở rộng bộ công cụ học sâu của bạn, bạn cũng có thể khám phá xem các mô hình này hoạt động như thế nào so với các lựa chọn thay thế như YOLO11 linh hoạt hoặc RT-DETR dựa trên kiến ​​trúc Transformer.


Bình luận