Chuyển đến nội dung

YOLOv10 so với YOLO11 Khám phá chuyên sâu về các kiến ​​trúc phát hiện đối tượng trong thời gian thực

Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến ​​trúc mới liên tục đẩy mạnh giới hạn của những gì có thể thực hiện được trong xử lý thời gian thực. Đối với các nhà phát triển và nhà nghiên cứu đang hoạt động trong lĩnh vực phát triển nhanh chóng này, việc hiểu rõ những điểm khác biệt tinh tế giữa các mô hình tiên tiến là rất quan trọng. Bài so sánh chi tiết này sẽ khám phá những khác biệt kỹ thuật, sự đánh đổi về hiệu năng và các trường hợp sử dụng lý tưởng cho YOLOv10Ultralytics YOLO11 , hai khung phần mềm phát hiện đối tượng có khả năng cao.

Mặc dù cả hai mô hình đều đạt được kết quả ấn tượng trên các bộ dữ liệu chuẩn, nhưng triết lý thiết kế cơ bản và sự tích hợp hệ sinh thái của chúng lại khác biệt đáng kể. Bằng cách xem xét kiến ​​trúc của chúng, chúng ta có thể xác định giải pháp nào phù hợp nhất với các ràng buộc triển khai và mục tiêu dự án của bạn.

YOLOv10 Tiên phong NMS - Phát hiện từ đầu đến cuối miễn phí

Được phát hành vào mùa xuân năm 2024, YOLOv10 Đã giới thiệu một phương pháp tiếp cận mới cho quy trình phát hiện đối tượng truyền thống bằng cách trực tiếp giải quyết độ trễ phát sinh trong quá trình xử lý hậu kỳ.

Sự đổi mới nổi bật của YOLOv10 đó là chiến lược phân công nhiệm vụ kép nhất quán của nó, cho phép NMS - huấn luyện miễn phí. Các bộ phát hiện đối tượng truyền thống phụ thuộc rất nhiều vào phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression - NMS ) để lọc ra các dự đoán hộp giới hạn dư thừa. Bằng cách loại bỏ bước này, YOLOv10 Đạt được khả năng phát hiện từ đầu đến cuối thực sự, giảm độ trễ suy luận và đơn giản hóa việc triển khai trên các bộ tăng tốc phần cứng như Bộ xử lý thần kinh (NPU) nơi cần tùy chỉnh. NMS Việc tối ưu hóa hoạt động vận hành vốn nổi tiếng là khó khăn.

Tìm hiểu thêm về YOLOv10

YOLO11 Tính linh hoạt và hiệu suất được thúc đẩy bởi hệ sinh thái

Ra mắt vào cuối năm đó, YOLO11 thể hiện sự tinh chỉnh liên tục của Ultralytics Dòng sản phẩm này tập trung vào sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển.

YOLO11 được thiết kế cho sản xuất. Mặc dù nó hoạt động xuất sắc trong việc phát hiện hộp giới hạn tiêu chuẩn, nhưng sức mạnh thực sự của nó nằm ở tính linh hoạt . Không giống như YOLOv10 , chủ yếu tập trung vào phát hiện đối tượng, YOLO11 Nó hỗ trợ nguyên bản các tác vụ phân đoạn đối tượng , ước lượng tư thế , phân loại hình ảnhhộp giới hạn định hướng (OBB) bằng cách sử dụng kiến ​​trúc thống nhất. Nó có yêu cầu bộ nhớ cực thấp trong quá trình huấn luyện, giúp nó dễ tiếp cận hơn nhiều đối với các nhóm làm việc với GPU cấp độ người tiêu dùng so với các kiến ​​trúc dựa trên Transformer nặng nề hơn.

Tìm hiểu thêm về YOLO11

So sánh hiệu năng và số liệu

Khi so sánh các mô hình này cạnh nhau, điều cần thiết là phải xem xét hiệu suất của chúng trên các biến thể quy mô khác nhau trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO .

Bảng dưới đây nêu bật sự khác biệt về hiệu năng. YOLO11 thường xuyên vượt ra ngoài YOLOv10 TRONG mAP trên hầu hết các loại kích thước khác nhau trong khi vẫn duy trì tốc độ suy luận TensorRT rất cạnh tranh.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Tăng tốc phần cứng

Để tái tạo tốc độ suy luận nhanh chóng này tại chỗ, hãy đảm bảo bạn xuất mô hình của mình sang các định dạng được tối ưu hóa như OpenVINO . Intel CPU hoặc TensorRT vì NVIDIA GPU.

Tìm hiểu sâu về kiến trúc

Phương pháp đào tạo và hiệu quả

YOLOv10 Kiến trúc của hệ thống nhấn mạnh việc giảm thiểu sự dư thừa tính toán. Bằng cách tối ưu hóa thiết kế xương sống và cổ họng bằng chiến lược toàn diện hướng đến hiệu quả và độ chính xác, các tác giả từ Đại học Thanh Hoa đã giảm đáng kể số lượng tham số trong các mô hình tầng giữa (như YOLOv10m) so với các phiên bản trước đó.

Tuy nhiên, Hiệu quả huấn luyện là một dấu ấn quan trọng của Ultralytics mô hình. YOLO11 sử dụng phương pháp tinh chế cao cấp. ultralytics Python gói này trừu tượng hóa các vấn đề phức tạp. tinh chỉnh siêu tham sốKhung phần mềm này tự động xử lý các phép tăng cường dữ liệu nâng cao, lập lịch tốc độ học và xử lý đa luồng. GPU Đào tạo phân tán sẵn có. YOLO11 Kiến trúc của nó cũng thể hiện khả năng xử lý gradient tuyệt vời, dẫn đến sự hội tụ nhanh hơn và mức sử dụng VRAM thấp hơn trong giai đoạn huấn luyện.

Dễ sử dụng và lợi thế hệ sinh thái

Yếu tố then chốt để doanh nghiệp áp dụng là hệ sinh thái được duy trì tốt . Các kho lưu trữ nghiên cứu, dù mang tính đột phá, thường trở nên không hoạt động sau khi bài báo đầu tiên được xuất bản. Ultralytics hệ sinh thái, hỗ trợ YOLO11 Nó cung cấp trải nghiệm phát triển liền mạch, từ đầu đến cuối.

Tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thí nghiệm và Roboflow để quản lý tập dữ liệu, YOLO11 Công cụ này giúp đẩy nhanh quá trình chuyển đổi từ nguyên mẫu sang sản phẩm hoàn chỉnh. Tính dễ sử dụng được thể hiện rõ qua API được tối giản hóa, cho phép các nhà phát triển huấn luyện và xuất mô hình chỉ với một vài dòng mã.

from ultralytics import YOLO

# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently with optimized memory handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="0")

# Export to ONNX format for deployment flexibility
model.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv10 Và YOLO11 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

  • NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.

Khi nào nên chọn YOLO11

YOLO11 Được khuyến nghị cho:

  • Triển khai tại biên môi trường sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson , nơi độ tin cậy và bảo trì thường xuyên là yếu tố tối quan trọng.
  • Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu phát hiện , phân đoạn , ước lượng tư thếOBB trong một khung thống nhất duy nhất.
  • Tạo mẫu và triển khai nhanh chóng: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Khám phá các kiến ​​trúc khác

Trong khi YOLOv10 Và YOLO11 Mặc dù đây là những lựa chọn tuyệt vời, trường hợp sử dụng cụ thể của bạn có thể sẽ được hưởng lợi từ các kiến ​​trúc khác có sẵn trong tài liệu. Đối với suy luận dựa trên chuỗi, các mô hình transformer như RT-DETR cung cấp độ chính xác cao, mặc dù chúng thường yêu cầu bộ nhớ cao hơn. Ngược lại, nếu bạn cần khả năng nhận diện các lớp mới mà không cần huấn luyện lại, YOLO -World cung cấp phương pháp từ vựng mở được điều khiển bởi các lời nhắc bằng ngôn ngữ tự nhiên.

Thế hệ tiếp theo: YOLO26

Đối với các nhóm đang tìm kiếm giải pháp hiện đại nhất, Ultralytics YOLO26 vừa được phát hành kết hợp những tính năng tốt nhất của cả hai mô hình đã đề cập ở trên. Được phát hành vào tháng 1 năm 2026, YOLO26 là sự lựa chọn tối ưu cho các kịch bản triển khai hiện đại.

Được xây dựng dựa trên nền tảng của các phiên bản tiền nhiệm, YOLO26 tích hợp sẵn thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối , loại bỏ hiệu quả các nút thắt cổ chai trong quá trình xử lý hậu kỳ. YOLOv10 lần đầu tiên được đề cập, nhưng thực hiện điều đó trong khuôn khổ vững chắc. Ultralytics Hơn nữa, YOLO26 có tính năng Loại bỏ tổn hao tiêu điểm phân tán (DFL Removal ), giúp đơn giản hóa đáng kể các đồ thị xuất mô hình và tăng cường khả năng tương thích với các thiết bị IoT biên và công suất thấp.

Tính ổn định của quá trình huấn luyện cũng đã có một bước tiến vượt bậc với sự ra mắt của Trình tối ưu hóa MuSGD , một phương pháp lai ghép lấy cảm hứng từ các phương pháp huấn luyện LLM, đảm bảo sự hội tụ cực nhanh. Kết hợp với các hàm mất mát tiên tiến như ProgLoss + STAL , YOLO26 mang lại những cải tiến đáng kể trong nhận dạng đối tượng nhỏ. Đối với việc triển khai trên các thiết bị biên tiêu chuẩn, những cải tiến về kiến ​​trúc này giúp tăng tốc độ suy luận CPU lên tới 43% , biến YOLO26 trở thành lựa chọn vô song cho tất cả các tác vụ thị giác máy tính.


Bình luận