YOLOv5 so với YOLO11: So sánh kỹ thuật toàn diện

Khi lựa chọn kiến trúc thị giác máy tính phù hợp cho một dự án mới, việc hiểu rõ sự phát triển của các mô hình tiên tiến là vô cùng quan trọng. Sự tiến bộ từ các kiến trúc cũ đến các khung thống nhất hiện đại cho thấy những bước nhảy vọt đáng kể cả về hiệu quả thuật toán và trải nghiệm của nhà phát triển. Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa hai mô hình mang tính bước ngoặt được phát triển bởi Ultralytics : người tiên phong YOLOv5 và được tinh chế cao độ YOLO11 .

Giới thiệu về các mô hình

Cả hai kiến trúc này đều đại diện cho những cột mốc quan trọng trong lĩnh vực phát hiện đối tượng thời gian thực, mang lại những lợi thế riêng biệt tùy thuộc vào môi trường triển khai và các yêu cầu hệ thống cũ của bạn.

YOLOv5: Ngựa chiến của ngành

Được phát hành vào mùa hè năm 2020, YOLOv5 Nó nhanh chóng trở thành tiêu chuẩn ngành nhờ vào việc triển khai PyTorch nguyên bản, giúp giảm đáng kể rào cản gia nhập cho việc đào tạo và triển khai. Nó đã loại bỏ các khung C phức tạp của Darknet trước đây, cung cấp một cách tiếp cận kiểu Python để xây dựng mô hình.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:ultralytics/yolov5
Tài liệu:Tài liệu YOLOv5

YOLOv5 Nó đã thiết lập một nền tảng vững chắc về tính dễ sử dụng và giới thiệu các phương pháp huấn luyện mạnh mẽ, bao gồm tăng cường dữ liệu khảm nâng cao và tự động neo. Nó vẫn cực kỳ phổ biến đối với các nhà nghiên cứu đang xây dựng dựa trên một nền tảng mã nguồn được ghi chép đầy đủ và kiểm thử kỹ lưỡng.

Tìm hiểu thêm về YOLOv5

YOLO11 Khung tầm nhìn thống nhất

Dựa trên nhiều năm thu thập phản hồi và nghiên cứu kiến trúc, YOLO11 Nó được giới thiệu như một phần của khung thống nhất có khả năng xử lý nhiều tác vụ thị giác một cách tự nhiên. Vượt xa việc chỉ xử lý các hộp giới hạn, nó được thiết kế từ đầu để đạt được tính linh hoạt và hiệu quả tối đa.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:ultralytics/ultralytics
Tài liệu:Tài liệu YOLO11

YOLO11 mang đến trải nghiệm người dùng được tối ưu hóa thông qua ultralytics Python gói phần mềm này tự hào có API đơn giản giúp thống nhất các thành phần. phát hiện đối tượngNó bao gồm phân đoạn đối tượng, phân loại, ước lượng tư thế và hộp giới hạn định hướng (OBB). Nó đạt được sự cân bằng tối ưu giữa tốc độ và độ chính xác, lý tưởng cho nhiều kịch bản triển khai thực tế khác nhau.

Tìm hiểu thêm về YOLO11

Nền tảng tích hợp

Cả hai mô hình đều được hưởng lợi từ hệ sinh thái được duy trì tốt do Nền tảng Ultralytics cung cấp. Môi trường tích hợp này đơn giản hóa việc chú thích dữ liệu, huấn luyện trên đám mây và xuất mô hình trên nhiều mục tiêu phần cứng khác nhau.

So sánh hiệu năng và số liệu

So sánh trực tiếp các mô hình này cho thấy những cải tiến về kiến trúc mang lại những lợi ích hiệu suất hữu hình như thế nào. Bảng dưới đây minh họa Độ chính xác trung bình (Average Precision) ( mAP ) được đánh giá trên tập dữ liệu COCO , cùng với CPU Và GPU Tốc độ suy luận và số lượng tham số.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Phân tích kết quả

Các số liệu cho thấy một bước tiến rõ rệt trong sự cân bằng hiệu suất đạt được bởi YOLO11 Ví dụ, mẫu YOLO11n (nano) đạt được hiệu suất 39,5%. mAP so với mức 28,0% của YOLOv5n, đồng thời giảm thiểu... CPU thời gian suy luận khi xuất qua ONNX . Hơn nữa, YOLO11 So với các mô hình dựa trên Transformer nặng nề, chúng duy trì yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện, giúp chúng dễ dàng triển khai trên phần cứng tiêu dùng và các thiết bị biên.

Sự khác biệt về kiến trúc

Những cải tiến về hiệu suất trong YOLO11 Bắt nguồn từ một số bước tiến hóa kiến trúc quan trọng. Trong khi đó YOLOv5 Sử dụng hệ thống xương sống CSPNet tiêu chuẩn với các mô-đun C3. YOLO11 Giới thiệu các khối trích xuất đặc trưng hiệu quả hơn như C2f và sau này là C3k2, giúp tối ưu hóa luồng gradient và giảm chi phí tính toán.

YOLO11 Ngoài ra, sản phẩm còn có phần đầu được cải tiến đáng kể. Khác với thiết kế dựa trên mỏ neo của các mẫu cũ hơn, các mẫu mới hơn... Ultralytics Các kiến trúc này áp dụng phương pháp không sử dụng neo. Điều này giúp giảm số lượng dự đoán hộp, tối ưu hóa quy trình xử lý hậu kỳ và cải thiện khả năng khái quát hóa của mô hình trên các tỷ lệ khung hình và kích thước khác nhau. Ngoài ra, các mô hình này còn có hiệu quả huấn luyện vượt trội và trọng số được huấn luyện trước sẵn có, giúp tăng tốc độ hội tụ của các tập dữ liệu được tinh chỉnh.

Ví dụ về cách triển khai và mã nguồn

Một trong những tính năng nổi bật của Ultralytics Điểm đặc biệt của hệ sinh thái này chính là sự đơn giản. Trong khi đó, YOLOv5 đã phổ biến việc sử dụng torch.hub để suy luận nhanh, YOLO11 Điều này được thực hiện thêm một bước nữa với sự thống nhất. ultralytics gói Python.

Đào tạo với YOLO11

Việc tải, huấn luyện và xác thực mô hình chỉ cần một lượng mã mẫu tối thiểu. API xử lý việc điều chỉnh siêu tham số và quản lý mô hình một cách liền mạch.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Suy luận kế thừa với YOLOv5

Nếu bạn đang bảo trì một hệ thống đường dẫn xử lý dữ liệu cũ, YOLOv5 tích hợp trực tiếp với PyTorch Cơ chế tải gốc của nó giúp việc tích hợp vào các kịch bản suy luận hiện có trở nên dễ dàng.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()

Tính linh hoạt triển khai

Cả hai mô hình đều hỗ trợ nhiều định dạng xuất. Cho dù bạn đang nhắm đến NVIDIA Jetson sử dụng TensorRT hay một... iOS ứng dụng sử dụng CoreML Quá trình triển khai được ghi chép đầy đủ và được cộng đồng hỗ trợ.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa các mô hình này phụ thuộc phần lớn vào giai đoạn vòng đời dự án và các yêu cầu cụ thể của bạn.

Khi nào nên chọn YOLOv5

Bảo trì các cơ sở mã nguồn cũ: Nếu môi trường sản xuất của bạn được tùy chỉnh nhiều dựa trên... YOLOv5 Cấu trúc kho lưu trữ hoặc các kỹ thuật tiến hóa siêu tham số cụ thể.
Tiêu chuẩn đánh giá học thuật: Khi công bố các nghiên cứu yêu cầu so sánh trực tiếp với các tiêu chuẩn thị giác máy tính đã được thiết lập từ năm 2020-2022.

Khi nào nên chọn YOLO11

Dự án đa nhiệm: Khi ứng dụng của bạn yêu cầu kết hợp nhiều tác vụ như ước lượng tư thế và phân đoạn đối tượng bằng một API duy nhất, thống nhất.
Triển khai tại biên: Dành cho các kịch bản điện toán biên , nơi cần tối ưu hóa hiệu suất tối đa. mAP Với ngân sách tính toán nhất định (FLOPs), điều này rất quan trọng.
Giải pháp AI thương mại: Lý tưởng cho các ứng dụng doanh nghiệp trong lĩnh vực bán lẻ và an ninh, tận dụng sự hỗ trợ mạnh mẽ của Nền tảng Ultralytics .

Thế hệ tiếp theo: Ultralytics YOLO26

Trong khi YOLO11 Thể hiện sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, chúng tôi đặc biệt khuyên bạn nên tìm hiểu tiêu chuẩn mới nhất trong lĩnh vực trí tuệ nhân tạo thị giác: Ultralytics YOLO26 .

Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu những cải tiến mang tính đột phá được thiết kế đặc biệt cho nhu cầu triển khai hiện đại:

Hệ NMS từ đầu đến cuối - Thiết kế miễn phí: Xây dựng dựa trên các khái niệm tiên phong lần đầu tiên trong YOLOv10 YOLO26 là hệ thống end-to-end nguyên bản. Nó loại bỏ sự cần thiết của Non-Maximum Suppression (Ngăn chặn lỗi không tối đa). NMS ) xử lý hậu kỳ, giúp đơn giản hóa đáng kể quy trình triển khai và giảm độ trễ.
MuSGD Optimizer: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM từ các mô hình như Kimi K2 của Moonshot AI, đây là sự kết hợp của... SGD và Muon đảm bảo quá trình huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn đáng kể.
Tốc độ CPU chưa từng có: Bằng cách loại bỏ hiện tượng mất mát tiêu điểm phân tán (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn tốt nhất cho các thiết bị biên và môi trường không có GPU chuyên dụng.
Các hàm mất mát nâng cao: Sự tích hợp giữa ProgLoss và STAL mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, điều này rất quan trọng đối với phân tích dữ liệu từ máy bay không người lái, IoT và robot.
Cải tiến dành riêng cho từng tác vụ: Nó giới thiệu các tối ưu hóa chuyên biệt, chẳng hạn như ước lượng logarit xác suất dư (RLE) cho tư thế và tổn thất góc chuyên biệt cho các hộp giới hạn định hướng , đảm bảo hiệu suất vượt trội trên tất cả các tác vụ thị giác máy tính.

Tìm hiểu thêm về YOLO26

Đối với người dùng quan tâm đến các kiến trúc chuyên biệt vượt ra ngoài phạm vi phát hiện đối tượng tiêu chuẩn, bạn cũng có thể tìm hiểu các mô hình như RT-DETR để phát hiện dựa trên Transformer, hoặc YOLO -World để theo dõi và phát hiện bằng từ vựng mở. Việc sử dụng các công cụ được bảo trì tốt và tối ưu hóa cao này đảm bảo quy trình xử lý hình ảnh máy tính của bạn luôn hiệu quả, có khả năng mở rộng và luôn đi trước xu hướng.