YOLO26 so với... YOLOv5 Nâng cao khả năng phát hiện đối tượng trong thời gian thực

Sự phát triển của công nghệ phát hiện đối tượng đã được đánh dấu bằng những cột mốc quan trọng, và việc so sánh YOLO26 với YOLOv5 huyền thoại cho thấy rõ ràng máy tính thị giác đã tiến bộ đến mức nào. Trong khi đó, YOLOv5 Được thiết lập làm tiêu chuẩn ngành về khả năng sử dụng và sự cân bằng vào năm 2020, YOLO26 đại diện cho công nghệ tiên tiến nhất trong nghiên cứu trí tuệ nhân tạo tạo sinh và thị giác máy tính vào năm 2026. Hướng dẫn này sẽ phân tích kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp bạn chọn công cụ phù hợp cho dự án của mình.

Tóm tắt điều hành

YOLOv5 , được Ultralytics phát hành năm 2020, đã dân chủ hóa trí tuệ nhân tạo bằng cách giúp việc phát hiện đối tượng trở nên dễ tiếp cận, nhanh chóng và dễ huấn luyện. Nó vẫn là một công cụ đáng tin cậy cho các hệ thống cũ.

YOLO26 , được phát hành vào tháng 1 năm 2026, xây dựng dựa trên nền tảng đó với kiến trúc đầu cuối hoàn chỉnh giúp loại bỏ hiện tượng Non-Maximum Suppression (Bỏ qua các giá trị tối đa không cần thiết). NMS Nó giới thiệu trình tối ưu hóa MuSGD lấy cảm hứng từ Mô hình Ngôn ngữ Lớn (LLM) , giúp hội tụ nhanh hơn và cải thiện đáng kể độ chính xác, đặc biệt đối với các đối tượng nhỏ và thiết bị biên.

Tính năng	YOLO26	YOLOv5
Kiến trúc	NMS - Miễn phí trọn gói	Dựa trên neo với NMS
Trình tối ưu hóa	MuSGD (lấy cảm hứng từ chương trình LLM)	SGD / Adam
Tốc độ suy luận	Nhanh hơn tới 43% trên CPU	Thời gian thực tiêu chuẩn
Nhiệm vụ	detect, segment, classify, Ước tính tư thế, obb	detect, segment, classify
Tốt nhất cho	AI biên, NPU thời gian thực/ CPU Người máy	Hỗ trợ đa năng, hệ thống cũ

Điểm chuẩn hiệu suất

Bảng sau so sánh các mô hình trên tập dữ liệu COCO . YOLO26 cho thấy những cải tiến đáng kể về cả độ chính xác ( mAP ) và tốc độ suy luận, đặc biệt là về CPU phần cứng mà việc xử lý hiệu quả là vô cùng quan trọng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Lưu ý về hiệu suất

YOLO26n mang lại hiệu mAP cải thiện đáng kể, lên tới 46% so với YOLOv5n, đồng thời chạy nhanh hơn gần gấp đôi trên CPU. Điều này khiến nó trở thành lựa chọn tối ưu cho các ứng dụng di động và AI biên .

YOLO26: Tiêu chuẩn mới cho AI biên (Edge AI)

YOLO26 được thiết kế để giải quyết sự phức tạp của các quy trình triển khai hiện đại. Bằng cách loại bỏ nhu cầu về NMS Với xử lý hậu kỳ và suy hao tiêu điểm phân tán (DFL), mô hình này đơn giản hóa việc xuất sang các định dạng như ONNX và... TensorRT , giảm thiểu sự biến động về độ trễ.

Các Đổi Mới Kiến Trúc Chính

Giải pháp NMS từ đầu đến cuối - Không cần can thiệp: Kiến trúc mô hình dự đoán trực tiếp một hộp giới hạn cho mỗi đối tượng, loại bỏ phương pháp phỏng đoán. NMS bước này giúp giảm thiểu gánh nặng tính toán trong quá trình suy luận, một kỹ thuật lần đầu tiên được tiên phong trong YOLOv10 .
MuSGD Optimizer: Áp dụng những cải tiến từ chương trình đào tạo LLM, YOLO26 sử dụng phương pháp kết hợp của... SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI). Điều này giúp quá trình huấn luyện diễn ra ổn định hơn và hội tụ nhanh hơn, giảm chi phí huấn luyện các mô hình tùy chỉnh.
ProgLoss + STAL: Sự kết hợp giữa Progressive Loss và Soft-Target Anchor Loss giúp cải thiện đáng kể khả năng phát hiện các vật thể nhỏ, một yêu cầu quan trọng đối với ảnh chụp từ máy bay không người lái và xe tự hành .
Hiệu quả: Với khả năng suy luận CPU nhanh hơn tới 43% , YOLO26 được tối ưu hóa cho các thiết bị thiếu GPU mạnh mẽ, chẳng hạn như máy tính xách tay thông thường và Raspberry Pi .

Tìm hiểu thêm về YOLO26

YOLOv5 Di sản của khả năng sử dụng

YOLOv5 đã thay đổi diện mạo của thị giác máy tính bằng cách ưu tiên trải nghiệm người dùng. Giao diện trực quan của nó rất dễ sử dụng. PyTorch Cấu trúc và hệ sinh thái mạnh mẽ đã đặt ra tiêu chuẩn cho việc phát triển AI từ "con số không đến siêu phẩm".

Dễ sử dụng: Nổi tiếng với cấu trúc thư mục đơn giản và giao diện "train.py", YOLOv5 Đây vẫn là công cụ được ưa chuộng cho mục đích giáo dục và tạo mẫu nhanh.
Khả năng tương thích rộng: Hỗ trợ đa dạng các định dạng xuất đảm bảo phần mềm hoạt động trên hầu hết mọi phần cứng, từ Apple CoreML đến... Android TFLite .
Hỗ trợ cộng đồng: Nhiều năm phát triển tích cực đã tạo ra một thư viện khổng lồ gồm các hướng dẫn, tích hợp bên thứ ba và các bản vá lỗi do cộng đồng đóng góp.

Tìm hiểu thêm về YOLOv5

So sánh các trường hợp sử dụng

Việc lựa chọn giữa các mô hình này phụ thuộc vào các ràng buộc cụ thể của bạn liên quan đến phần cứng, độ chính xác và độ phức tạp của tác vụ.

Các kịch bản lý tưởng cho YOLO26

Điện toán biên và IoT: Loại bỏ DFL và NMS Điều này giúp YOLO26 hoạt động cực kỳ nhanh trên CPU và NPU. Nó hoàn hảo cho camera thông minh, phân tích bán lẻ và cảm biến công nghiệp.
Robot và Điều hướng: Thiết kế toàn diện cung cấp độ trễ xác định, điều này rất quan trọng đối với các vòng điều khiển thời gian thực trong robot.
Các tác vụ nâng cao: Nếu bạn cần ước tính tư thế với ước tính logarit khả năng dư (RLE) hoặc phát hiện hộp giới hạn định hướng (OBB) với độ chính xác cao cho ảnh chụp từ trên không, YOLO26 cung cấp các đầu xử lý kiến trúc chuyên dụng. YOLOv5 thiếu.
Phát hiện vật thể nhỏ: Nhờ công nghệ ProgLoss, YOLO26 vượt trội trong việc phát hiện các vật thể nhỏ như lỗi sản xuất hoặc vật thể ở xa trong đoạn phim an ninh.

Các kịch bản lý tưởng cho YOLOv5

Hệ thống kế thừa: Các dự án đã được tích hợp sâu với YOLOv5 Các cơ sở mã có thể thấy việc duy trì mô hình hiện tại là hiệu quả về mặt chi phí nếu hiệu năng đáp ứng được yêu cầu.
Các hội thảo giáo dục: Mã nguồn đơn giản của nó rất phù hợp để giảng dạy các nguyên lý cơ bản của mạng nơ-ron tích chập (CNN) .

Đào tạo và Hệ sinh thái

Cả hai mô hình đều được hưởng lợi từ tính năng mạnh mẽ. Ultralytics YOLO26 mang đến những hiệu quả hiện đại, vượt trội so với các hệ sinh thái truyền thống.

Hiệu quả huấn luyện

YOLO26 sử dụng trình tối ưu hóa MuSGD , giúp ổn định quá trình huấn luyện trên các kích thước batch và tốc độ học khác nhau. Điều này thường dẫn đến việc cần ít epoch hơn để đạt được sự hội tụ so với các phương pháp khác. YOLOv5 tiêu chuẩn của SGD cách tiếp cận này giúp tiết kiệm chi phí. GPU Tính toán chi phí.

Yêu cầu bộ nhớ

Ultralytics Các mẫu xe này nổi tiếng về hiệu quả. YOLO26 tiếp tục xu hướng này, yêu cầu ít năng lượng hơn đáng kể. CUDA có bộ nhớ lớn hơn so với các giải pháp thay thế dựa trên Transformer như RT-DETR . Điều này cho phép các nhà phát triển huấn luyện các mô hình lớn hơn trên các GPU cấp người tiêu dùng như... NVIDIA RTX 3060 hoặc 4090.

Cái Ultralytics Nền tảng

Cả hai mẫu đều được tích hợp hoàn toàn với Nền tảng Ultralytics , giúp tối ưu hóa toàn bộ quy trình làm việc:

Quản lý tập dữ liệu: tải lên và chú thích dữ liệu với sự hỗ trợ của trí tuệ nhân tạo.
Đào tạo chỉ với một cú nhấp chuột: Đào tạo trên nền tảng đám mây mà không cần quản lý cơ sở hạ tầng.
Triển khai: Tự động xuất sang TensorRT , OpenVINO và nhiều hơn nữa cho sản xuất.

Kết luận

Mặc dù YOLOv5 vẫn là một sản phẩm kinh điển được đánh giá cao, định hình nên một thế hệ các bộ phát hiện đối tượng, YOLO26 vẫn là lựa chọn vượt trội hơn cho các dự án mới trong năm 2026. Những cải tiến về kiến trúc của nó—cụ thể là— NMS - Thiết kế miễn phí và trình tối ưu hóa MuSGD - mang lại mô hình nhanh hơn, chính xác hơn và dễ triển khai hơn trên các thiết bị biên.

Đối với các nhà phát triển tìm kiếm sự cân bằng tốt nhất giữa tốc độ và độ chính xác, YOLO26 cung cấp một nền tảng vững chắc cho tương lai. Chúng tôi khuyên bạn nên chuyển đổi hệ thống cũ. YOLOv5 Chuyển đổi quy trình làm việc sang YOLO26 để tận dụng những cải tiến hiệu suất đáng kể này.

Tác giả và tài liệu tham khảo

YOLO26

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
Tài liệu: Tài liệu YOLO26

YOLOv5

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
Tài liệu: Tài liệu YOLOv5

Đối với những ai quan tâm đến việc khám phá các kiến trúc hiện đại khác, hãy xem xét YOLO11 cho các tác vụ thị giác đa năng hoặc RT-DETR cho việc phát hiện dựa trên Transformer.