YOLOv5 so với YOLOv8 Đánh giá sự tiến hóa của Ultralytics Trí tuệ nhân tạo thị giác

Khi xây dựng các ứng dụng thị giác máy tính có khả năng mở rộng và hiệu quả, việc lựa chọn kiến trúc phù hợp là vô cùng quan trọng. Sự phát triển của hệ sinh thái Ultralytics đã liên tục vượt qua các giới hạn về tốc độ và độ chính xác, cung cấp cho các nhà phát triển những công cụ mạnh mẽ để triển khai thực tế. Bài so sánh kỹ thuật này đi sâu vào sự khác biệt giữa YOLOv5 và YOLOv8 , khám phá kiến trúc, sự đánh đổi về hiệu năng và các trường hợp sử dụng lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.

Cả hai mô hình này đều đại diện cho những cột mốc quan trọng trong lịch sử phát hiện đối tượng thời gian thực, và cả hai đều hưởng lợi từ các yêu cầu bộ nhớ được tối ưu hóa cao cùng với khả năng dễ sử dụng đặc trưng của hệ sinh thái Ultralytics.

YOLOv5 Tiêu chuẩn đáng tin cậy của ngành

Được giới thiệu vào năm 2020, YOLOv5 Nó nhanh chóng trở thành tiêu chuẩn ngành cho việc phát hiện đối tượng nhanh chóng, dễ tiếp cận và đáng tin cậy. Bằng cách tận dụng triển khai PyTorch gốc, nó đã đơn giản hóa chu trình đào tạo và triển khai cho các kỹ sư trên toàn thế giới.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:ultralytics/yolov5
Tài liệu:Tài liệu YOLOv5

Điểm mạnh về kiến trúc

YOLOv5 Nó hoạt động dựa trên mô hình phát hiện dựa trên neo, dựa vào các hộp neo được xác định trước để dự đoán ranh giới đối tượng. Kiến trúc của nó tích hợp xương sống mạng Cross-Stage Partial (CSP), tối ưu hóa luồng gradient và giảm sự dư thừa tính toán. Điều này dẫn đến dung lượng bộ nhớ sử dụng cực kỳ nhẹ, giúp quá trình huấn luyện diễn ra cực kỳ nhanh ngay cả trên các GPU tiêu chuẩn dành cho người dùng thông thường.

Các trường hợp sử dụng lý tưởng

YOLOv5 Rất được khuyến nghị cho các dự án mà hiệu suất tối đa và mức sử dụng tài nguyên tối thiểu là yếu tố quan trọng. Nó hoạt động xuất sắc trong môi trường AI biên , chẳng hạn như triển khai trên Raspberry Pi hoặc thiết bị di động. Sự trưởng thành của nó có nghĩa là nó đã được kiểm nghiệm kỹ lưỡng trong hàng nghìn lần triển khai thương mại, mang lại sự ổn định vượt trội cho các quy trình phát hiện đối tượng truyền thống.

Lợi thế triển khai hệ thống cũ

Nhờ được áp dụng rộng rãi, YOLOv5 có các đường dẫn xuất cực kỳ ổn định đến các framework triển khai cũ như TensorRT và ONNX, giúp việc tích hợp vào các ngăn xếp công nghệ cũ trở nên liền mạch.

Tìm hiểu thêm về YOLOv5

YOLOv8 Khung tầm nhìn thống nhất

Được phát hành vào tháng 1 năm 2023, YOLOv8 Nó đánh dấu một sự chuyển đổi kiến trúc mang tính bước ngoặt, phát triển từ một bộ phát hiện đối tượng chuyên dụng thành một khung xử lý hình ảnh đa năng, thực hiện nhiều nhiệm vụ.

Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2023-01-10
GitHub:ultralytics/ultralytics
Tài liệu:Tài liệu YOLOv8

Đổi mới Kiến trúc

Không giống như phiên bản tiền nhiệm, YOLOv8 Giới thiệu một đầu phát hiện không cần neo . Điều này loại bỏ nhu cầu điều chỉnh thủ công cấu hình neo dựa trên phân bố dữ liệu, tăng cường khả năng khái quát hóa trên các tập dữ liệu tùy chỉnh đa dạng như tập dữ liệu COCO phổ biến.

Kiến trúc này cũng nâng cấp phần xương sống bằng mô-đun C2f (Cross-Stage Partial bottleneck with two convolutions), thay thế mô-đun C3 cũ hơn. Cải tiến này giúp cải thiện khả năng biểu diễn đặc trưng mà không gây gánh nặng lớn cho bộ nhớ. Ngoài ra, việc triển khai một đầu xử lý tách rời—tách biệt các nhiệm vụ nhận dạng đối tượng, phân loại và hồi quy—cải thiện đáng kể khả năng hội tụ trong quá trình huấn luyện mô hình .

Tính linh hoạt và Python API

YOLOv8 giới thiệu hiện đại ultralytics Python API, chuẩn hóa quy trình làm việc trên nhiều tác vụ thị giác máy tính khác nhau. Cho dù bạn đang thực hiện phân đoạn hình ảnh, phân loại hình ảnh, hoặc ước tính tư thếAPI thống nhất chỉ yêu cầu những thay đổi cấu hình nhỏ.

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train on a custom dataset with built-in memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference and easily parse results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Tìm hiểu thêm về YOLOv8

So sánh hiệu suất chi tiết

Khi so sánh hai thế hệ, chúng ta nhận thấy một sự đánh đổi kinh điển: YOLOv8 đạt được độ chính xác trung bình ( mAP ) cao hơn trên diện rộng, trong khi YOLOv5 Nó vẫn giữ được ưu thế nhỏ về tốc độ suy luận thô tuyệt đối và số lượng tham số đối với các biến thể nhỏ nhất của nó.

Dưới đây là so sánh chi tiết các chỉ số hiệu suất của chúng trên tập dữ liệu COCO với kích thước ảnh 640 pixel.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Dữ liệu cho thấy rằng YOLOv8 Điều này mang lại sự cải thiện đáng kể về độ chính xác. Ví dụ, YOLOv8s đạt mAP 44.9 so với YOLOv5s ở 37.4 mAP, một bước nhảy vọt lớn giúp cải thiện đáng kể hiệu suất trong môi trường dày đặc hoặc khi nhận diện các vật thể nhỏ. Tuy nhiên, đối với các môi trường cực kỳ hạn chế, YOLOv5n Nó vẫn hoạt động cực kỳ hiệu quả, sở hữu số lượng tham số và số phép tính FLOPs thấp nhất.

Yêu cầu bộ nhớ

Cả hai mô hình đều được tối ưu hóa cao để giảm mức sử dụng bộ nhớ CUDA trong quá trình huấn luyện so với các kiến trúc nặng hơn như mô hình transformer. Điều này cho phép các nhà thực hành sử dụng kích thước batch lớn hơn trên các GPU tiêu chuẩn, đẩy nhanh chu kỳ nghiên cứu.

Lợi thế hệ sinh thái

Việc lựa chọn YOLOv5 hoặc YOLOv8 đều cấp cho các nhà phát triển quyền truy cập vào Nền tảng Ultralytics được bảo trì tốt. Môi trường tích hợp này cung cấp các công cụ đơn giản để chú thích tập dữ liệu, tinh chỉnh siêu tham số, huấn luyện trên đám mây và giám sát mô hình. Sự phát triển tích cực và hỗ trợ cộng đồng mạnh mẽ đảm bảo rằng các nhà phát triển có thể nhanh chóng giải quyết các vấn đề và tích hợp với các công cụ bên ngoài như Weights & Biases và ClearML.

Trong khi các framework khác có thể gặp khó khăn trong việc học hỏi, Ultralytics Ưu tiên trải nghiệm người dùng tối ưu, đảm bảo sự cân bằng hợp lý giữa tốc độ và độ chính xác, phù hợp với nhiều kịch bản triển khai thực tế khác nhau.

Ngoài v8: Khám phá YOLO11 và YOLO26

Trong khi YOLOv8 Là một framework có khả năng cao, lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Các nhà phát triển quan tâm đến hiệu năng hàng đầu cũng nên tìm hiểu YOLO11 , được xây dựng dựa trên v8 với độ chính xác và tốc độ được cải thiện.

Đối với những ai đang tìm kiếm công nghệ thị giác máy tính tiên tiến nhất, chúng tôi đặc biệt khuyên dùng Ultralytics YOLO26 . Được phát hành vào năm 2026, YOLO26 đại diện cho một bước tiến vượt bậc:

Thiết kế NMS-Free End-to-End: Được tiên phong ban đầu trong các kiến trúc thử nghiệm, YOLO26 tự nhiên loại bỏ xử lý hậu kỳ Non-Maximum Suppression, dẫn đến các pipeline triển khai đơn giản và nhanh hơn đáng kể.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM được thấy ở các mô hình như Kimi K2, YOLO26 sử dụng một trình tối ưu hóa lai để huấn luyện ổn định hơn và hội tụ nhanh chóng.
Nắm vững Điện toán biên: Với suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, đây là mô hình tối ưu cho các thiết bị không có GPU chuyên dụng.
Độ chính xác nâng cao: Sử dụng các hàm mất mát ProgLoss + STAL mới, nó cải thiện đáng kể khả năng nhận diện vật thể nhỏ, điều này rất quan trọng cho robot học và ảnh chụp từ drone trên không.

Cho dù là duy trì một hệ thống cũ với YOLOv5 , mở rộng quy mô một ứng dụng đa năng với YOLOv8 hoặc đổi mới với các khả năng tiên tiến của YOLO26, Ultralytics Bộ công cụ này cung cấp đầy đủ các công cụ cần thiết để thành công trong lĩnh vực trí tuệ nhân tạo thị giác hiện đại.