YOLOv8 so với YOLOv6 -3.0: Khám phá sâu hơn về phát hiện đối tượng trong thời gian thực

Lĩnh vực thị giác máy tính được định hình bởi sự phát triển nhanh chóng và cạnh tranh gay gắt. Hai cột mốc quan trọng trong quá trình tiến hóa này là Ultralytics YOLOv8 , một công cụ mạnh mẽ đa năng được phát hành vào đầu năm 2023, và YOLOv6 , một bộ phát hiện thông lượng cao từ Meituan. Mặc dù cả hai mô hình đều hướng đến giải quyết vấn đề phát hiện đối tượng trong thời gian thực, nhưng chúng tiếp cận vấn đề này với những triết lý khác nhau về kiến trúc, khả năng sử dụng và triển khai.

Bài so sánh này sẽ phân tích những điểm khác biệt về mặt kỹ thuật giữa các kiến trúc này, giúp các nhà phát triển lựa chọn công cụ phù hợp cho các ứng dụng từ xe tự hành đến kiểm tra công nghiệp.

Các chỉ số hiệu suất

Khi lựa chọn mô hình để đưa vào sản xuất, sự cân bằng giữa tốc độ suy luận và độ chính xác trung bình ( mAP ) thường là yếu tố quyết định. Bảng dưới đây nêu bật hiệu năng của cả hai mô hình trên tập dữ liệu COCO , một chuẩn mực thông dụng cho việc phát hiện đối tượng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Trong khi YOLOv6 -3.0 thể hiện hiệu năng cạnh tranh trên máy chuyên dụng. GPU Về phần cứng, Ultralytics YOLOv8 thể hiện tính linh hoạt vượt trội, duy trì độ chính xác cao trên mọi quy mô đồng thời mang lại sự dễ sử dụng vượt trội và khả năng tương thích phần cứng rộng hơn.

Ultralytics YOLOv8: Tiêu chuẩn Đa năng

Được Ultralytics phát hành vào tháng 1 năm 2023, YOLOv8 Nó đánh dấu một sự thay đổi lớn về kiến trúc so với các thế hệ trước. Nó được thiết kế không chỉ như một mô hình phát hiện, mà còn là một khung thống nhất có khả năng xử lý nhiều tác vụ thị giác cùng lúc.

Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2023-01-10
GitHub:ultralytics/ultralytics

Điểm nổi bật về kiến trúc

YOLOv8 Đã giới thiệu một đầu phát hiện không cần neo , giúp đơn giản hóa quá trình huấn luyện bằng cách loại bỏ nhu cầu cấu hình thủ công các hộp neo dựa trên phân bố dữ liệu. Điều này làm cho mô hình mạnh mẽ hơn khi khái quát hóa sang các tập dữ liệu tùy chỉnh.

Kiến trúc này có mô-đun C2f (Cross-Stage Partial bottleneck with two convolutions), thay thế cho mô-đun C3 được tìm thấy trong... YOLOv5 Mô-đun C2f cải thiện luồng gradient và cho phép mô hình học được các biểu diễn đặc trưng phong phú hơn mà không làm tăng đáng kể chi phí tính toán. Hơn nữa, YOLOv8 Nó sử dụng cấu trúc đầu tách rời , phân tách các nhiệm vụ nhận dạng đối tượng, phân loại và hồi quy, điều này đã được chứng minh là giúp cải thiện tốc độ hội tụ và độ chính xác.

Hệ sinh thái và Khả năng sử dụng

Một trong những điểm mạnh nổi bật của YOLOv8 Điểm nổi bật là khả năng tích hợp vào hệ sinh thái Ultralytics . Người dùng có thể huấn luyện, xác thực và triển khai mô hình bằng một thao tác đơn giản. CLI hoặc Python API tích hợp sẵn chức năng điều chỉnh siêu tham số và theo dõi thí nghiệm.

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=50)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Tìm hiểu thêm về YOLOv8

YOLOv6 -3.0: Năng suất công nghiệp

YOLOv6 -3.0, được phát triển bởi Bộ phận AI Thị giác của Meituan , được dán nhãn là "bộ dò đối tượng thế hệ tiếp theo dành cho các ứng dụng công nghiệp". Nó tập trung mạnh vào việc tối đa hóa hiệu suất trên các bộ tăng tốc phần cứng như... NVIDIA GPU.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, et al.
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv:2301.05586

Trọng tâm kiến trúc

YOLOv6 -3.0 sử dụng mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) ở phần cổ để cải thiện việc kết hợp các đặc trưng. Nó cũng sử dụng chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) , nhằm kết hợp lợi ích của các mô hình dựa trên neo và không dựa trên neo trong giai đoạn huấn luyện, mặc dù quá trình suy luận vẫn không dựa trên neo.

Hệ thống xương sống dựa trên EfficientRep , được thiết kế thân thiện với phần cứng. GPU suy luận. Sự tối ưu hóa này tạo ra YOLOv6 Đặc biệt hiệu quả trong các trường hợp có thể xử lý hàng loạt trên máy chủ, chẳng hạn như phân tích video ngoại tuyến. Tuy nhiên, sự chuyên biệt này đôi khi có thể dẫn đến độ trễ cao hơn. CPU - Chỉ các thiết bị biên so với các mô hình được tối ưu hóa cho điện toán đa năng.

Tìm hiểu thêm về YOLOv6

So sánh chi tiết

1. Hiệu quả Huấn luyện và Bộ nhớ

Ultralytics Các mô hình được thiết kế để tối ưu hiệu quả đào tạo . YOLOv8 Thông thường, nó yêu cầu ít bộ nhớ CUDA so với các giải pháp thay thế dựa trên Transformer hoặc các kiến trúc cũ hơn. Hiệu quả này cho phép các nhà phát triển huấn luyện các mô hình lớn hơn hoặc sử dụng kích thước lô lớn hơn trên GPU cấp người tiêu dùng (như...). NVIDIA RTX 3060 hoặc 4090).

Ngược lại, YOLOv6 Quy trình huấn luyện của -3.0, mặc dù hiệu quả, thường đòi hỏi việc tinh chỉnh siêu tham số nghiêm ngặt hơn để đạt được sự ổn định. Việc dựa vào các chiến lược khởi tạo cụ thể có thể khiến người mới gặp khó khăn hơn trong việc thích nghi với các tập dữ liệu tùy chỉnh mà không cần thử nghiệm rộng rãi.

Ultralytics Tích hợp nền tảng

Ultralytics Các mô hình tích hợp liền mạch với Nền tảng Ultralytics (trước đây là HUB). Công cụ dựa trên web này cho phép bạn trực quan hóa các tập dữ liệu, giám sát quá trình huấn luyện trong thời gian thực và triển khai các mô hình. iOS , Android hoặc các thiết bị biên chỉ với một cú nhấp chuột—các tính năng giúp đơn giản hóa đáng kể vòng đời học máy so với các kho lưu trữ truyền thống.

2. Tính linh hoạt của tác vụ

Một yếu tố khác biệt quan trọng là phạm vi các tác vụ được hỗ trợ trực tiếp.

YOLOv8 Đây là một khung làm việc đa nhiệm. Nó hỗ trợ:
- Phát Hiện Đối Tượng
- Phân đoạn đối tượng (che mặt nạ ở cấp độ pixel)
- Ước lượng tư thế (phát hiện điểm mấu chốt)
- Hộp giới hạn định hướng (OBB) (dành cho các đối tượng trên không hoặc xoay)
- Phân loại hình ảnh
YOLOv6 -3.0 chủ yếu được thiết kế cho việc phát hiện đối tượng tiêu chuẩn. Mặc dù đã có các phiên bản thử nghiệm cho các tác vụ khác, nhưng sự hỗ trợ hệ sinh thái và tài liệu cho chúng không toàn diện bằng những gì có sẵn cho các tác vụ khác. YOLOv8 .

3. Triển khai và Xuất khẩu

Cả hai mô hình đều hỗ trợ xuất sang định dạng ONNX và TensorRT . Tuy nhiên, Ultralytics Quy trình xuất dữ liệu mạnh mẽ hơn đáng kể, tự động xử lý các vấn đề phức tạp liên quan đến hỗ trợ người vận hành và các trục động.

Ví dụ, xuất một YOLOv8 Việc chuyển đổi mô hình sang TensorFlow Lite để triển khai trên thiết bị di động là một tính năng tích hợp sẵn:

# Export YOLOv8 to TFLite format for Android/iOS
yolo export model=yolov8n.pt format=tflite

Tính dễ sử dụng này cũng áp dụng cho OpenVINO và CoreML , giúp việc sử dụng trở nên dễ dàng hơn. YOLOv8 Một lựa chọn vượt trội cho việc triển khai đa nền tảng.

Chuẩn bị cho tương lai: Lý do nên chọn YOLO26

Trong khi YOLOv8 Và YOLOv6 -3.0 vẫn là những công cụ mạnh mẽ, lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics YOLO26 đại diện cho đỉnh cao về hiệu quả và hiệu suất.

Ra mắt vào tháng 1 năm 2026, YOLO26 được xây dựng dựa trên những thế mạnh của... YOLOv8 nhưng mang đến những thay đổi mang tính cách mạng:

Giải pháp NMS từ đầu đến cuối - Không cần thiết: Bằng cách loại bỏ nhu cầu sử dụng Non-Maximum Suppression ( NMS ) , YOLO26 giảm độ trễ suy luận và đơn giản hóa quy trình triển khai.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa này đảm bảo sự hội tụ nhanh hơn và tính ổn định cao hơn trong quá trình huấn luyện.
Tối ưu hóa trên thiết bị biên: Bằng cách loại bỏ hàm mất mát tiêu điểm phân phối (DFL) , YOLO26 đạt được tốc độ suy luận nhanh hơn tới 43% trên CPU , khắc phục một hạn chế quan trọng của các mô hình độ chính xác cao trước đây.
Các hàm mất mát được cải tiến: Việc tích hợp ProgLoss và STAL giúp cải thiện đáng kể khả năng phát hiện các vật thể nhỏ, một yêu cầu quan trọng đối với hình ảnh từ máy bay không người lái và cảm biến IoT.

Tìm hiểu thêm về YOLO26

Kết luận

YOLOv6 -3.0 đóng vai trò là một chuẩn mực ấn tượng cho GPU Hiệu suất xử lý trong môi trường công nghiệp, đặc biệt là đối với các tác vụ phát hiện tiêu chuẩn nơi phần cứng cố định. Tuy nhiên, đối với phần lớn các nhà phát triển và nhà nghiên cứu, Ultralytics YOLOv8 mang đến trải nghiệm cân bằng, linh hoạt và thân thiện với người dùng hơn. Khả năng hỗ trợ phân đoạn, tư thế và OBB, kết hợp với khả năng xử lý mạnh mẽ. Ultralytics Hệ sinh thái này khiến nó trở thành một khoản đầu tư dài hạn an toàn hơn.

Đối với những ai tìm kiếm công nghệ tiên tiến nhất, chúng tôi khuyên bạn nên chuyển sang YOLO26 , sự kết hợp giữa tính linh hoạt của v8 với hiệu quả kiến trúc thế hệ tiếp theo.

Đọc thêm

Khám phá các mẫu khác trong Ultralytics gia đình:

YOLO11 : Phiên bản tiền nhiệm mạnh mẽ của YOLO26.
YOLOv9 : Nổi tiếng với khả năng lập trình thông tin độ dốc (Programmable Gradient Information - PGI).
YOLOv10 : Người tiên phong của NMS - cách tiếp cận miễn phí.