YOLOv6 -3.0 so với YOLOv8 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của dự án. Bài so sánh này khám phá hai cột mốc quan trọng trong lĩnh vực này. YOLO Nguồn gốc: YOLOv6 , một bộ dò mạnh mẽ được tối ưu hóa cho các ứng dụng công nghiệp, và Ultralytics YOLOv8 , một mô hình tiên tiến được thiết kế cho tính linh hoạt, dễ sử dụng và hiệu suất cao trên nhiều loại phần cứng. Chúng tôi phân tích kiến trúc, số liệu hiệu suất và phương pháp huấn luyện của chúng để giúp bạn quyết định mô hình nào phù hợp nhất với nhu cầu triển khai của mình.

So sánh Các chỉ số Hiệu suất

Bảng sau đây nêu bật các chỉ số hiệu suất chính của cả hai mô hình. YOLOv8 thể hiện sự cân bằng vượt trội giữa độ chính xác và tốc độ, đặc biệt là ở các mô hình có kích thước trung bình đến lớn, đồng thời vẫn duy trì số lượng tham số cạnh tranh.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

YOLOv6 -3.0: Độ chính xác cấp công nghiệp

YOLOv6 -3.0 , được Meituan phát hành vào tháng 1 năm 2023, được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi các hạn chế về phần cứng và thông lượng là tối quan trọng. Nó giới thiệu một số cải tiến kiến trúc nhằm tối đa hóa tốc độ suy luận trên các GPU chuyên dụng như... NVIDIA Tesla T4.

Các tính năng kiến trúc chính

Kiến trúc mạng có thể tái tham số hóa: Sử dụng kiến trúc mạng kiểu VGG, hiệu quả trong quá trình suy luận nhưng có thể phức tạp trong quá trình huấn luyện. Phương pháp "RepVGG" này cho phép hợp nhất nhiều nhánh trong quá trình xuất dữ liệu.
Kết hợp hai chiều: Tăng cường sự lan truyền đặc điểm trên các tỷ lệ khác nhau, cải thiện khả năng phát hiện các đối tượng có kích thước khác nhau.
Huấn luyện có hỗ trợ neo: Sử dụng chiến lược huấn luyện có hỗ trợ neo (AAT) để ổn định sự hội tụ mà không làm mất đi tính linh hoạt của suy luận không có neo.

Điểm mạnh:

Thông lượng cao: Cực kỳ nhanh trên GPU phần cứng nhờ thiết kế khung xương thân thiện với phần cứng.
Hỗ trợ lượng tử hóa: Tập trung mạnh vào lượng tử hóa sau huấn luyện (PTQ) và huấn luyện có nhận thức về lượng tử hóa (QAT) để triển khai.

Điểm yếu:

Hỗ trợ tác vụ hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, thiếu hỗ trợ gốc cho phân đoạn hoặc ước lượng tư thế.
Quá trình huấn luyện phức tạp: Quá trình tái tham số hóa làm tăng độ phức tạp cho quy trình huấn luyện và xuất dữ liệu.

Tìm hiểu thêm về YOLOv6

Ultralytics YOLOv8: Tiêu chuẩn Đa năng

Ultralytics YOLOv8 , được ra mắt chỉ vài ngày trước đó. YOLOv6 -3.0, đánh dấu một bước tiến đáng kể về khả năng sử dụng và tính linh hoạt. Nó được thiết kế không chỉ như một mô hình, mà còn như một nền tảng cho nhiều tác vụ thị giác máy tính khác nhau. YOLOv8 Từ bỏ phương pháp phát hiện dựa trên điểm neo để chuyển sang phương pháp không dựa trên điểm neo, đơn giản hóa kiến trúc mô hình và cải thiện khả năng khái quát hóa.

Đổi mới Kiến trúc

Phát hiện không cần Anchor: Loại bỏ nhu cầu cấu hình hộp neo thủ công, giảm thiểu việc tinh chỉnh siêu tham số và cải thiện hiệu suất trên các tập dữ liệu đa dạng.
Mô-đun C2f: Một nút thắt cổ chai một phần đa giai đoạn với hai phép tích chập giúp cải thiện luồng gradient và giảm kích thước mô hình trong khi vẫn duy trì độ chính xác.
Phân tách đầu xử lý: tách biệt nhiệm vụ phân loại và hồi quy, cho phép mỗi nhánh tập trung vào mục tiêu cụ thể của mình để đạt độ chính xác cao hơn.

Ưu điểm của YOLOv8

Tính linh hoạt: Hỗ trợ nguyên bản các chức năng phát hiện đối tượng , phân đoạn đối tượng , ước lượng tư thế , phân loại và hộp giới hạn định hướng (OBB) .
Dễ sử dụng: API Python Ultralytics cho phép huấn luyện, xác thực và triển khai chỉ với một vài dòng mã.
Hiệu quả huấn luyện: Được tối ưu hóa để huấn luyện nhanh trên GPU cấp độ người tiêu dùng với yêu cầu bộ nhớ thấp hơn so với nhiều giải pháp thay thế dựa trên Transformer.
Hệ sinh thái: Được hỗ trợ bởi hệ sinh thái mạnh mẽ Ultralytics , bao gồm khả năng tích hợp liền mạch với các công cụ như Ultralytics Platform và Comet ML .

Tìm hiểu thêm về YOLOv8

Quy trình làm việc tinh gọn

Đào tạo một YOLOv8 Mô hình này vô cùng đơn giản. Đoạn mã sau đây minh họa cách tải một mô hình đã được huấn luyện trước và bắt đầu huấn luyện trên một tập dữ liệu tùy chỉnh:

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Phân tích so sánh: Các trường hợp sử dụng và triển khai

Khi lựa chọn giữa hai kiến trúc mạnh mẽ này, quyết định thường phụ thuộc vào các yêu cầu cụ thể của môi trường triển khai và phạm vi các tác vụ bạn cần thực hiện.

Các ứng dụng thực tế

YOLOv6 -3.0 nổi bật ở các khía cạnh sau:

Kiểm tra công nghiệp tốc độ cao: Lý tưởng cho các dây chuyền sản xuất sử dụng GPU chuyên dụng, nơi mỗi mili giây đều rất quan trọng.
Triển khai phần cứng cố định: Các trường hợp phần cứng đã được xác định và tối ưu hóa cụ thể (ví dụ: NVIDIA (Máy chủ T4).

Ultralytics YOLOv8 vượt trội ở các khía cạnh sau:

AI biên và thiết bị di động: Kiến trúc hiệu quả của mô hình và khả năng xuất dễ dàng sang TFLite và CoreML khiến nó trở nên hoàn hảo cho... iOS Và Android ứng dụng.
Robot và Hệ thống Tự hành: Khả năng xử lý đồng thời nhiều tác vụ như phân đoạn và ước lượng tư thế giúp robot có được sự hiểu biết môi trường phong phú hơn.
Tạo mẫu nhanh: Tính dễ sử dụng và tài liệu hướng dẫn đầy đủ cho phép các nhà phát triển nhanh chóng thử nghiệm và đưa sản phẩm ra thị trường sớm hơn.

Bảo vệ dự án của bạn trong tương lai

Mặc dù cả hai mô hình đều xuất sắc, nhưng lĩnh vực trí tuệ nhân tạo phát triển với tốc độ chóng mặt. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, những người yêu cầu hiệu năng và hiệu quả tiên tiến nhất, Ultralytics Tôi khuyên bạn nên xem xét YOLO26 .

YOLO26 được xây dựng dựa trên sự thành công của... YOLOv8 với một số tính năng đột phá:

Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ hiện tượng ức chế tối đa không cần thiết (Non-Maximum Suppression) NMS ), YOLO26 đơn giản hóa quá trình triển khai và giảm thiểu sự biến động độ trễ.
Bộ tối ưu MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu này đảm bảo sự hội tụ ổn định.
Tăng cường hiệu năng xử lý tại biên: Tốc độ suy luận CPU nhanh hơn tới 43% , rất quan trọng đối với các thiết bị chạy bằng pin.
Tính đặc thù của nhiệm vụ: Các hàm mất mát chuyên dụng như ProgLoss và STAL cải thiện đáng kể khả năng phát hiện vật thể nhỏ.

Tìm hiểu thêm về YOLO26

Kết luận

Cả YOLOv6 -3.0 và YOLOv8 đều đại diện cho những cột mốc quan trọng trong lịch sử phát hiện đối tượng. YOLOv6 -3.0 cung cấp giải pháp chuyên biệt cho các ứng dụng công nghiệp năng suất cao. GPU Tuy nhiên, đối với phần lớn người dùng, Ultralytics YOLOv8 (và phiên bản mới hơn YOLO26 ) mang lại trải nghiệm vượt trội nhờ tính linh hoạt, dễ sử dụng và hỗ trợ toàn diện các tác vụ. Khả năng chuyển đổi liền mạch giữa phát hiện, phân đoạn và ước tính tư thế trong cùng một khung phần mềm giúp giảm đáng kể chi phí phát triển và đẩy nhanh thời gian đạt được giá trị.

Các nhà phát triển quan tâm đến các kiến trúc khác cũng có thể tìm hiểu YOLOv9 vì thông tin về độ dốc có thể lập trình được hoặc YOLO -World vì khả năng phát hiện từ vựng mở.

Chi tiết

YOLOv6-3.0

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv:2301.05586
GitHub: Meituan/ YOLOv6

YOLOv8

Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2023-01-10
Tài liệu:Tài liệu YOLOv8
GitHub: Ultralytics / Ultralytics