YOLOv6 -3.0 so với YOLOv7 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực

Sự phát triển của thị giác máy tính thời gian thực được đánh dấu bằng những tiến bộ nhanh chóng về hiệu quả kiến trúc và phương pháp huấn luyện. Hai mô hình nổi bật có tác động đáng kể đến lĩnh vực này là YOLOv6 và YOLOv7 . Cả hai framework đều giới thiệu các kỹ thuật mới để cân bằng tốc độ suy luận với độ chính xác phát hiện, nhắm đến các triển khai từ GPU máy chủ cao cấp đến các thiết bị biên.

Bản so sánh kỹ thuật toàn diện này sẽ khám phá kiến trúc, các chỉ số hiệu năng và các trường hợp sử dụng lý tưởng của chúng, đồng thời nêu bật cách Nền tảng Ultralytics hiện đại và mô hình YOLO26 mới nhất xây dựng dựa trên những khái niệm nền tảng này để mang lại trải nghiệm phát triển vượt trội.

YOLOv6 -3.0: Tối ưu hóa năng suất công nghiệp

Được phát triển bởi bộ phận Trí tuệ nhân tạo thị giác tại Meituan , YOLOv6 - Phiên bản 3.0 được thiết kế đặc biệt cho các ứng dụng công nghiệp có thông lượng cao. Nó tập trung mạnh vào việc tối đa hóa hiệu năng trên các bộ tăng tốc phần cứng, khiến nó trở thành lựa chọn lý tưởng cho các môi trường mà việc xử lý hàng loạt trên GPU chuyên dụng là khả thi.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 13/01/2023
Arxiv: 2301.05586
GitHub: meituan/ YOLOv6

Đổi mới Kiến trúc

YOLOv6 -3.0 dựa trên kiến trúc EfficientRep , một kiến trúc thân thiện với phần cứng được thiết kế để tối ưu hóa chi phí truy cập bộ nhớ trên GPU. Để tăng cường khả năng kết hợp các đặc trưng trên các quy mô khác nhau, mô hình giới thiệu mô-đun Nối hai chiều (Bi-directional Concatenation - BiC) ở phần cổ. Điều này cho phép mạng lưới nắm bắt các hệ thống phân cấp không gian phức tạp hiệu quả hơn so với các phiên bản trước.

Hơn nữa, YOLOv6 -3.0 triển khai chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) . Phương pháp này kết hợp các tín hiệu gradient phong phú của huấn luyện dựa trên neo với lợi ích triển khai được tối ưu hóa của suy luận không dựa trên neo, giúp mô hình hội tụ ổn định hơn mà không làm giảm tốc độ xử lý hậu kỳ.

Tìm hiểu thêm về YOLOv6

Cân nhắc về phần cứng

Trong khi YOLOv6 -3.0 hoạt động xuất sắc trên các GPU cấp máy chủ (như NVIDIA T4 ), việc phụ thuộc nhiều vào việc tái tham số cấu trúc cụ thể đôi khi có thể dẫn đến độ trễ không tối ưu trên các tác vụ đòi hỏi cấu hình cao. CPU - Các thiết bị biên bị giới hạn bởi các kiến trúc mới hơn.

YOLOv7 Người tiên phong trong việc chia sẻ túi quà miễn phí

Được công bố bởi các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc . YOLOv7 Họ đã áp dụng một cách tiếp cận khác bằng cách tập trung mạnh vào phân tích đường dẫn gradient và tối ưu hóa trong quá trình huấn luyện mà không làm tăng chi phí suy luận — một khái niệm mà các tác giả gọi là "túi quà tặng miễn phí có thể huấn luyện được".

Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: 2207.02696
GitHub: WongKinYiu/yolov7

Đổi mới Kiến trúc

Cốt lõi của YOLOv7 Điểm nổi bật của mô hình này là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . E-ELAN tối ưu hóa đường dẫn gradient bằng cách cho phép các lớp khác nhau học được nhiều đặc điểm đa dạng hơn mà không làm gián đoạn cấu trúc mạng ban đầu. Điều này tạo ra một mô hình có khả năng biểu đạt cao, đạt được độ chính xác trung bình ( mAP ) hàng đầu.

YOLOv7 Ngoài ra, mô hình này còn tận dụng tối đa việc tái tham số hóa, kết hợp các lớp tích chập với chuẩn hóa theo lô trong quá trình suy luận. Điều này giúp giảm số lượng tham số và tăng tốc quá trình truyền tiến khi được triển khai bằng các framework như NVIDIA TensorRT hoặc ONNX .

Tìm hiểu thêm về YOLOv7

So sánh hiệu suất

Khi đánh giá các mô hình này trên tập dữ liệu MS COCO , chúng tôi nhận thấy sự đánh đổi rõ rệt giữa các biến thể siêu nhẹ của YOLOv6 và các tham số phức tạp, tập trung vào độ chính xác. YOLOv7 kiến trúc.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Dữ liệu cho thấy rằng YOLOv6 -3.0n cung cấp tốc độ suy luận vượt trội, phù hợp cho phân tích video tần số cao. Ngược lại, YOLOv7x đạt được tốc độ cao nhất. mAP , chiếm ưu thế trong các tác vụ mà độ chính xác phát hiện quan trọng hơn tốc độ khung hình thô.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv6 Và YOLOv7 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv6

YOLOv6 là một lựa chọn tốt cho:

Triển khai có nhận thức về phần cứng công nghiệp: Các kịch bản trong đó thiết kế có nhận thức về phần cứng của mô hình và việc tái tham số hiệu quả cung cấp hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
Phát hiện nhanh chóng trong một giai đoạn duy nhất: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU Dùng để xử lý video thời gian thực trong môi trường được kiểm soát.
Tích hợp hệ sinh thái Meituan: Các nhóm hiện đang làm việc trong hệ sinh thái công nghệ và cơ sở hạ tầng triển khai của Meituan .

Khi nào nên chọn YOLOv7

YOLOv7 được khuyến nghị cho:

So sánh hiệu quả học tập: Tái tạo các kết quả tiên tiến nhất thời kỳ năm 2022 hoặc nghiên cứu tác động của E-ELAN và các kỹ thuật "túi quà tặng miễn phí" có thể huấn luyện được.
Nghiên cứu về tái tham số hóa: Điều tra các phép tích chập tái tham số hóa theo kế hoạch và các chiến lược mở rộng mô hình phức hợp.
Các quy trình tùy chỉnh hiện có: Các dự án với các quy trình được tùy chỉnh cao được xây dựng dựa trên... YOLOv7 Kiến trúc đặc thù của nó không dễ dàng để chỉnh sửa lại.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Cái Ultralytics Ưu điểm: Bước vào tương lai

Trong khi YOLOv6 -3.0 và YOLOv7 Đại diện cho những cột mốc quan trọng, việc tích hợp các kho lưu trữ khác nhau vào quy trình sản xuất thường đặt ra thách thức trong việc triển khai mô hình và tinh chỉnh siêu tham số. Hệ sinh thái Ultralytics giải quyết những khó khăn này bằng cách cung cấp một giao diện thống nhất, được đơn giản hóa.

Tại sao chọn Ultralytics?

Dễ sử dụng: Ultralytics Python API cho phép các nhà phát triển tải, huấn luyện và xuất mô hình chỉ với một vài dòng mã. Việc chuyển đổi từ mô hình cũ sang kiến trúc mới nhất chỉ cần thay đổi một chuỗi ký tự duy nhất.
Hệ sinh thái được duy trì tốt: Ultralytics Cung cấp các bản cập nhật thường xuyên, hỗ trợ cộng đồng tích cực và tài liệu đầy đủ.
Tính linh hoạt: Không giống như các mô hình trước đây chủ yếu tập trung vào các hộp giới hạn, Ultralytics Các mô hình hỗ trợ sẵn khả năng học đa nhiệm, bao gồm phân đoạn đối tượng , ước lượng tư thế và hộp giới hạn định hướng (OBB) .
Yêu cầu bộ nhớ: Ultralytics YOLO Các mô hình này duy trì mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện so với các kiến trúc dựa trên Transformer như RT-DETR , cho phép các nhà nghiên cứu huấn luyện hiệu quả trên phần cứng cấp độ người tiêu dùng.

Nâng cấp lên YOLO26

Đối với các nhà phát triển đang tìm kiếm hiệu năng tối ưu, YOLO26 (phát hành tháng 1 năm 2026) đã thay đổi hoàn toàn mô hình phát hiện đối tượng . Nó giới thiệu thiết kế hoàn toàn không cần hệ quản lý mạng NMS từ đầu đến cuối , loại bỏ logic xử lý hậu kỳ phức tạp và giảm đáng kể sự biến đổi độ trễ trên các thiết bị biên.

Những cải tiến chính trong YOLO26 bao gồm:

MuSGD Optimizer: Một sự kết hợp tinh vi của... SGD và Muon, điều này đảm bảo động lực huấn luyện cực kỳ ổn định và sự hội tụ nhanh hơn.
Loại bỏ DFL: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân phối (Distribution Focal Loss), YOLO26 đơn giản hóa khả năng tương thích xuất khẩu và tăng hiệu suất trên các thiết bị công suất thấp.
ProgLoss + STAL: Các hàm mất mát nâng cao mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ.
Tốc độ vượt trội: Đạt hiệu suất nhanh hơn tới 43% CPU So với các thế hệ trước, khả năng suy luận của nó rất tốt, khiến nó trở nên hoàn hảo cho các hệ thống nhúng như Raspberry Pi hoặc các triển khai Apple CoreML .

Các mô hình khác có khả năng cao trong hệ sinh thái này bao gồm YOLO11 và YOLOv8 , cả hai đều cung cấp sự cân bằng hiệu năng tuyệt vời cho việc tích hợp phần cứng cũ.

Đảm bảo tính bền vững cho hệ thống của bạn trong tương lai.

Bằng cách xây dựng các ứng dụng thị giác máy tính của bạn trên Nền tảng Ultralytics , bạn đảm bảo có quyền truy cập ngay lập tức vào các mô hình tiên tiến nhất trong tương lai mà không cần phải viết lại trình tải dữ liệu hoặc tập lệnh triển khai của mình.

Ví dụ mã: Đào tạo được tối ưu hóa

Đoạn mã sau minh họa cách bạn có thể dễ dàng huấn luyện một mô hình YOLO26 hiện đại bằng cách sử dụng... Ultralytics API. Quy trình làm việc chính xác này áp dụng một cách liền mạch cho YOLO11 hoặc YOLOv8 Loại bỏ phần mã lặp đi lặp lại thường thấy trong các kho lưu trữ cũ hơn.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model for rapid training
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The API handles dataset downloading, augmentation, and hyperparameter configuration
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cuda:0",  # Automatically utilizes PyTorch GPU acceleration
)

# Run an end-to-end, NMS-free inference on a test image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for cross-platform deployment
model.export(format="onnx")

Kết luận

YOLOv6 -3.0 và YOLOv7 Đã giải quyết thành công nhiều khía cạnh khác nhau của thách thức phát hiện thời gian thực. YOLOv6 -3.0 là một cỗ máy mạnh mẽ dành cho ngành công nghiệp chuyên biệt. GPU môi trường, trong khi YOLOv7 Cung cấp độ chính xác cao thông qua việc tối ưu hóa đường dẫn gradient một cách nghiêm ngặt.

Tuy nhiên, đối với các ứng dụng hiện đại đòi hỏi tính linh hoạt vượt trội, khả năng triển khai tối thiểu và hiệu năng hàng đầu, Ultralytics YOLO26 là sự lựa chọn tối ưu. NMS - Kiến trúc tự do, trình tối ưu hóa MuSGD tiên tiến và tích hợp sâu với... Ultralytics Nền tảng này đảm bảo các nhà phát triển có thể triển khai các giải pháp AI thị giác mạnh mẽ, có khả năng mở rộng nhanh hơn bao giờ hết.

YOLOv6 -3.0 so với YOLOv7 Điều hướng các kiến ​​trúc phát hiện đối tượng thời gian thực

YOLOv6 -3.0: Tối ưu hóa năng suất công nghiệp

Đổi mới Kiến trúc

YOLOv7 Người tiên phong trong việc chia sẻ túi quà miễn phí

Đổi mới Kiến trúc

So sánh hiệu suất

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn YOLOv6

Khi nào nên chọn YOLOv7

Khi nào nên lựa chọn Ultralytics (YOLO26)

Cái Ultralytics Ưu điểm: Bước vào tương lai

Tại sao chọn Ultralytics?

Nâng cấp lên YOLO26

Ví dụ mã: Đào tạo được tối ưu hóa

Kết luận

Bình luận

YOLOv6 -3.0 so với YOLOv7 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực