YOLOv6 -3.0 so với YOLOv7 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực
Sự phát triển của thị giác máy tính thời gian thực được đánh dấu bằng những tiến bộ nhanh chóng về hiệu quả kiến trúc và phương pháp huấn luyện. Hai mô hình nổi bật có tác động đáng kể đến lĩnh vực này là YOLOv6 và YOLOv7 . Cả hai framework đều giới thiệu các kỹ thuật mới để cân bằng tốc độ suy luận với độ chính xác phát hiện, nhắm đến các triển khai từ GPU máy chủ cao cấp đến các thiết bị biên.
Bản so sánh kỹ thuật toàn diện này sẽ khám phá kiến trúc, các chỉ số hiệu năng và các trường hợp sử dụng lý tưởng của chúng, đồng thời nêu bật cách Nền tảng Ultralytics hiện đại và mô hình YOLO26 mới nhất xây dựng dựa trên những khái niệm nền tảng này để mang lại trải nghiệm phát triển vượt trội.
YOLOv6 -3.0: Tối ưu hóa năng suất công nghiệp
Được phát triển bởi Bộ phận AI Thị giác tại Meituan, YOLOv6-3.0 được thiết kế rõ ràng cho các ứng dụng công nghiệp có thông lượng cao. Nó tập trung mạnh vào việc tối đa hóa hiệu suất trên các bộ tăng tốc phần cứng, biến nó thành một ứng cử viên sáng giá cho các môi trường mà xử lý hàng loạt trên GPU chuyên dụng là khả thi.
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
- Tổ chức: Meituan
- Ngày: 13-01-2023
- Arxiv: 2301.05586
- GitHub: meituan/ YOLOv6
Đổi mới Kiến trúc
YOLOv6 -3.0 dựa trên kiến trúc EfficientRep , một kiến trúc thân thiện với phần cứng được thiết kế để tối ưu hóa chi phí truy cập bộ nhớ trên GPU. Để tăng cường khả năng kết hợp các đặc trưng trên các quy mô khác nhau, mô hình giới thiệu mô-đun Nối hai chiều (Bi-directional Concatenation - BiC) ở phần cổ. Điều này cho phép mạng lưới nắm bắt các hệ thống phân cấp không gian phức tạp hiệu quả hơn so với các phiên bản trước.
Hơn nữa, YOLOv6 -3.0 triển khai chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) . Phương pháp này kết hợp các tín hiệu gradient phong phú của huấn luyện dựa trên neo với lợi ích triển khai được tối ưu hóa của suy luận không dựa trên neo, giúp mô hình hội tụ ổn định hơn mà không làm giảm tốc độ xử lý hậu kỳ.
Cân nhắc về phần cứng
Trong khi YOLOv6 -3.0 hoạt động xuất sắc trên các GPU cấp máy chủ (như NVIDIA T4 ), việc phụ thuộc nhiều vào việc tái tham số cấu trúc cụ thể đôi khi có thể dẫn đến độ trễ không tối ưu trên các tác vụ đòi hỏi cấu hình cao. CPU - Các thiết bị biên bị giới hạn bởi các kiến trúc mới hơn.
YOLOv7 Người tiên phong trong việc chia sẻ túi quà miễn phí
Được công bố bởi các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc . YOLOv7 Họ đã áp dụng một cách tiếp cận khác bằng cách tập trung mạnh vào phân tích đường dẫn gradient và tối ưu hóa trong quá trình huấn luyện mà không làm tăng chi phí suy luận — một khái niệm mà các tác giả gọi là "túi quà tặng miễn phí có thể huấn luyện được".
- Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
- Ngày: 06/07/2022
- Arxiv: 2207.02696
- GitHub: WongKinYiu/yolov7
Đổi mới Kiến trúc
Cốt lõi của YOLOv7 Điểm nổi bật của mô hình này là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . E-ELAN tối ưu hóa đường dẫn gradient bằng cách cho phép các lớp khác nhau học được nhiều đặc điểm đa dạng hơn mà không làm gián đoạn cấu trúc mạng ban đầu. Điều này tạo ra một mô hình có khả năng biểu đạt cao, đạt được độ chính xác trung bình ( mAP ) hàng đầu.
YOLOv7 Ngoài ra, mô hình này còn tận dụng tối đa việc tái tham số hóa, kết hợp các lớp tích chập với chuẩn hóa theo lô trong quá trình suy luận. Điều này giúp giảm số lượng tham số và tăng tốc quá trình truyền tiến khi được triển khai bằng các framework như NVIDIA TensorRT hoặc ONNX .
So sánh hiệu suất
Khi đánh giá các mô hình này trên tập dữ liệu MS COCO , chúng tôi nhận thấy sự đánh đổi rõ rệt giữa các biến thể siêu nhẹ của YOLOv6 và các tham số phức tạp, tập trung vào độ chính xác. YOLOv7 kiến trúc.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Dữ liệu cho thấy rằng YOLOv6 -3.0n cung cấp tốc độ suy luận vượt trội, phù hợp cho phân tích video tần số cao. Ngược lại, YOLOv7x đạt được tốc độ cao nhất. mAP , chiếm ưu thế trong các tác vụ mà độ chính xác phát hiện quan trọng hơn tốc độ khung hình thô.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOv6 và YOLOv7 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOv6
YOLOv6 là một lựa chọn tốt cho:
- Triển khai công nghiệp nhận biết phần cứng: Các kịch bản mà thiết kế nhận biết phần cứng và tái tham số hóa hiệu quả của mô hình mang lại hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
- Phát hiện một giai đoạn nhanh: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU để xử lý video thời gian thực trong môi trường được kiểm soát.
- Tích hợp hệ sinh thái Meituan: Các nhóm đã làm việc trong ngăn xếp công nghệ và cơ sở hạ tầng triển khai của Meituan.
Khi nào nên chọn YOLOv7
YOLOv7 được khuyến nghị cho:
- Academic Benchmarking: Tái tạo các kết quả tiên tiến nhất từ kỷ nguyên 2022 hoặc nghiên cứu ảnh hưởng của E-ELAN và các kỹ thuật bag-of-freebies có thể huấn luyện.
- Nghiên cứu tái tham số hóa: Nghiên cứu các phép tích chập được tái tham số hóa theo kế hoạch và các chiến lược mở rộng mô hình phức hợp.
- Các pipeline tùy chỉnh hiện có: Các dự án với các pipeline tùy chỉnh cao được xây dựng xung quanh kiến trúc cụ thể của YOLOv7 mà không thể dễ dàng tái cấu trúc.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Cái Ultralytics Ưu điểm: Bước vào tương lai
Trong khi YOLOv6 -3.0 và YOLOv7 Đại diện cho những cột mốc quan trọng, việc tích hợp các kho lưu trữ khác nhau vào quy trình sản xuất thường đặt ra thách thức trong việc triển khai mô hình và tinh chỉnh siêu tham số. Hệ sinh thái Ultralytics giải quyết những khó khăn này bằng cách cung cấp một giao diện thống nhất, được đơn giản hóa.
Tại sao chọn Ultralytics?
- Dễ sử dụng: API Python của Ultralytics cho phép các nhà phát triển tải, huấn luyện và xuất mô hình chỉ với vài dòng mã. Chuyển đổi từ một mô hình cũ sang kiến trúc mới nhất chỉ cần thay đổi một chuỗi duy nhất.
- Hệ sinh thái được duy trì tốt: Ultralytics cung cấp các bản cập nhật thường xuyên, sự hỗ trợ tích cực từ cộng đồng và tài liệu mạnh mẽ.
- Tính linh hoạt: Không giống như các mô hình trước đây chủ yếu tập trung vào hộp giới hạn, các mô hình Ultralytics hỗ trợ tự nhiên học đa tác vụ, bao gồm phân đoạn đối tượng, ước tính tư thế và hộp giới hạn định hướng (OBB).
- Yêu cầu bộ nhớ: Các mô hình Ultralytics YOLO duy trì mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện so với các kiến trúc dựa trên transformer như RT-DETR, cho phép các nhà nghiên cứu huấn luyện hiệu quả trên phần cứng phổ thông.
Nâng cấp lên YOLO26
Đối với các nhà phát triển đang tìm kiếm hiệu năng tối ưu, YOLO26 (phát hành tháng 1 năm 2026) đã thay đổi hoàn toàn mô hình phát hiện đối tượng . Nó giới thiệu thiết kế hoàn toàn không cần hệ quản lý mạng NMS từ đầu đến cuối , loại bỏ logic xử lý hậu kỳ phức tạp và giảm đáng kể sự biến đổi độ trễ trên các thiết bị biên.
Những cải tiến chính trong YOLO26 bao gồm:
- Trình tối ưu hóa MuSGD: Một sự kết hợp lai tinh vi giữa SGD và Muon, đảm bảo động lực huấn luyện cực kỳ ổn định và hội tụ nhanh hơn.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa khả năng tương thích xuất và tăng hiệu suất trên các thiết bị công suất thấp.
- ProgLoss + STAL: Các hàm mất mát tiên tiến mang lại những cải tiến đáng kể trong nhận diện vật thể nhỏ.
- Tốc độ vô song: Đạt tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, biến nó thành hoàn hảo cho các hệ thống nhúng như Raspberry Pi hoặc triển khai Apple CoreML.
Các mô hình khác có khả năng cao trong hệ sinh thái này bao gồm YOLO11 và YOLOv8 , cả hai đều cung cấp sự cân bằng hiệu năng tuyệt vời cho việc tích hợp phần cứng cũ.
Đảm bảo tính bền vững cho hệ thống của bạn trong tương lai.
Bằng cách xây dựng các ứng dụng thị giác máy tính của bạn trên Nền tảng Ultralytics, bạn đảm bảo quyền truy cập tức thì vào các mô hình tiên tiến trong tương lai mà không cần viết lại các bộ tải tập dữ liệu hoặc script triển khai của bạn.
Ví dụ mã: Huấn luyện tinh gọn
Đoạn mã sau minh họa cách bạn có thể dễ dàng huấn luyện một mô hình YOLO26 hiện đại bằng cách sử dụng... Ultralytics API. Quy trình làm việc chính xác này áp dụng một cách liền mạch cho YOLO11 hoặc YOLOv8 Loại bỏ phần mã lặp đi lặp lại thường thấy trong các kho lưu trữ cũ hơn.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model for rapid training
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The API handles dataset downloading, augmentation, and hyperparameter configuration
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device="cuda:0", # Automatically utilizes PyTorch GPU acceleration
)
# Run an end-to-end, NMS-free inference on a test image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for cross-platform deployment
model.export(format="onnx")
Kết luận
YOLOv6 -3.0 và YOLOv7 Đã giải quyết thành công nhiều khía cạnh khác nhau của thách thức phát hiện thời gian thực. YOLOv6 -3.0 là một cỗ máy mạnh mẽ dành cho ngành công nghiệp chuyên biệt. GPU môi trường, trong khi YOLOv7 Cung cấp độ chính xác cao thông qua việc tối ưu hóa đường dẫn gradient một cách nghiêm ngặt.
Tuy nhiên, đối với các ứng dụng hiện đại đòi hỏi tính linh hoạt vượt trội, khả năng triển khai tối thiểu và hiệu năng hàng đầu, Ultralytics YOLO26 là sự lựa chọn tối ưu. NMS - Kiến trúc tự do, trình tối ưu hóa MuSGD tiên tiến và tích hợp sâu với... Ultralytics Nền tảng này đảm bảo các nhà phát triển có thể triển khai các giải pháp AI thị giác mạnh mẽ, có khả năng mở rộng nhanh hơn bao giờ hết.