Chuyển đến nội dung

YOLOv7 so với YOLOv6 -3.0: So sánh kỹ thuật toàn diện

Lĩnh vực thị giác máy tính không ngừng phát triển, với các mô hình phát hiện đối tượng mới liên tục vượt qua giới hạn về tốc độ và độ chính xác. Hai cột mốc quan trọng trong hành trình này là YOLOv7 Và YOLOv6 -3.0. Cả hai mô hình đều giới thiệu những cải tiến kiến ​​trúc độc đáo được thiết kế để tối đa hóa thông lượng và độ chính xác cho các ứng dụng thực tế. Trang này cung cấp phân tích kỹ thuật chuyên sâu về cả hai kiến ​​trúc, so sánh hiệu năng, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án trí tuệ nhân tạo tiếp theo của mình.

YOLOv7 Người tiên phong trong việc chia sẻ túi quà miễn phí

Được phát hành vào giữa năm 2022, YOLOv7 Đã giới thiệu một số chiến lược đổi mới để tối ưu hóa kiến ​​trúc mạng mà không làm tăng chi phí suy luận. Nó tập trung mạnh vào "túi quà tặng miễn phí" có thể huấn luyện được để cải thiện độ chính xác trong khi vẫn duy trì hiệu suất thời gian thực.

Điểm nổi bật về kiến trúc

YOLOv7 Đặc điểm nổi bật của kiến ​​trúc này là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này cho phép mô hình học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát đường dẫn gradient ngắn nhất-dài nhất. Hơn nữa, YOLOv7 Phương pháp này sử dụng các kỹ thuật tái tham số hóa cấu trúc trong quá trình suy luận để hợp nhất các lớp tích chập, giúp giảm số lượng tham số và thời gian tính toán một cách hiệu quả mà không làm mất đi các biểu diễn đã học.

Mô hình này cũng có một chiến lược huấn luyện đầu phụ độc đáo. Bằng cách sử dụng "đầu chính" để đưa ra dự đoán cuối cùng và "đầu phụ" để hướng dẫn quá trình huấn luyện ở các lớp giữa, YOLOv7 Đạt được khả năng hội tụ tốt hơn và trích xuất đặc điểm phong phú hơn, đặc biệt có lợi khi giải quyết các nhiệm vụ phát hiện đối tượng phức tạp.

Tìm hiểu thêm về YOLOv7

YOLOv6 -3.0: Thông lượng cấp công nghiệp

Được phát triển bởi bộ phận Trí tuệ nhân tạo Thị giác của Meituan, YOLOv6 -3.0 được thiết kế rõ ràng như một "bộ dò vật thể thế hệ tiếp theo dành cho các ứng dụng công nghiệp". Được phát hành vào đầu năm 2023, nó tập trung mạnh vào việc tối đa hóa việc sử dụng phần cứng, đặc biệt là trên... NVIDIA GPU.

Điểm nổi bật về kiến trúc

YOLOv6 - Phiên bản 3.0 sử dụng kiến ​​trúc EfficientRep, được tối ưu hóa cao cho xử lý song song trên GPU. Điều này giúp nó hoạt động cực kỳ hiệu quả đối với xử lý hàng loạt quy mô lớn. Phiên bản 3.0 đã giới thiệu mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) ở phần cổ để tăng cường khả năng kết hợp đặc trưng trên các tỷ lệ khác nhau, cải thiện khả năng của mô hình. detect các vật thể có kích thước khác nhau.

Ngoài ra, YOLOv6 -3.0 sử dụng chiến lược Huấn luyện Hỗ trợ Neo (Anchor-Aided Training - AAT). Phương pháp tiên tiến này kết hợp lợi ích của huấn luyện dựa trên neo với suy luận không dựa trên neo, cho phép mô hình tận dụng tính ổn định của neo trong giai đoạn học tập đồng thời duy trì tốc độ và sự đơn giản của thiết kế không dựa trên neo trong quá trình triển khai.

Tìm hiểu thêm về YOLOv6

So sánh hiệu suất

Khi đánh giá các mô hình để sản xuất, cần cân bằng độ chính xác ( mAP Việc so sánh tốc độ suy luận và chi phí tính toán (FLOPs) là rất quan trọng. Dưới đây là bảng so sánh chi tiết các biến thể tiêu chuẩn của cả hai mô hình.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Cân nhắc về phần cứng

YOLOv6 -3.0 đặc biệt phù hợp cho thông lượng cao. GPU môi trường (như TensorRT ), trong khi YOLOv7 Cung cấp sự cân bằng mạnh mẽ cho các hệ thống ưu tiên cao việc giữ lại các tính năng.

Lợi thế của Ultralytics

Trong khi các kho lưu trữ độc lập dành cho YOLOv7 Và YOLOv6 -3.0 rất mạnh mẽ, tận dụng chúng trong phạm vi Hệ sinh thái Ultralytics Nó thay đổi trải nghiệm của nhà phát triển. ultralytics Python Gói phần mềm này chuẩn hóa các kiến ​​trúc đa dạng đó dưới một khuôn khổ trực quan duy nhất.

  • Dễ sử dụng: Thời đại của các kịch bản thiết lập phức tạp đã qua rồi. Ultralytics API cho phép bạn tải, huấn luyện và triển khai. YOLOv7 hoặc YOLOv6 Các mô hình với mã mẫu tối thiểu. Bạn có thể dễ dàng chuyển đổi giữa các kiến ​​trúc chỉ bằng cách thay đổi tệp trọng số mô hình.
  • Hệ sinh thái được duy trì tốt: Ultralytics Cung cấp một môi trường mạnh mẽ với các bản cập nhật thường xuyên, đảm bảo khả năng tương thích nguyên bản với các bản phân phối PyTorch mới nhất và CUDA các phiên bản.
  • Hiệu quả đào tạo: Các quy trình đào tạo được tối ưu hóa sâu sắc để tận dụng tối đa. GPU sử dụng nguồn lực một cách hiệu quả. Hơn nữa, Ultralytics YOLO Các mô hình này nhìn chung có yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình dựa trên transformer phức tạp (như RT-DETR ), cho phép kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng.
  • Tính linh hoạt: Ngoài khả năng phát hiện khung giới hạn tiêu chuẩn, Ultralytics Khung phần mềm hỗ trợ liền mạch các tác vụ nâng cao như ước lượng tư thếphân đoạn đối tượng trên các họ mô hình tương thích, một tính năng thường thiếu trong các kho lưu trữ nghiên cứu riêng lẻ.

Ví dụ mã: Huấn luyện và Suy luận

Tích hợp các mô hình này vào... Python Quy trình khá đơn giản. Hãy đảm bảo tập dữ liệu của bạn được định dạng chính xác (ví dụ: chuẩn COCO ) và chạy các lệnh sau:

from ultralytics import YOLO

# Load a pretrained YOLOv7 model (or 'yolov6n.pt' for YOLOv6)
model = YOLO("yolov7.pt")

# Train the model with built-in hyperparameter management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image URL or local path
predictions = model("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
predictions[0].show()

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLOv7

YOLOv7 Đặc biệt hiệu quả trong các tình huống đòi hỏi độ chính xác cao và trích xuất đặc điểm dày đặc.

  • Giám sát phức tạp: Khả năng lưu giữ các chi tiết nhỏ giúp nó phù hợp để giám sát các khu vực đông người hoặc phát hiện các bất thường nhỏ trong cơ sở hạ tầng thành phố thông minh .
  • So sánh chuẩn mực học thuật: Thường được sử dụng như một tiêu chuẩn tham chiếu vững chắc trong nghiên cứu nhờ triết lý thiết kế toàn diện theo kiểu "túi quà tặng miễn phí".

Khi nào nên chọn YOLOv6-3.0

YOLOv6 -3.0 là "ngựa chiến" cho khối lượng giao dịch lớn. GPU - Các quy trình được tăng tốc.

  • Tự động hóa công nghiệp: Hoàn hảo cho dây chuyền sản xuất và phát hiện lỗi trong môi trường sản xuất , nơi GPU cấp máy chủ xử lý nhiều luồng video cùng lúc.
  • Phân tích thông lượng cao: Tuyệt vời để xử lý các kho video ngoại tuyến, nơi mục tiêu chính là tối đa hóa số khung hình mỗi giây.

Tương lai: YOLO26

Trong khi YOLOv7 Và YOLOv6 -3.0 có khả năng rất cao, nhưng tốc độ đổi mới nhanh chóng của trí tuệ nhân tạo đòi hỏi hiệu quả cao hơn nữa. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một bước nhảy vọt về thế hệ trong thị giác máy tính, giải quyết một cách có hệ thống những hạn chế của các kiến ​​trúc cũ hơn.

Nếu bạn đang bắt đầu một dự án mới, YOLO26 được khuyến nghị mạnh mẽ hơn so với các thế hệ trước. Nó giới thiệu một số tính năng đột phá:

  • Thiết kế hoàn toàn không có NMS : Được xây dựng trên nền tảng của YOLOv10 , YOLO26 loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) một cách tự nhiên. NMS Điều này giúp giảm thiểu chi phí xử lý hậu kỳ, đơn giản hóa việc triển khai lên các ứng dụng di động và đảm bảo suy luận có độ chính xác cao, độ trễ thấp.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như những kỹ thuật được sử dụng trong Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa lai kết hợp SGD và Muon. Điều này đảm bảo động lực huấn luyện ổn định hơn và tốc độ hội tụ nhanh hơn đáng kể.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ một cách chiến lược hàm mất mát tiêu điểm phân phối (DFL), YOLO26 đạt được tốc độ xử lý CPU nhanh hơn đáng kể. Điều này khiến nó trở thành nhà vô địch không thể tranh cãi cho các môi trường biên như Raspberry Pi và các cảm biến IoT từ xa.
  • ProgLoss + STAL: Các hàm suy hao nâng cao được thiết kế đặc biệt để cải thiện khả năng nhận dạng vật thể nhỏ, một điểm yếu cố hữu của các bộ dò đơn tầng.

Bằng cách kết hợp những cải tiến này với nền tảng Ultralytics mạnh mẽ, YOLO26 mang đến hiệu năng, tính linh hoạt và khả năng triển khai dễ dàng vượt trội cho các kỹ sư máy học hiện đại.


Bình luận