YOLO11 so với YOLOv7 : So sánh kỹ thuật chi tiết
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng ảnh hưởng đến tốc độ, độ chính xác và khả năng mở rộng của các ứng dụng thị giác máy tính. Hướng dẫn này cung cấp so sánh kỹ thuật chuyên sâu giữa Ultralytics YOLO11 và YOLOv7 , hai cột mốc quan trọng trong lĩnh vực thị giác máy tính. YOLO (Bạn chỉ nhìn một lần) dòng dõi. Trong khi YOLOv7 đại diện cho một bước tiến lớn vào năm 2022, bản phát hành gần đây YOLO11 giới thiệu những cải tiến về kiến trúc giúp định nghĩa lại hiệu suất tiên tiến cho quá trình phát triển AI hiện đại.
Ultralytics YOLO11 : Tiêu chuẩn mới cho AI thị giác
Ra mắt vào cuối năm 2024, Ultralytics YOLO11 được xây dựng dựa trên nền tảng vững chắc của các phiên bản tiền nhiệm để mang lại hiệu quả và tính linh hoạt vượt trội. Sản phẩm được thiết kế để xử lý một loạt các tác vụ thị giác máy tính trong một khuôn khổ thống nhất, duy nhất.
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ ultralytics / ultralytics
- Tài liệu: https://docs. ultralytics .com/models/ yolo11 /
Kiến trúc và các cải tiến
YOLO11 giới thiệu một kiến trúc tinh chỉnh với khối C3k2 và cơ chế C2PSA (Phân tích từng giai đoạn với Chú ý Không gian). Những cải tiến này cho phép mô hình trích xuất các đặc điểm với độ chi tiết cao hơn trong khi vẫn duy trì số lượng tham số thấp hơn so với các thế hệ trước. Kiến trúc được tối ưu hóa về tốc độ , đảm bảo ngay cả các biến thể mô hình lớn hơn cũng duy trì khả năng suy luận thời gian thực trên phần cứng tiêu chuẩn.
Một đặc điểm xác định của YOLO11 là hỗ trợ gốc cho nhiều tác vụ ngoài phát hiện đối tượng , bao gồm phân đoạn trường hợp , ước tính tư thế , phát hiện hộp giới hạn định hướng (OBB) và phân loại hình ảnh .
Ultralytics Tích hợp hệ sinh thái
YOLO11 được tích hợp hoàn toàn vào Ultralytics hệ sinh thái, cung cấp cho các nhà phát triển quyền truy cập liền mạch vào các công cụ quản lý dữ liệu, đào tạo mô hình và triển khai. Sự tích hợp này giúp giảm đáng kể độ phức tạp của các quy trình MLOps , cho phép các nhóm chuyển từ nguyên mẫu sang sản xuất nhanh hơn.
YOLOv7 : Một chuẩn mực trong đào tạo hiệu quả
YOLOv7 , được phát hành vào giữa năm 2022, tập trung mạnh vào việc tối ưu hóa quy trình đào tạo để đạt được độ chính xác cao mà không làm tăng chi phí suy luận. Nó đã giới thiệu một số khái niệm mới có ảnh hưởng đến các nghiên cứu tiếp theo trong lĩnh vực này.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Date: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Tài liệu: https://docs. ultralytics .com/models/yolov7/
Kiến trúc và các cải tiến
Cốt lõi của YOLOv7 là E-ELAN (Mạng Tổng hợp Lớp Hiệu quả Mở rộng), giúp cải thiện khả năng học của mô hình mà không phá hủy đường dẫn gradient ban đầu. Các tác giả cũng giới thiệu "túi quà tặng miễn phí có thể huấn luyện", một tập hợp các chiến lược tối ưu hóa—chẳng hạn như tham số hóa lại mô hình và đầu phát hiện phụ trợ—giúp tăng độ chính xác trong quá trình huấn luyện nhưng được tinh giản trong quá trình suy luận.
Trong khi YOLOv7 Mặc dù đã thiết lập những chuẩn mực ấn tượng khi ra mắt, nhưng về cơ bản, đây là một kiến trúc phát hiện đối tượng. Việc điều chỉnh nó cho các tác vụ khác như phân đoạn hoặc ước tính tư thế thường đòi hỏi các nhánh hoặc nhánh cụ thể của cơ sở mã, trái ngược với cách tiếp cận thống nhất của các mô hình mới hơn.
Kiến trúc di sản
YOLOv7 dựa trên các phương pháp phát hiện dựa trên neo và các đầu phụ trợ phức tạp. Mặc dù hiệu quả, những lựa chọn kiến trúc này có thể khiến việc tùy chỉnh và tối ưu hóa mô hình để triển khai biên trở nên khó khăn hơn so với các thiết kế hợp lý, không có neo trong các hệ thống hiện đại. Ultralytics các mô hình.
Phân tích hiệu năng: Tốc độ, độ chính xác và hiệu quả
Khi so sánh các số liệu kỹ thuật, những tiến bộ trong YOLO11 Kiến trúc của 'trở nên rõ ràng. Mô hình mới hơn đạt được độ chính xác tương đương hoặc vượt trội với số lượng tham số ít hơn đáng kể và tốc độ suy luận nhanh hơn.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Những Điểm Chính
- Hiệu suất tham số: YOLO11 giảm đáng kể kích thước mô hình. Ví dụ, YOLO11l vượt trội hơn về độ chính xác so với YOLOv7x (53,4% so với 53,1%). mAP ) trong khi sử dụng ít hơn gần 65% tham số (25,3 triệu so với 71,3 triệu). Sự giảm thiểu này rất quan trọng khi triển khai các mô hình trên các thiết bị có bộ nhớ và dung lượng lưu trữ hạn chế.
- Tốc độ suy luận: Các tối ưu hóa kiến trúc trong YOLO11 dịch trực tiếp đến tốc độ. Trên T4 GPU khi sử dụng TensorRT , YOLO11l nhanh hơn YOLOv7x gần gấp 2 lần . Đối với CPU - dựa trên các ứng dụng, YOLO11n nhẹ cung cấp tốc độ đáng kinh ngạc (56,1 ms), cho phép phát hiện thời gian thực trên phần cứng biên nơi YOLOv7 các biến thể sẽ gặp khó khăn.
- Yêu cầu tính toán: Số lượng FLOP (Phép tính dấu chấm động) thấp hơn đáng kể đối với YOLO11 mô hình. Tải tính toán thấp hơn này dẫn đến mức tiêu thụ điện năng và sinh nhiệt ít hơn, làm cho YOLO11 rất phù hợp cho các thiết bị AI biên chạy bằng pin.
Hệ sinh thái và Trải nghiệm của Nhà phát triển
Ngoài các số liệu thô, trải nghiệm của nhà phát triển là yếu tố tạo nên sự khác biệt lớn. Ultralytics YOLO các mô hình này nổi tiếng vì dễ sử dụng và hệ sinh thái mạnh mẽ.
Quy trình làm việc hợp lý
YOLOv7 thường yêu cầu sao chép một kho lưu trữ và tương tác với các tập lệnh shell phức tạp để đào tạo và thử nghiệm. Ngược lại, YOLO11 được phân phối thông qua một tiêu chuẩn Python bưu kiện (ultralytics). Điều này cho phép các nhà phát triển tích hợp các khả năng thị giác máy tính tiên tiến vào phần mềm của họ chỉ với một vài dòng mã.
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")
# Train the model with a single command
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Tính linh hoạt và hiệu quả đào tạo
YOLO11 hỗ trợ nhiều tác vụ ngay lập tức. Nếu yêu cầu của dự án chuyển từ các hộp giới hạn đơn giản sang phân vùng thể hiện hoặc ước tính tư thế, các nhà phát triển có thể dễ dàng chuyển đổi tệp trọng số mô hình (ví dụ: yolo11n-seg.pt) mà không cần thay đổi toàn bộ cơ sở mã hoặc đường ống. YOLOv7 thường yêu cầu tìm và cấu hình các nhánh cụ thể cho các tác vụ này.
Hơn nữa, YOLO11 Lợi ích từ hiệu quả đào tạo . Các mô hình sử dụng các kỹ thuật tối ưu hóa hiện đại và đi kèm với các trọng số được đào tạo trước chất lượng cao, thường hội tụ nhanh hơn các kiến trúc cũ. Hiệu quả này mở rộng đến yêu cầu bộ nhớ ; Ultralytics các mô hình được tối ưu hóa để giảm thiểu CUDA sử dụng bộ nhớ trong quá trình đào tạo, ngăn ngừa lỗi Hết bộ nhớ (OOM) thường gặp ở các máy dò cũ hoặc dựa trên Transformer.
Tài liệu và Hỗ trợ
Ultralytics duy trì tài liệu phong phú và một cộng đồng năng động. Người dùng được hưởng lợi từ các bản cập nhật thường xuyên, sửa lỗi và lộ trình hỗ trợ doanh nghiệp rõ ràng. Ngược lại, YOLOv7 kho lưu trữ, mặc dù có ý nghĩa lịch sử, nhưng ít được duy trì tích cực hơn, điều này có thể gây ra rủi ro cho việc triển khai sản xuất dài hạn.
Các ứng dụng thực tế
- Phân tích bán lẻ: Độ chính xác và tốc độ cao của YOLO11 cho phép theo dõi hành vi khách hàng theo thời gian thực và giám sát hàng tồn kho trên phần cứng cửa hàng tiêu chuẩn.
- Robot tự động: Độ trễ thấp của YOLO11n khiến nó trở nên lý tưởng cho việc điều hướng và tránh chướng ngại vật trên máy bay không người lái và robot, nơi mà từng mili giây đều có giá trị.
- Hình ảnh chăm sóc sức khỏe: Với sự hỗ trợ gốc cho phân khúc, YOLO11 có thể nhanh chóng được điều chỉnh để xác định và phác thảo các bất thường trong quá trình quét y tế với độ chính xác cao.
- Kiểm tra công nghiệp: Khả năng xử lý OBB (Hộp giới hạn định hướng) tạo nên YOLO11 vượt trội trong việc phát hiện các bộ phận quay hoặc văn bản trên dây chuyền lắp ráp, một tính năng không có sẵn trong tiêu chuẩn YOLOv7 .
Kết luận
Trong khi YOLOv7 Vẫn là một mô hình mạnh mẽ và là minh chứng cho sự phát triển nhanh chóng của thị giác máy tính trong năm 2022, Ultralytics YOLO11 là lựa chọn tối ưu cho phát triển AI hiện đại. Nó mang lại sự cân bằng vượt trội giữa hiệu suất , hiệu quả và khả năng sử dụng .
Đối với các nhà phát triển và nhà nghiên cứu, quá trình chuyển đổi sang YOLO11 mang lại lợi ích tức thì: thời gian suy luận nhanh hơn, giảm chi phí phần cứng và quy trình làm việc thống nhất cho các tác vụ thị giác đa dạng. Được hỗ trợ bởi Ultralytics hệ sinh thái, YOLO11 không chỉ là một mô hình mà còn là giải pháp toàn diện để triển khai công nghệ thị giác máy tính tiên tiến trong thế giới thực.
Khám phá sâu hơn
Khám phá thêm các so sánh để tìm ra mẫu tốt nhất cho nhu cầu cụ thể của bạn: