YOLOv7 so với DAMO- YOLO : So sánh kỹ thuật chi tiết
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định then chốt trong quá trình phát triển thị giác máy tính , cân bằng các yêu cầu cạnh tranh về độ trễ suy luận , độ chính xác và phân bổ tài nguyên tính toán. Phân tích kỹ thuật này tương phản YOLOv7 và DAMO- YOLO , hai mô hình có ảnh hưởng lớn được phát hành vào cuối năm 2022, đã mở rộng ranh giới của công nghệ phát hiện thời gian thực. Chúng tôi xem xét những cải tiến độc đáo về kiến trúc, hiệu suất chuẩn và khả năng phù hợp của chúng với nhiều tình huống triển khai khác nhau để giúp bạn định hướng quá trình lựa chọn.
YOLOv7 : Tối ưu hóa đào tạo để có độ chính xác theo thời gian thực
YOLOv7 đánh dấu một sự tiến hóa đáng kể trong YOLO gia đình, ưu tiên hiệu quả kiến trúc và các chiến lược đào tạo tiên tiến để nâng cao hiệu suất mà không làm tăng chi phí suy luận. Được phát triển bởi các tác giả ban đầu của Scaled-YOLOv4, nó đã giới thiệu các phương pháp cho phép mạng học hiệu quả hơn trong giai đoạn đào tạo.
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs. ultralytics .com/models/yolov7/
Đổi mới kiến trúc
Cốt lõi của YOLOv7 Mạng lưới Tổng hợp Lớp Hiệu quả Mở rộng (E-ELAN) cho phép mô hình học các tính năng đa dạng bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, cải thiện khả năng hội tụ mà không làm gián đoạn luồng gradient hiện có. Ngoài ra, YOLOv7 sử dụng "túi quà tặng miễn phí có thể huấn luyện", một tập hợp các kỹ thuật tối ưu hóa được áp dụng trong quá trình xử lý dữ liệu huấn luyện mà không ảnh hưởng đến cấu trúc của mô hình trong quá trình triển khai. Các kỹ thuật này bao gồm tham số hóa lại mô hình và các đầu phụ trợ để giám sát sâu, đảm bảo xương sống nắm bắt được các tính năng mạnh mẽ.
Túi quà miễn phí
Thuật ngữ "túi quà tặng" dùng để chỉ các phương pháp tăng độ phức tạp trong quá trình đào tạo để tăng độ chính xác nhưng không phát sinh chi phí trong quá trình suy luận thời gian thực . Triết lý này đảm bảo mô hình xuất ra cuối cùng vẫn nhẹ.
Điểm mạnh và Điểm yếu
YOLOv7 được đánh giá cao nhờ sự cân bằng tuyệt vời trên chuẩn MS COCO , mang lại Độ chính xác trung bình ( mAP ) cao so với kích thước của nó. Điểm mạnh chính của nó nằm ở các tác vụ có độ phân giải cao, nơi độ chính xác là tối quan trọng. Tuy nhiên, độ phức tạp của kiến trúc có thể khiến việc điều chỉnh cho nghiên cứu tùy chỉnh trở nên khó khăn. Hơn nữa, mặc dù suy luận hiệu quả, quá trình đào tạo lại tiêu tốn nhiều tài nguyên, đòi hỏi GPU bộ nhớ so với kiến trúc mới hơn.
DAMO- YOLO : Kiến trúc thần kinh Tìm kiếm Edge
DAMO- YOLO , xuất phát từ nhóm nghiên cứu của Alibaba, áp dụng cách tiếp cận khác bằng cách tận dụng Tìm kiếm kiến trúc thần kinh (NAS) để tự động khám phá các cấu trúc mạng hiệu quả phù hợp với môi trường có độ trễ thấp.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO- YOLO
Đổi mới kiến trúc
DAMO- YOLO Giới thiệu MAE-NAS , một phương pháp tạo xương sống gọi là GiraffeNet, giúp tối đa hóa thông lượng trong điều kiện hạn chế độ trễ cụ thể. Bổ sung cho phương pháp này là ZeroHead , một đầu phát hiện gọn nhẹ, tách biệt các tác vụ phân loại và hồi quy, đồng thời loại bỏ các tham số nặng, giúp giảm đáng kể kích thước mô hình. Kiến trúc này cũng sử dụng một vòng cổ hiệu quả được gọi là RepGFPN (Mạng Kim tự tháp Đặc trưng Tổng quát) để hợp nhất đặc trưng đa quy mô và căn chỉnh điểm phân loại với độ chính xác định vị bằng AlignedOTA để gán nhãn.
Điểm mạnh và Điểm yếu
DAMO- YOLO vượt trội trong các kịch bản AI biên . Các biến thể nhỏ hơn (Tiny/Small) mang lại tốc độ ấn tượng, phù hợp với các thiết bị di động và ứng dụng IoT. Việc sử dụng NAS đảm bảo kiến trúc được tối ưu hóa về mặt toán học để đạt hiệu quả cao. Ngược lại, DAMO- lớn nhất YOLO các mô hình đôi khi tụt hậu so với các mô hình cấp cao nhất YOLOv7 mô hình với độ chính xác tuyệt đối. Ngoài ra, là một dự án tập trung vào nghiên cứu, nó thiếu hệ sinh thái mở rộng và hỗ trợ công cụ thường thấy trong các khuôn khổ rộng hơn.
So sánh các chỉ số hiệu suất
Bảng sau đây nêu bật những sự đánh đổi về hiệu suất. YOLOv7 thường đạt được độ chính xác cao hơn ( mAP ) với cái giá phải trả là độ phức tạp tính toán cao hơn (FLOP), trong khi DAMO- YOLO ưu tiên tốc độ và hiệu quả tham số, đặc biệt là trong các cấu hình nhỏ hơn.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Các ứng dụng thực tế
Việc lựa chọn giữa các mô hình này thường phụ thuộc vào phần cứng triển khai và các tác vụ thị giác máy tính cụ thể cần thiết.
- Bảo mật và phân tích cao cấp ( YOLOv7 ): Dành cho các ứng dụng chạy trên máy chủ mạnh mẽ, nơi mà mọi điểm phần trăm chính xác đều quan trọng, chẳng hạn như hệ thống báo động an ninh hoặc quản lý lưu lượng chi tiết, YOLOv7 là một ứng cử viên sáng giá. Khả năng phân giải chi tiết tốt giúp nó phù hợp để phát hiện các vật thể nhỏ trong luồng video có độ phân giải cao.
- Thiết bị biên & Robot (DAMO- YOLO ): Trong các tình huống có ngân sách độ trễ nghiêm ngặt, chẳng hạn như robot tự động hoặc ứng dụng di động, DAMO- YOLO Kiến trúc nhẹ của 's nổi bật. Số lượng tham số thấp giúp giảm áp lực băng thông bộ nhớ, điều này rất quan trọng đối với các thiết bị chạy bằng pin thực hiện phát hiện vật thể .
Các Ultralytics Ưu điểm: Tại sao phải hiện đại hóa?
Trong khi YOLOv7 và DAMO- YOLO là những mô hình có năng lực, bối cảnh AI đang phát triển nhanh chóng. Các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp hiệu quả, thân thiện với người dùng và sẵn sàng cho tương lai nên cân nhắc hệ sinh thái Ultralytics , cụ thể là YOLO11 . Nâng cấp lên hệ thống hiện đại Ultralytics mô hình cung cấp một số lợi thế riêng biệt:
1. Dễ sử dụng hơn
Ultralytics Các mô hình ưu tiên trải nghiệm của nhà phát triển. Không giống như các kho lưu trữ nghiên cứu thường yêu cầu thiết lập môi trường phức tạp và thực thi tập lệnh thủ công, Ultralytics cung cấp một API Python thống nhất và CLI . Bạn có thể đào tạo, xác thực và triển khai các mô hình chỉ bằng một vài dòng mã.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. Tính linh hoạt toàn diện
YOLOv7 và DAMO- YOLO được thiết kế chủ yếu để phát hiện hộp giới hạn. Ngược lại, YOLO11 hỗ trợ một loạt các tác vụ ngay trong cùng một khuôn khổ, bao gồm phân đoạn thực thể , ước tính tư thế , phát hiện đối tượng định hướng (OBB) và phân loại hình ảnh . Điều này cho phép bạn giải quyết các vấn đề phức tạp—như phân tích tư thế con người trong thể thao —mà không cần chuyển đổi thư viện.
3. Hiệu suất và hiệu quả vượt trội
YOLO11 Được xây dựng dựa trên nhiều năm nghiên cứu và phát triển để mang lại độ chính xác tiên tiến với chi phí tính toán giảm đáng kể. Nó sử dụng đầu phát hiện không có neo và các hoạt động phụ trợ được tối ưu hóa, giúp giảm mức sử dụng bộ nhớ trong cả quá trình đào tạo và suy luận so với các thế hệ trước. YOLO Các phiên bản hoặc mô hình dựa trên máy biến áp như RT-DETR . Hiệu quả này giúp giảm chi phí điện toán đám mây và xử lý nhanh hơn trên phần cứng biên.
4. Hệ sinh thái và hỗ trợ mạnh mẽ
Áp dụng một Ultralytics Mô hình kết nối bạn với một hệ sinh thái phát triển mạnh mẽ và được bảo trì tốt . Với các bản cập nhật thường xuyên, tài liệu phong phú và các kênh cộng đồng năng động, bạn sẽ không bao giờ phải gỡ lỗi mã không được hỗ trợ. Hơn nữa, việc tích hợp liền mạch với các công cụ như Ultralytics HUB giúp triển khai mô hình và quản lý tập dữ liệu dễ dàng.
Kết luận
Cả hai YOLOv7 và DAMO- YOLO đã đóng góp đáng kể vào lĩnh vực phát hiện vật thể vào năm 2022. YOLOv7 đã chứng minh các kỹ thuật tối ưu hóa có thể đào tạo có thể tăng cường độ chính xác, trong khi DAMO- YOLO đã giới thiệu sức mạnh của Tìm kiếm Kiến trúc Thần kinh trong việc tạo ra các mô hình hiệu quả, sẵn sàng cho biên.
Tuy nhiên, đối với môi trường sản xuất hiện nay, YOLO11 đại diện cho đỉnh cao của công nghệ AI thị giác. Bằng cách kết hợp tốc độ của DAMO- YOLO , độ chính xác của YOLOv7 và khả năng sử dụng vô song của Ultralytics khung, YOLO11 cung cấp một giải pháp đa năng giúp đẩy nhanh chu kỳ phát triển và cải thiện hiệu suất ứng dụng. Cho dù bạn đang xây dựng cơ sở hạ tầng thành phố thông minh hay tối ưu hóa kiểm soát chất lượng sản xuất , Ultralytics các mô hình cung cấp độ tin cậy và hiệu quả cần thiết cho sự thành công.
Khám phá các Mô hình Khác
Nếu bạn muốn khám phá các tùy chọn khác trong lĩnh vực thị giác máy tính, hãy cân nhắc các mô hình sau:
- Ultralytics YOLOv8 : Tiền thân của YOLO11 , được biết đến với tính mạnh mẽ và được ngành công nghiệp áp dụng rộng rãi.
- YOLOv10 : Một máy dò thời gian thực tập trung vào NMS -đào tạo miễn phí để giảm độ trễ.
- YOLOv9 : Giới thiệu Thông tin Gradient có thể lập trình (PGI) để giảm thiểu mất thông tin trong các mạng sâu.
- RT-DETR : Một máy dò dựa trên máy biến áp cung cấp độ chính xác cao nhưng thường yêu cầu nhiều hơn GPU ký ức.
- YOLOv6 : Một mô hình tập trung vào hiệu quả khác được tối ưu hóa cho các ứng dụng công nghiệp.