DAMO- YOLO so với YOLOv9 So sánh kỹ thuật toàn diện các kiến trúc phát hiện đối tượng hiện đại
Lĩnh vực phát hiện đối tượng thời gian thực tiếp tục phát triển với tốc độ chóng mặt. Khi các nhóm kỹ sư và nhà nghiên cứu nỗ lực tìm kiếm sự cân bằng hoàn hảo giữa độ chính xác, tốc độ suy luận và hiệu quả tính toán, hai kiến trúc đáng chú ý đã nổi lên từ cộng đồng nghiên cứu: DAMO- YOLO và YOLOv9 . Cả hai mô hình đều giới thiệu những cải tiến kiến trúc quan trọng nhằm mục đích đẩy mạnh giới hạn của những gì có thể đạt được trong thị giác máy tính.
Hướng dẫn kỹ thuật chi tiết này cung cấp phân tích chuyên sâu về hai mô hình này, so sánh các phương pháp kiến trúc độc đáo, phương pháp huấn luyện và khả năng triển khai thực tế của chúng. Chúng ta cũng sẽ khám phá vai trò quan trọng của hệ sinh thái phần mềm rộng lớn hơn trong phát triển AI hiện đại, làm nổi bật những lợi thế của các nền tảng tích hợp như Nền tảng Ultralytics và thế hệ mô hình mới hơn như YOLO26 .
Tóm tắt: Lựa chọn kiến trúc phù hợp
Mặc dù cả hai mô hình đều đại diện cho những cột mốc quan trọng trong nghiên cứu học sâu, nhưng chúng lại phục vụ cho những triết lý triển khai hơi khác nhau.
DAMO- YOLO Nó hoạt động xuất sắc trong các môi trường mà Tìm kiếm Kiến trúc Mạng thần kinh (NAS) chuyên sâu có thể được sử dụng để tối ưu hóa các cấu hình hiệu năng cụ thể, khiến nó trở thành một đối tượng nghiên cứu thú vị cho việc triển khai biên tùy chỉnh. Ngược lại, YOLOv9 Tập trung mạnh vào việc giải quyết các nút thắt cổ chai thông tin trong học sâu, mang lại hiệu quả tham số cực kỳ cao.
Tuy nhiên, đối với các triển khai sẵn sàng cho sản xuất, các nhóm kỹ thuật luôn khuyến nghị tận dụng hệ sinh thái Ultralytics thống nhất. Đối với các dự án mới, mẫu YOLO26 mới nhất mang đến những ưu điểm vượt trội: độ chính xác hàng đầu kết hợp với thiết kế tích hợp từ đầu đến cuối, loại bỏ nhu cầu xử lý hậu kỳ phức tạp.
Đảm bảo tính bền vững cho quy trình xử lý hình ảnh máy tính của bạn trong tương lai.
Trong khi DAMO- YOLO Và YOLOv9 Mặc dù các mô hình học thuật rất mạnh mẽ, việc triển khai chúng trong môi trường sản xuất thường đòi hỏi kỹ thuật tùy chỉnh đáng kể. Sử dụng Ultralytics YOLO26 cung cấp quyền truy cập vào hiệu năng tiên tiến với API được đơn giản hóa và dễ bảo trì.
Thông số kỹ thuật và tác giả
Việc hiểu rõ nguồn gốc và trọng tâm phát triển của các mô hình này sẽ cung cấp bối cảnh cần thiết để hiểu rõ những điểm mạnh riêng của chúng.
DAMO-YOLO
Được phát triển bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO Tập trung mạnh vào việc tạo kiến trúc tự động và kết hợp các tính năng hiệu quả.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày phát hành: 23 tháng 11 năm 2022
- Bài báo Arxiv: Bài nghiên cứu DAMO- YOLO
- GitHub chính thức: Kho lưu trữ tinyvision/DAMO- YOLO
- Tài liệu: DAMO- YOLO README
YOLOv9
Được giới thiệu như một giải pháp cho vấn đề mất mát thông tin trong các mạng tích chập sâu, YOLOv9 Đẩy giới hạn lý thuyết của việc bảo toàn độ dốc trong quá trình huấn luyện.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày phát hành: 21 tháng 2, 2024
- Bài báo trên Arxiv: Bài nghiên cứu về YOLOv9
- Kho lưu trữ chính thức trên GitHub: WongKinYiu/yolov9
- Tài liệu: Tài liệu hướng dẫn sử dụng YOLOv9 Ultralytics
Đổi mới Kiến trúc
DAMO- YOLO Được thúc đẩy bởi Tìm kiếm Kiến trúc Mạng thần kinh
DAMO- YOLO Nó tạo nên sự khác biệt thông qua các thành phần được tùy chỉnh cao và do máy tính tạo ra. Cấu trúc cốt lõi của nó được tạo ra bằng cách sử dụng Tìm kiếm Kiến trúc Thần kinh (NAS), đặc biệt nhắm đến khả năng suy luận độ trễ thấp trên nhiều phần cứng khác nhau.
Kiến trúc này sử dụng mạng RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả để kết hợp các đặc trưng, giúp tăng cường khả năng phát hiện đối tượng đa tỷ lệ mà không làm tăng quá nhiều chi phí tính toán. Hơn nữa, nó sử dụng thiết kế ZeroHead để đơn giản hóa đầu phát hiện và sử dụng AlignedOTA để gán nhãn, kết hợp với quy trình tăng cường chưng cất phức tạp trong quá trình huấn luyện. Mặc dù các kỹ thuật này mang lại khả năng suy luận nhanh, nhưng quy trình chưng cất nhiều giai đoạn thường yêu cầu lượng VRAM đáng kể và thời gian huấn luyện kéo dài.
YOLOv9: Giải quyết nút thắt thông tin
YOLOv9 Giải quyết một vấn đề cơ bản trong mạng nơ-ron sâu: sự mất mát dần thông tin dữ liệu đầu vào khi nó truyền qua các lớp kế tiếp.
Để khắc phục điều này, các tác giả đã giới thiệu Thông tin Gradient Lập trình (PGI) , một khung giám sát phụ trợ được thiết kế để giữ lại các chi tiết quan trọng cho các lớp sâu, tạo ra các gradient có độ tin cậy cao để cập nhật trọng số. Đi kèm với PGI là kiến trúc GELAN (Mạng Tổng hợp Lớp Hiệu quả Tổng quát) . GELAN tối ưu hóa hiệu quả tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN, tối đa hóa luồng thông tin đồng thời giảm thiểu tối đa các phép toán dấu phẩy động (FLOP).
Phân tích hiệu suất và các chỉ số đo lường
Khi đánh giá hiệu năng, cả hai mô hình đều thể hiện độ chính xác trung bình cao (Average Precision). mAP ) trên các tiêu chuẩn đánh giá thông thường như COCO . YOLOv9 Đạt được độ chính xác tuyệt đối cao hơn trên các kích thước mô hình tương đương, tận dụng kiến trúc PGI để duy trì độ chính xác cao trên các tập dữ liệu khó.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Như hình minh họa ở trên, YOLOv9 -E đạt độ chính xác cao nhất, trong khi DAMO- nhỏ hơn YOLO Và YOLOv9 Các biến thể duy trì tốc độ suy luận rất cạnh tranh thông qua các tối ưu hóa TensorRT .
Phương pháp luận đào tạo và Hệ sinh thái
Mặc dù kiến trúc thô sơ rất quan trọng, nhưng khả năng sử dụng và hiệu quả đào tạo được quyết định bởi hệ sinh thái của mô hình mới là yếu tố tối quan trọng đối với ứng dụng thực tế.
DAMO- YOLO Việc dựa vào phương pháp chắt lọc kiến thức thường đòi hỏi phải đào tạo một mô hình "giáo viên" cồng kềnh trước khi chuyển giao kiến thức cho mô hình "học viên" mục tiêu. Phương pháp nghiên cứu truyền thống này làm tăng đáng kể yêu cầu về bộ nhớ và thời gian chu kỳ đào tạo. Tương tự, phương pháp ban đầu YOLOv9 Kho lưu trữ này yêu cầu phải điều hướng qua các tệp cấu hình phức tạp, điều này có thể làm chậm quá trình phát triển linh hoạt.
Ngược lại, việc tích hợp các mô hình vào Nền tảng Ultralytics sẽ hoàn toàn thay đổi trải nghiệm của nhà phát triển. Ultralytics Python Gói này loại bỏ mã lặp lại, cho phép các nhóm xử lý việc tăng cường dữ liệu, điều chỉnh siêu tham số và xuất mô hình một cách dễ dàng.
Các ứng dụng và trường hợp sử dụng trong thực tế
Các kiến trúc khác nhau sẽ phát huy tối đa ưu điểm trong các ngành công nghiệp cụ thể dựa trên yêu cầu về tài nguyên và độ chính xác của chúng.
- DAMO- YOLO trong Trí tuệ nhân tạo biên: Nhờ vào nền tảng được tối ưu hóa cho NAS, DAMO- YOLO Nó thường được nghiên cứu trong các hệ thống nhúng, nơi việc tham số hóa biểu diễn dành riêng cho phần cứng là điều bắt buộc, chẳng hạn như việc triển khai ASIC tùy chỉnh trong kiểm soát chất lượng sản xuất cơ bản.
- YOLOv9 trong Phân tích Chính xác: Với hiệu quả tham số cao và khả năng duy trì độ dốc dựa trên PGI, YOLOv9 Nó rất phù hợp cho các tình huống phát hiện vật thể dày đặc, chẳng hạn như phân tích ảnh chụp từ trên không hoặc theo dõi các vật thể nhỏ trong môi trường bán lẻ đông đúc.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa DAMO- YOLO Và YOLOv9 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO là một lựa chọn tốt cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên chọn YOLOv9
YOLOv9 được khuyến nghị cho:
- Nghiên cứu về tắc nghẽn thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
- Nghiên cứu tối ưu hóa dòng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu sự mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
- Đánh giá hiệu năng phát hiện độ chính xác cao: Các kịch bản trong đó YOLOv9 mạnh mẽ COCO Hiệu năng chuẩn là cần thiết để làm điểm tham chiếu cho việc so sánh kiến trúc.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Cái Ultralytics Ưu điểm: Tiến lên YOLO26
Đối với người dùng đang so sánh các kiến trúc cũ, việc chuyển đổi sang kiến trúc hiện đại là một bước quan trọng. Ultralytics Hệ sinh thái này, đặc biệt là các mẫu YOLO26 mới nhất , mang lại lợi thế vượt trội.
YOLO26 thay đổi căn bản bối cảnh triển khai thông qua thiết kế không cần hệ thống quản lý mạng NMS từ đầu đến cuối . Bằng cách loại bỏ hoàn toàn việc ngăn chặn các lỗi không tối đa (Non-Maximum Suppression) NMS Nhờ xử lý hậu kỳ, nó mang lại kiến trúc triển khai nhanh hơn và đơn giản hơn đáng kể. Kết hợp với việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 cung cấp khả năng tương thích vượt trội cho các thiết bị biên và thiết bị công suất thấp.
Hơn nữa, YOLO26 tích hợp thuật toán tối ưu hóa MuSGD mang tính cách mạng, một sự kết hợp giữa thuật toán tối ưu hóa Gradient Descent ngẫu nhiên và Muon, lấy cảm hứng từ những cải tiến trong huấn luyện LLM. Điều này mang lại sự hội tụ huấn luyện rất ổn định trong khi vẫn duy trì mức sử dụng bộ nhớ thấp đáng kể so với các phương pháp thay thế sử dụng nhiều transformer.
Chương trình đào tạo được tối ưu hóa với YOLO26
Nhờ vào sự trực quan Ultralytics Với API này, bạn có thể huấn luyện một mô hình YOLO26 hiện đại với tính năng theo dõi thử nghiệm tích hợp chỉ với vài dòng mã. Python .
from ultralytics import YOLO
# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX format
model.export(format="onnx")
Cho dù bạn cần phân đoạn đối tượng nâng cao, ước tính tư thế với độ chính xác cao hay phát hiện hộp giới hạn tiêu chuẩn, tính linh hoạt của... Ultralytics Khung phần mềm này đảm bảo nhóm của bạn dành ít thời gian hơn cho việc cấu hình môi trường học sâu và nhiều thời gian hơn cho việc triển khai các giải pháp AI mạnh mẽ. Với những cải tiến chuyên biệt cho các tác vụ như ProgLoss + STAL để tăng cường khả năng nhận dạng vật thể nhỏ, YOLO26 là lựa chọn hàng đầu cho thế hệ ứng dụng thị giác tiếp theo.