YOLOX so với DAMO- YOLO Phân tích các kiến trúc phát hiện đối tượng thế hệ tiếp theo
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, sự chuyển đổi từ các bộ dò dựa trên điểm neo sang các bộ dò không dựa trên điểm neo đã đánh dấu một cột mốc quan trọng. Hai mô hình nổi bật đã định hình quá trình chuyển đổi này là YOLOX và DAMO- YOLO . Bài so sánh này sẽ khám phá những đổi mới về kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng để giúp các nhà nghiên cứu và kỹ sư lựa chọn công cụ phù hợp với nhu cầu phát hiện đối tượng cụ thể của họ.
Điểm chuẩn hiệu suất
Bảng sau đây trình bày sự so sánh trực tiếp các chỉ số hiệu suất chính giữa YOLOX và DAMO- YOLO các biến thể.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOX: Kết nối Nghiên cứu và Công nghiệp
YOLOX nổi lên như một bản cập nhật quan trọng cho... YOLO Loạt bài viết này chuyển sang cơ chế không cần neo và giới thiệu các kỹ thuật phát hiện tiên tiến nhằm tối ưu hóa quy trình giữa nghiên cứu học thuật và ứng dụng công nghiệp.
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX
Kiến trúc và Đổi mới
YOLOX nổi bật nhờ loại bỏ các hộp neo (anchor boxes) có trong các phiên bản trước như YOLOv4 và YOLOv5 . Kiến trúc "Decoupled Head" của nó tách biệt các nhiệm vụ phân loại và định vị, giúp cải thiện đáng kể tốc độ hội tụ và độ chính xác.
Hơn nữa, YOLOX sử dụng SimOTA , một chiến lược gán nhãn động xem quá trình huấn luyện như một bài toán Vận chuyển Tối ưu. Điều này cho phép mô hình tự động gán các mẫu tích cực cho các dữ liệu thực tế dựa trên chiến lược tối ưu hóa toàn cục, giảm thiểu nhu cầu điều chỉnh siêu tham số theo kinh nghiệm.
DAMO-YOLO: Hiệu quả tìm kiếm kiến trúc mạng thần kinh
DAMO- YOLO Nó vượt qua giới hạn của sự đánh đổi giữa độ trễ và độ chính xác bằng cách tận dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và việc tái tham số hóa mạnh mẽ.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: DAMO- YOLO : Báo cáo về thiết kế phát hiện đối tượng thời gian thực
GitHub: tinyvision/DAMO- YOLO
Các công nghệ chính
DAMO- YOLO Bài viết giới thiệu kiến trúc mạng MAE-NAS , được xây dựng bằng thuật toán tìm kiếm tiến hóa đa mục tiêu để tìm ra cấu trúc mạng tối ưu dưới các ràng buộc độ trễ cụ thể. Nó cũng sử dụng RepGFPN (Efficient Reparameterized Generalized Feature Pyramid Network) để kết hợp đặc trưng hiệu quả trên nhiều thang đo.
Một tính năng đáng chú ý là ZeroHead , giúp đơn giản hóa đầu phát hiện xuống mức độ phức tạp tối thiểu, dựa vào phần khung và cổ mạnh mẽ để thực hiện các tác vụ nặng nhọc. Quá trình huấn luyện được tăng cường bởi AlignedOTA để gán nhãn và giai đoạn chắt lọc, trong đó một mô hình giáo viên lớn hơn hướng dẫn học viên, đảm bảo hiệu suất cao ngay cả với các biến thể mô hình nhỏ hơn.
Lợi thế của Ultralytics
Trong khi YOLOX và DAMO- YOLO Cung cấp các giải pháp mạnh mẽ cho các tình huống cụ thể, hệ sinh thái Ultralytics mang đến một giải pháp toàn diện, thân thiện với người dùng và hiệu suất cao, giải quyết được sự phức tạp của quá trình phát triển AI hiện đại.
Dễ sử dụng và hệ sinh thái liền mạch
Một trong những điểm bất đồng chính với các mô hình như DAMO- YOLO Điểm khác biệt nằm ở sự phức tạp trong các công thức huấn luyện của họ, thường bao gồm quá trình chưng cất nhiều giai đoạn hoặc không gian tìm kiếm NAS chuyên biệt. Ngược lại, Ultralytics Các mô hình được thiết kế để dễ dàng truy cập ngay lập tức. Cho dù bạn đang sử dụng YOLO11 hay YOLO26 tiên tiến, toàn bộ quy trình làm việc—từ tải dữ liệu đến xuất mô hình—đều được xử lý thông qua một API thống nhất.
Các nhà phát triển có thể tận dụng Nền tảng Ultralytics để quản lý tập dữ liệu, trực quan hóa các thí nghiệm và triển khai mô hình một cách liền mạch. Cách tiếp cận tích hợp này loại bỏ rào cản gia nhập, cho phép các nhóm tập trung vào giải quyết các vấn đề kinh doanh thay vì gỡ lỗi các kịch bản huấn luyện.
Cân bằng hiệu năng với YOLO26
Đối với những ai tìm kiếm tốc độ và độ chính xác tối ưu, YOLO26 đại diện cho công nghệ tiên tiến nhất. Nó được xây dựng dựa trên những bài học kinh nghiệm từ các mẫu như YOLOX (thiết kế không cần neo) và YOLOv10 ( NMS (suy luận không cần giấy phép) để mang lại hiệu suất vượt trội.
Đổi mới YOLO26: Từ đầu đến cuối NMS -Miễn phí
YOLO26 là hệ thống end-to-end nguyên bản, loại bỏ nhu cầu sử dụng Non-Maximum Suppression (Ngăn chặn tối đa không cần thiết). NMS ) xử lý hậu kỳ. Điều này giúp đơn giản hóa đáng kể các quy trình triển khai, đặc biệt là trên các thiết bị biên, nơi mà NMS Các thao tác có thể là nút thắt cổ chai về độ trễ.
Các tính năng chính của YOLO26 bao gồm:
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa đồ thị mô hình, tạo điều kiện thuận lợi hơn cho việc xuất sang các định dạng như ONNX và TensorRT .
- MuSGD Optimizer: Một sự kết hợp của... SGD và Muon (lấy cảm hứng từ quá trình huấn luyện LLM) đảm bảo sự hội tụ ổn định.
- Tối ưu hóa CPU : Được tối ưu hóa về mặt kiến trúc cho điện toán biên, mang lại khả năng suy luận nhanh hơn tới 43% trên CPU.
- ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện đáng kể khả năng phát hiện vật thể nhỏ, một yêu cầu quan trọng đối với hình ảnh từ máy bay không người lái và robot .
Tính linh hoạt trên nhiều tác vụ
Không giống như YOLOX và DAMO- YOLO , chủ yếu tập trung vào phát hiện đối tượng, Ultralytics Các mô hình vốn dĩ mang tính đa phương thức. Một thư viện duy nhất hỗ trợ:
Tính linh hoạt này cho phép các nhà phát triển giải quyết các dự án phức tạp—chẳng hạn như phân tích chuyển động của người chơi trong thể thao bằng cách sử dụng ước lượng tư thế—mà không cần chuyển đổi khung phần mềm.
Hiệu quả huấn luyện và Bộ nhớ
Ultralytics Các mô hình được thiết kế để tiết kiệm tài nguyên. Chúng thường yêu cầu ít hơn. GPU Hiệu quả này giúp tiết kiệm bộ nhớ trong quá trình huấn luyện so với các mô hình dựa trên Transformer nặng nề như RT-DETR . Điều này giúp dân chủ hóa AI, cho phép huấn luyện các mô hình mạnh mẽ trên phần cứng tiêu dùng thông thường.
Dưới đây là cách đơn giản để huấn luyện một mô hình YOLO26 hiện đại bằng cách sử dụng... Ultralytics Python SDK:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Các ứng dụng thực tế
Việc lựa chọn mô hình phù hợp thường phụ thuộc vào các ràng buộc cụ thể của môi trường triển khai.
Kiểm soát chất lượng công nghiệp
Đối với các dây chuyền sản xuất tốc độ cao, DAMO- YOLO là một ứng cử viên sáng giá nhờ độ trễ thấp. GPU Về phần cứng, nó phù hợp để phát hiện các khuyết tật trên băng tải chuyển động nhanh. Tuy nhiên, YOLO26 ngày càng được ưa chuộng hơn vì thiết kế không cần NMS của nó đảm bảo thời gian suy luận xác định, ngăn ngừa hiện tượng rung giật có thể làm mất đồng bộ các bộ truyền động robot.
AI biên và thiết bị di động
YOLOX-Nano từ lâu đã được ưa chuộng cho các ứng dụng di động nhờ số lượng tham số rất nhỏ. Ngày nay, YOLO26n (Nano) cung cấp một giải pháp thay thế vượt trội hơn, mang lại độ chính xác cao hơn với kích thước mô hình tương tự, đồng thời hưởng lợi từ tốc độ suy luận CPU nhanh hơn 43% . Điều này làm cho nó trở nên lý tưởng cho các thiết bị chạy bằng pin như camera thông minh hoặc cảm biến nông nghiệp.
Hệ thống tự hành
Trong lĩnh vực robot và lái xe tự hành, khả năng xử lý các vật thể có kích thước khác nhau là rất quan trọng. Mặc dù đầu cảm biến tách rời của YOLOX có ích, nhưng việc YOLO26 triển khai ProgLoss + STAL mang lại sự cải thiện rõ rệt trong việc nhận diện các vật thể ở xa hoặc nhỏ, chẳng hạn như biển báo giao thông hoặc người đi bộ, từ đó nâng cao độ an toàn tổng thể của hệ thống.
Tóm tắt
Cả YOLOX và DAMO- YOLO đã đóng góp đáng kể vào sự tiến bộ của việc phát hiện đối tượng. YOLOX đã phổ biến mô hình không cần neo, trong khi DAMO- YOLO Đã chứng minh sức mạnh của Tìm kiếm Kiến trúc Mạng thần kinh.
Tuy nhiên, đối với một giải pháp hiện đại, có khả năng đáp ứng nhu cầu trong tương lai, cân bằng giữa hiệu năng, tính dễ sử dụng và tính linh hoạt trong triển khai, Ultralytics YOLO26 nổi bật hơn cả. Khả năng tích hợp của nó vào hệ thống rộng lớn hơn là một điểm cộng. Ultralytics Hệ sinh thái, khả năng hỗ trợ nhiều tác vụ và quy trình xuất dữ liệu đơn giản hóa khiến nó trở thành lựa chọn được khuyến nghị cho cả nghiên cứu học thuật và các ứng dụng cấp doanh nghiệp.
Khám phá toàn bộ tiềm năng của các mô hình này bằng cách truy cập Nền tảng Ultralytics và bắt đầu hành trình đào tạo của bạn ngay hôm nay.