DAMO- YOLO So sánh với YOLOX: Khám phá chuyên sâu về phát hiện đối tượng không cần neo

Sự phát triển của phát hiện đối tượng thời gian thực được đánh dấu bằng sự chuyển dịch từ các hệ thống dựa trên anchor phức tạp sang các kiến trúc không anchor đơn giản hơn. Hai cột mốc quan trọng trong hành trình này là DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba, và YOLOX , được tạo ra bởi Megvii. Cả hai mô hình đều thách thức các mô hình thiết kế truyền thống, cung cấp các phương pháp tiếp cận độc đáo cho việc trích xuất đặc trưng, gán nhãn và hiệu quả huấn luyện.

Bài so sánh chi tiết này sẽ khám phá những cải tiến về kiến trúc, các chỉ số hiệu năng và các trường hợp sử dụng lý tưởng của chúng để giúp bạn quyết định mô hình nào phù hợp với nhu cầu thị giác máy tính cụ thể của mình. Mặc dù cả hai đều có ý nghĩa lịch sử, chúng ta cũng sẽ tìm hiểu cách các giải pháp hiện đại như Ultralytics YOLO26 đã tổng hợp những tiến bộ này thành một hệ sinh thái mạnh mẽ hơn, sẵn sàng cho sản xuất.

Tổng quan về DAMO-YOLO

DAMO- YOLO (Kiến trúc mạng nơ-ron được tăng cường bằng phương pháp chưng cất và tìm kiếm dựa trên) YOLO (Phần này đề cập đến một phương pháp hiệu suất cao, kết hợp Tìm kiếm Kiến trúc Mạng thần kinh (NAS) với các kỹ thuật huấn luyện tiên tiến. Nó được thiết kế để vượt qua giới hạn về tốc độ và độ chính xác bằng cách tự động hóa việc thiết kế cấu trúc xương sống và cổ.)

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày: 2022-11-23
Arxiv:DAMO-YOLO: Báo cáo về Thiết kế detect Đối tượng theo Thời gian Thực
GitHub:Kho lưu trữ DAMO-YOLO

Các tính năng chính của DAMO- YOLO

Hệ thống xương sống MAE-NAS: Không giống như các hệ thống xương sống được thiết kế thủ công, DAMO- YOLO Phương pháp này sử dụng cách tiếp cận của Masked Autoencoder (MAE) trong khuôn khổ tìm kiếm kiến trúc mạng nơ-ron. Điều này tạo ra một cấu trúc được tối ưu hóa cao để trích xuất các đặc trưng không gian với chi phí tính toán tối thiểu.
RepGFPN hiệu quả: Mô hình sử dụng Mạng kim tự tháp đặc trưng tổng quát được tham số hóa lại (RepGFPN). Điều này cải thiện khả năng kết hợp đặc trưng trên các tỷ lệ khác nhau, rất quan trọng để phát hiện các đối tượng có kích thước khác nhau, đồng thời giữ độ trễ suy luận ở mức thấp thông qua việc tham số hóa lại trong quá trình triển khai.
ZeroHead: Đầu phát hiện được đơn giản hóa đáng kể ("ZeroHead"), giảm số lượng tham số cần thiết cho quá trình hồi quy và phân loại hộp giới hạn cuối cùng.
AlignedOTA: Một chiến lược gán nhãn động có tên là Gán nhãn một-nhiều đồng bộ (Aligned One-to-Many Assignment) đảm bảo rằng các mẫu tích cực được gán chính xác hơn trong quá trình huấn luyện, giải quyết sự mơ hồ trong các cảnh phức tạp.

Cải tiến chưng cất

Một trong những DAMO- YOLO Đặc điểm nổi bật của phương pháp này là sự phụ thuộc mạnh mẽ vào việc chắt lọc kiến thức. Một mô hình "giáo viên" lớn hơn hướng dẫn việc huấn luyện mô hình "học sinh" nhỏ hơn. Mặc dù điều này giúp tăng độ chính xác, nhưng nó làm phức tạp đáng kể quy trình huấn luyện so với các phương pháp huấn luyện "túi quà tặng miễn phí" tiêu chuẩn.

Tổng quan về YOLOX

YOLOX là một sản phẩm đột phá, đưa các cơ chế không cần neo vào thị trường chính thống. YOLO Bằng cách tách rời các đầu dự đoán và loại bỏ các hộp neo, nó đã đơn giản hóa quy trình thiết kế và cải thiện hiệu suất, đặc biệt là đối với các nhà phát triển quen thuộc với sự phức tạp của việc điều chỉnh neo.

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Kho lưu trữ YOLOX

Các tính năng chính của YOLOX

Thiết kế không cần neo: Bằng cách dự đoán trực tiếp tâm của đối tượng thay vì khoảng cách từ các hộp neo được xác định trước, YOLOX loại bỏ nhu cầu phân tích phân cụm (như K-means) để xác định hình dạng neo tối ưu cho các tập dữ liệu tùy chỉnh.
Đầu mạng được tách rời: YOLOX tách biệt nhiệm vụ phân loại và định vị thành các nhánh khác nhau của đầu mạng. Sự tách biệt này giải quyết mâu thuẫn giữa các yêu cầu về đặc trưng để phân loại một đối tượng so với việc xác định ranh giới chính xác của nó.
SimOTA: Một chiến lược phân bổ vận chuyển tối ưu được đơn giản hóa, tự động phân bổ các mẫu tích cực dựa trên chi phí tối ưu hóa toàn cục, cân bằng chất lượng phân loại và hồi quy.
Tăng cường dữ liệu mạnh mẽ: YOLOX sử dụng rộng rãi Mosaic và MixUp Các cải tiến này rất quan trọng đối với khả năng huấn luyện hiệu quả mà không cần đến các kiến trúc xương sống được huấn luyện trước trong một số cấu hình nhất định.

Tìm hiểu thêm về YOLOX

So sánh kỹ thuật: Hiệu năng và tốc độ

Khi so sánh hai kiến trúc này, DAMO- YOLO Nhìn chung, nó hoạt động tốt hơn YOLOX về sự cân bằng giữa độ chính xác và độ trễ, chủ yếu là do được phát hành muộn hơn và tích hợp các công nghệ NAS. Tuy nhiên, YOLOX vẫn được ưa chuộng nhờ kiến trúc đơn giản và khả năng đọc mã dễ dàng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Kiến trúc và độ phức tạp của đào tạo

YOLOX được đánh giá cao nhờ cách triển khai "sạch sẽ". Nó là một ứng dụng thuần túy. PyTorch Mã nguồn dễ dàng chỉnh sửa cho mục đích nghiên cứu. Quá trình huấn luyện đơn giản, chỉ cần điều chỉnh siêu tham số tiêu chuẩn.

Ngược lại, DAMO- YOLO lại làm tăng đáng kể độ phức tạp. Việc phụ thuộc vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) có nghĩa là cấu trúc xương sống không phải là một cấu trúc tiêu chuẩn cố định như ResNet hay CSPDarknet. Hơn nữa, quá trình chưng cất yêu cầu phải huấn luyện một mô hình giáo viên nặng nề trước để giám sát mô hình học sinh nhẹ hơn. Điều này làm tăng gấp đôi tài nguyên tính toán cần thiết cho việc huấn luyện và gây khó khăn cho người dùng có tài nguyên hạn chế. GPU quyền truy cập để tái tạo kết quả của bài báo trên các tập dữ liệu tùy chỉnh .

Cái Ultralytics Ưu điểm: Vượt xa các mô hình nghiên cứu

Trong khi DAMO- YOLO Mặc dù YOLOX cung cấp những hiểu biết học thuật giá trị, nhưng phát triển doanh nghiệp hiện đại đòi hỏi nhiều hơn chỉ là các số liệu thô. Các nhà phát triển cần sự ổn định, dễ sử dụng và một hệ sinh thái hoàn chỉnh. Đây là lý do Ultralytics YOLO26 nổi bật như một lựa chọn vượt trội.

Dễ sử dụng và Hệ sinh thái vượt trội

Đào tạo một DAMO- YOLO Mô hình này thường liên quan đến các tệp cấu hình phức tạp và các đường ống chưng cất nhiều giai đoạn. Ngược lại, Nền tảng Ultralytics và Python SDK mang đến trải nghiệm "từ con số không đến chuyên gia". Cho dù bạn đang sử dụng CLI hoặc Python Việc bắt đầu một bài chạy luyện tập chỉ mất vài giây.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)

Hệ sinh thái Ultralytics được duy trì và bảo trì thường xuyên, đảm bảo khả năng tương thích với các phiên bản mới nhất của PyTorch , CUDA và Apple Metal. Không giống như các kho lưu trữ nghiên cứu thường ngừng hoạt động sau khi công bố, Ultralytics Các mô hình thường xuyên được cập nhật, sửa lỗi và tối ưu hóa hiệu năng.

Cân bằng hiệu suất và Tính linh hoạt

YOLO26 đại diện cho đỉnh cao của hiệu quả. Nó sở hữu thiết kế không có NMS từ đầu đến cuối , một bước đột phá lần đầu tiên được tiên phong trong YOLOv10 . Bằng cách loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression - NMS) NMS (Bằng cách xử lý hậu kỳ), YOLO26 giảm thiểu sự biến thiên độ trễ suy luận và đơn giản hóa logic triển khai, giải quyết một vấn đề lớn tồn tại trong cả YOLOX và DAMO-. YOLO .

Hơn nữa, YOLO26 được tối ưu hóa cho phần cứng không chỉ dành cho GPU cấp máy chủ. Nó cung cấp khả năng suy luận CPU nhanh hơn tới 43% , biến nó trở thành lựa chọn lý tưởng cho các thiết bị biên, Raspberry Pi và các ứng dụng di động, nơi thời lượng pin và các hạn chế về nhiệt độ là rất quan trọng.

Trong khi YOLOX và DAMO- YOLO chủ yếu là các thiết bị phát hiện vật thể, Ultralytics Khung phần mềm này cung cấp hỗ trợ gốc cho rất nhiều tác vụ:

Tìm hiểu thêm về YOLO26

Các ứng dụng thực tế

Việc lựa chọn mô hình phù hợp phụ thuộc rất nhiều vào các ràng buộc cụ thể của môi trường triển khai của bạn.

Các trường hợp sử dụng lý tưởng cho DAMO- YOLO

Máy chủ hiệu suất cao: Cấu trúc RepGFPN được tối ưu hóa cho phép đạt tốc độ khung hình rất cao trên các máy chủ chuyên dụng. TensorRT - phần cứng được hỗ trợ (như NVIDIA (T4 hoặc A100), thích hợp để xử lý các kho lưu trữ video khổng lồ.
Cảnh đông đúc: Việc gán nhãn AlignedOTA hữu ích trong các tình huống có nhiều vật thể bị che khuất, chẳng hạn như đếm người trong đám đông dày đặc hoặc giám sát gia súc.

Các trường hợp sử dụng lý tưởng cho YOLOX

Nghiên cứu học thuật: Mã nguồn sạch của nó làm cho nó trở thành một nền tảng tuyệt vời cho các nhà nghiên cứu muốn thử nghiệm các hàm mất mát mới hoặc các sửa đổi kiến trúc mạng mà không cần phải chịu gánh nặng của NAS.
Hỗ trợ thiết bị di động cũ: Các phiên bản YOLOX-Nano và Tiny sử dụng phép tích chập tách theo chiều sâu, vốn được hỗ trợ tốt trên các thiết bị di động cũ. Android CPU thông qua NCNN .

Tại sao Ultralytics YOLO26 là tiêu chuẩn hiện đại

YOLO26 là giải pháp được khuyến nghị cho hầu hết các dự án thương mại và công nghiệp mới.

Điện toán biên & IoT: Việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL) và các chức năng ProgLoss + STAL mới giúp YOLO26 hoạt động cực kỳ ổn định trên các thiết bị công suất thấp. Nó thể hiện sự vượt trội trong lĩnh vực robot và điều hướng máy bay không người lái, nơi mà... CPU Chu kỳ rất quý giá.
Chu kỳ phát triển nhanh chóng: Việc tích hợp với Nền tảng Ultralytics cho phép các nhóm gắn nhãn dữ liệu, huấn luyện mô hình và triển khai sang các định dạng như ONNX hoặc... CoreML Với quy trình làm việc thống nhất, thời gian đưa sản phẩm ra thị trường được rút ngắn đáng kể.
Các nhiệm vụ phức tạp: Cho dù bạn cần detect Cho dù là xác định góc của một gói hàng (OBB) hay phân tích tư thế của người lao động (Pose), YOLO26 đều xử lý các tác vụ phức tạp này trong một khung phần mềm duy nhất, tiết kiệm bộ nhớ, không giống như bản chất chuyên biệt, chỉ tập trung vào phát hiện của DAMO-. YOLO .

Kết luận

Cả DAMO- YOLO và YOLOX đã đóng vai trò quan trọng trong lịch sử phát hiện đối tượng, chứng minh rằng các thiết kế không cần neo có thể đạt được kết quả tiên tiến nhất. Tuy nhiên, lĩnh vực này phát triển rất nhanh.

Ultralytics YOLO26 được xây dựng dựa trên những bài học này, kết hợp tính ổn định của Trình tối ưu hóa MuSGD (lấy cảm hứng từ quá trình huấn luyện LLM) và sự đơn giản của... NMS - Kiến trúc không ràng buộc. Đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa độ chính xác, tốc độ và tính dễ sử dụng, YOLO26 cung cấp một giải pháp bền vững trong tương lai được hỗ trợ bởi một cộng đồng phát triển mạnh mẽ và tài liệu toàn diện.

Để tìm hiểu thêm về cách thức... Ultralytics Để so sánh với các kiến trúc khác, hãy xem các so sánh của chúng tôi với EfficientDet , YOLOv6 và RT-DETR .