Chuyển đến nội dung

YOLOX so với DAMO- YOLO So sánh các bộ dò đối tượng không dựa trên neo và dựa trên NAS

Sự phát triển của phát hiện đối tượng thời gian thực đã chứng kiến ​​nhiều sự thay đổi mô hình, từ kiến ​​trúc dựa trên điểm neo sang kiến ​​trúc không dựa trên điểm neo, và từ các kiến ​​trúc xương sống được thiết kế thủ công sang tìm kiếm kiến ​​trúc mạng thần kinh tự động (NAS). Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ phân tích hai cột mốc quan trọng trong hành trình này: YOLOXDAMO- YOLO . Chúng ta sẽ khám phá những đổi mới về kiến ​​trúc, phương pháp huấn luyện và sự đánh đổi về hiệu năng của chúng, đồng thời nhấn mạnh cách Ultralytics YOLO26 hiện đại cung cấp một giải pháp thay thế vô song cho các nhà phát triển hiện đại.

YOLOX: Tiên phong trong mô hình không cần neo

Ra mắt vào ngày 18 tháng 7 năm 2021 bởi Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun tại Megvii , YOLOX đánh dấu một bước ngoặt quan trọng bằng cách tích hợp thành công thiết kế không cần neo vào... YOLO Gia đình. Được mô tả chi tiết trong báo cáo kỹ thuật của họ trên ArXiv , YOLOX hướng đến mục tiêu thu hẹp khoảng cách giữa nghiên cứu học thuật và triển khai công nghiệp.

Các Đổi Mới Kiến Trúc Chính

YOLOX đã giới thiệu một số thay đổi cấu trúc cốt lõi, cải tiến đáng kể so với các phiên bản tiền nhiệm:

  • Cơ chế không cần neo: Bằng cách dự đoán trực tiếp tâm của một đối tượng và kích thước hộp giới hạn của nó, YOLOX đã giảm số lượng thuật toán thiết kế và đơn giản hóa các quy trình phân cụm neo phức tạp. Điều này làm cho nó có khả năng thích ứng cao với nhiều kịch bản thị giác máy tính khác nhau.
  • Đầu tách rời: Truyền thống YOLO Các mô hình trước đây sử dụng một đầu xử lý duy nhất cho cả phân loại và hồi quy. YOLOX đã triển khai một đầu xử lý tách rời, xử lý phân loại và định vị riêng biệt, giúp hội tụ nhanh hơn nhiều và cải thiện độ chính xác.
  • Phân bổ nhãn SimOTA: Một phiên bản đơn giản hóa của Phân bổ vận chuyển tối ưu (OTA) đã được sử dụng để phân bổ các mẫu tích cực một cách động, giảm thời gian huấn luyện và khắc phục sự mơ hồ của việc phân bổ điểm trung tâm.

Di sản của YOLOX

Thiết kế đầu dò tách rời của YOLOX đã ảnh hưởng sâu sắc đến các thế hệ máy dò vật thể sau này, trở thành một tính năng tiêu chuẩn trong nhiều mẫu máy hiện đại.

Tìm hiểu thêm về YOLOX

DAMO- YOLO Tìm kiếm kiến ​​trúc tự động quy mô lớn

Được phát triển bởi Xianzhe Xu và một nhóm các nhà nghiên cứu tại Tập đoàn Alibaba , DAMO- YOLO Mô hình này được giới thiệu vào ngày 23 tháng 11 năm 2022. Như đã được mô tả chi tiết trong bài báo trên ArXiv , mô hình đã tận dụng tối đa Thuật toán Tìm kiếm Kiến trúc Thần kinh (Neural Architecture Search - NAS) để đẩy giới hạn Pareto về tốc độ và độ chính xác.

Các Đổi Mới Kiến Trúc Chính

DAMO- YOLO Chiến lược của họ được xây dựng dựa trên việc tự động hóa quá trình thiết kế các cấu trúc hiệu quả:

  • Hệ thống xương sống MAE-NAS: Sử dụng thuật toán tiến hóa đa mục tiêu, DAMO- YOLO Đã phát hiện ra các kiến ​​trúc mạng trục chính hiệu quả cao được tùy chỉnh cho các mức độ trễ cụ thể, đặc biệt khi được xuất sang các framework như TensorRT .
  • RepGFPN hiệu quả: Thiết kế cổ dày giúp tăng cường đáng kể khả năng kết hợp đặc điểm trên các độ phân giải không gian khác nhau, mang lại lợi ích rất lớn cho việc phân tích ảnh chụp từ trên không và phát hiện các đối tượng ở các tỷ lệ khác nhau.
  • ZeroHead: Một đầu dự đoán được đơn giản hóa giúp loại bỏ sự dư thừa về mặt tính toán mà không làm giảm độ chính xác trung bình tổng thể của mô hình (Average Precision). mAP ).
  • AlignedOTA và Phương pháp chắt lọc kiến ​​thức: Kết hợp việc gán nhãn nâng cao và phương pháp chắt lọc kiến ​​thức giữa giáo viên và học sinh để tối ưu hóa hiệu suất cho các mô hình học sinh nhỏ hơn.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu năng và số liệu

Khi so sánh hai mô hình này, chúng ta cần xem xét số lượng tham số, số phép tính FLOP cần thiết và đặc điểm độ trễ của chúng. Dưới đây là dữ liệu so sánh hiệu năng giữa YOLOX và DAMO- YOLO trên nhiều quy mô khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Mặc dù cả hai mẫu đều đạt được kết quả ấn tượng, nhưng chúng đều có những hạn chế. YOLOX yêu cầu điều chỉnh cẩn thận đầu tách rời của nó, trong khi DAMO- YOLO Việc phụ thuộc nhiều vào phương pháp chưng cất khiến việc huấn luyện lại trên các tập dữ liệu tùy chỉnh tiêu tốn rất nhiều tài nguyên, đòi hỏi lượng bộ nhớ GPU khổng lồ.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOX và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

  • Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến ​​trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
  • Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
  • Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.

Khi nào nên chọn DAMO-YOLO

DAMO- YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến ​​trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến ​​trúc tự động (MAE-NAS) và các kiến ​​trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi YOLOX và DAMO- YOLO Đại diện cho những cột mốc lịch sử quan trọng, các nhà phát triển hiện đại cần một giải pháp kết hợp độ chính xác tiên tiến với sự dễ sử dụng chưa từng có. Đây là nơi Ultralytics YOLO26 thay đổi cục diện. Được phát hành vào tháng 1 năm 2026, YOLO26 xây dựng dựa trên nền tảng của các mô hình không cần NMS để mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển.

Tại sao chọn YOLO26?

Sự tích hợp Ultralytics Hệ sinh thái này vượt trội hơn các kho lưu trữ học thuật phân tán bằng cách cung cấp:

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) một cách tự nhiên. NMS ) trong quá trình suy luận. Điều này dẫn đến độ trễ cực nhanh và có thể dự đoán được, rất quan trọng đối với các triển khai ở biên và xe tự hành .
  • Loại bỏ DFL: Bằng cách loại bỏ hiện tượng mất tiêu điểm phân tán (Distribution Focal Loss - DFL), YOLO26 đơn giản hóa quy trình xuất dữ liệu sang các thiết bị biên, giảm đáng kể yêu cầu bộ nhớ cho các ứng dụng nhẹ.
  • MuSGD Optimizer: YOLO26 kế thừa những cải tiến trong đào tạo LLM với mô hình lai ghép của mình. SGD và bộ tối ưu hóa Muon, đảm bảo tính ổn định huấn luyện vững chắc và tốc độ hội tụ cực nhanh.
  • Suy luận CPU nhanh hơn tới 43%: Nhờ các tối ưu hóa cấu trúc chuyên sâu, YOLO26 chạy cực nhanh trên CPU mà không cần đến các giải pháp đắt tiền. GPU phần cứng.
  • Các chức năng giảm thiểu tổn thất nâng cao: Sự kết hợp giữa ProgLoss và STAL mang lại những cải tiến vượt bậc trong nhận dạng vật thể nhỏ, lý tưởng cho các tác vụ như kiểm tra bằng máy bay không người lái và giám sát IoT.
  • Tính linh hoạt: Không giống như DAMO- YOLO YOLO26, vốn chỉ là một bộ dò tìm, hỗ trợ đầy đủ các tác vụ Phân đoạn đối tượng , Ước tính tư thế , Phân loại hình ảnhHộp giới hạn định hướng (OBB) trong một khung thống nhất duy nhất.

Bắt đầu xây dựng ngay lập tức

Với API Python Ultralytics , bạn không cần phải tự cấu hình các quy trình chưng cất phức tạp hoặc viết hàng trăm dòng mã C++ để triển khai mô hình của mình.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Tìm hiểu thêm về YOLO26

Các mô hình khác để xem xét

Hệ sinh thái thị giác máy tính rất rộng lớn. Tùy thuộc vào những hạn chế cụ thể của bạn, bạn cũng có thể muốn khám phá các kiến ​​trúc khác được hệ sinh thái hỗ trợ đầy đủ. Ultralytics hệ sinh thái:

  • YOLO11 : Phiên bản tiền nhiệm mạnh mẽ của YOLO26, nổi tiếng về độ ổn định trong phân tích bán lẻkiểm soát chất lượng sản xuất .
  • YOLOv8 : Một mô hình huyền thoại, cực kỳ ổn định, không cần neo, đã phổ biến việc triển khai rộng rãi ở vùng biên.
  • RT-DETR : Một thuật toán chuyển đổi phát hiện thời gian thực (Real-Time DEtection TRansformer) được phát triển bởi Baidu, cung cấp một giải pháp thay thế tuyệt vời cho các tác vụ được hưởng lợi nhiều từ cơ chế chú ý toàn cục, mặc dù phải trả giá bằng yêu cầu bộ nhớ huấn luyện cao hơn.

Kết luận

Cả YOLOX và DAMO- YOLO đã đóng góp những khái niệm quan trọng cho sự phát triển của học sâu—YOLOX xác nhận phương pháp tách rời, không cần neo và DAMO- YOLO Điều này chứng minh sức mạnh của việc tìm kiếm kiến ​​trúc tự động. Tuy nhiên, đối với sản xuất thực tế, sự phức tạp của các cơ sở mã nghiên cứu ban đầu có thể làm chậm các nhóm agile.

Bằng cách tận dụng Nền tảng Ultralytics toàn diện, các nhà phát triển có thể vượt qua những trở ngại này. Với thiết kế từ đầu đến cuối của YOLO26, hiệu năng vượt trội. CPU Với tốc độ xử lý nhanh chóng và tài liệu hướng dẫn đầy đủ, việc đạt được khả năng nhận diện hình ảnh tiên tiến nhất trong lĩnh vực trí tuệ nhân tạo (AI) trở nên dễ dàng hơn bao giờ hết. Cho dù bạn đang xây dựng cơ sở hạ tầng thành phố thông minh, chẩn đoán y tế hay robot tiên tiến, Ultralytics Cung cấp con đường hiệu quả nhất từ ​​dữ liệu thô đến triển khai thực tế mạnh mẽ.


Bình luận