So sánh toàn diện: YOLOv7 So sánh với EfficientDet để phát hiện đối tượng
Việc lựa chọn kiến trúc mạng nơ-ron tối ưu là nền tảng của bất kỳ dự án thị giác máy tính thành công nào. Hướng dẫn này cung cấp sự so sánh kỹ thuật chi tiết giữa hai mô hình then chốt trong lịch sử kiến trúc phát hiện đối tượng : YOLOv7 và EfficientDet . Bằng cách xem xét những đổi mới về kiến trúc, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt. Chúng ta cũng sẽ khám phá cách những tiến bộ hiện đại, đặc biệt là Ultralytics YOLO26 đột phá, đã định nghĩa lại trạng thái hiện tại của công nghệ tiên tiến.
Nguồn gốc và thông tin kỹ thuật của mẫu xe
Cả hai mô hình đều được phát triển bởi các nhóm nghiên cứu nổi tiếng và đã mang lại những tiến bộ đáng kể cho lĩnh vực máy học .
YOLOv7
Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: YOLOv7 : Mô hình "túi quà tặng miễn phí" có thể huấn luyện thiết lập tiêu chuẩn mới cho các bộ phát hiện đối tượng thời gian thực
GitHub: WongKinYiu/yolov7
Tài liệu: Tài liệu hướng dẫn sử dụng Ultralytics YOLOv7
EfficientDet
Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
Tổ chức: Google Research
Ngày: 20/11/2019
Arxiv: EfficientDet: Phát hiện đối tượng hiệu quả và có khả năng mở rộng
GitHub: Google AutoML EfficientDet
Sự khác biệt về kiến trúc và phân tích cân bằng
Hiểu rõ những khác biệt cấu trúc cơ bản giữa các mạng lưới này là điều vô cùng quan trọng để triển khai mô hình hiệu quả.
EfficientDet: Mở rộng hợp chất và BiFPN
Được phát triển trong hệ sinh thái TensorFlow , EfficientDet đã giới thiệu một phương pháp tiếp cận có nguyên tắc đối với việc mở rộng mô hình. Thay vì tùy tiện mở rộng hoặc làm sâu thêm mạng, Google Các nhà nghiên cứu đã sử dụng phương pháp mở rộng phức hợp giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng.
Hơn nữa, EfficientDet đã giới thiệu Mạng kim tự tháp đặc trưng hai chiều (BiFPN) . Thành phần kiến trúc này cho phép kết hợp đặc trưng đa tỷ lệ một cách dễ dàng và nhanh chóng.
Điểm mạnh: Hiệu quả tham số cao, đạt được độ chính xác trung bình ( mAP ) cao với số phép tính dấu phẩy động (FLOP) ít hơn nhiều so với các thư viện cùng loại. Điểm yếu: Phụ thuộc nhiều vào các chiến lược tìm kiếm AutoML cũ. Việc tích hợp vào các quy trình làm việc PyTorch hiện đại, năng động có thể phức tạp, và độ trễ trên các thiết bị biên thường cao hơn dự kiến mặc dù số phép tính dấu phẩy động thấp.
YOLOv7: Trainable Bag-of-Freebies
YOLOv7 Phương pháp này ưu tiên suy luận thời gian thực và tối ưu hóa quá trình huấn luyện. Nó giới thiệu khái niệm mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), cho phép mô hình học hỏi liên tục nhiều đặc trưng đa dạng hơn mà không phá hủy đường dẫn gradient ban đầu. YOLOv7 Ngoài ra, kỹ thuật này còn được gọi là "túi quà tặng có thể huấn luyện", giúp cải thiện đáng kể độ chính xác phát hiện mà không làm tăng chi phí suy luận.
Điểm mạnh: Tốc độ xử lý vượt trội và độ trễ suy luận thuận lợi, lý tưởng cho các luồng video tốc độ khung hình cao. Điểm yếu: Mặc dù rất mạnh mẽ, nhưng nó vẫn phụ thuộc vào các hộp neo và yêu cầu tính năng loại bỏ cực đại không tối đa (Non-Maximum Suppression). NMS ) trong quá trình xử lý hậu kỳ, điều này có thể tạo ra nút thắt cổ chai về độ trễ trong các cảnh có nhiều chi tiết phức tạp.
Lợi thế Hệ sinh thái Ultralytics
Khi đánh giá các mô hình, hệ sinh thái xung quanh cũng quan trọng không kém kiến trúc của chúng. Nền tảng Ultralytics tích hợp cung cấp API thống nhất, tài liệu đầy đủ và hỗ trợ cộng đồng tích cực. Môi trường thống nhất này đảm bảo mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình transformer nặng nề, đảm bảo tạo mẫu nhanh chóng và theo dõi thử nghiệm liền mạch.
Các chỉ số hiệu suất và điểm chuẩn
Bảng dưới đây so sánh các chỉ số hiệu suất chính, cho phép các nhà phát triển đánh giá sự đánh đổi giữa tốc độ, số lượng tham số và độ chính xác.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Như đã trình bày, trong khi EfficientDet-d7 đạt được hiệu suất cao mAP Tốc độ xử lý TensorRT của nó tụt hậu đáng kể. YOLOv7 các biến thể, nhấn mạnh sự chiếm ưu thế của biến thể sau trong GPU - Phát hiện đối tượng thời gian thực được tăng tốc.
Sự tiến hóa của công nghệ phát hiện đối tượng: YOLO26
Trong khi YOLOv7 Và EfficientDet đã đặt nền tảng quan trọng, lĩnh vực trí tuệ nhân tạo thị giác máy tính đang phát triển nhanh chóng. Đối với các ứng dụng hiện đại đòi hỏi hiệu quả và độ chính xác tuyệt đối, chúng tôi đặc biệt khuyên bạn nên nâng cấp lên YOLO26 , được phát hành vào tháng 1 năm 2026.
YOLO26 khắc phục những hạn chế vốn có của các thế hệ trước, mang đến tính linh hoạt chưa từng có trong phát hiện đối tượng , phân đoạn đối tượng , phân loại hình ảnh và ước tính tư thế .
Những đổi mới chính của YOLO26
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) một cách tự nhiên. NMS ) xử lý hậu kỳ. Được tiên phong lần đầu trong YOLOv10 , tính năng này đơn giản hóa logic triển khai và đảm bảo thực thi nhất quán, độ trễ thấp bất kể mật độ đối tượng.
- Loại bỏ DFL: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL), kiến trúc mô hình được đơn giản hóa đáng kể, tăng cường khả năng tương thích với các môi trường điện toán biên có nhiều hạn chế.
- Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các môi trường không có GPU chuyên dụng, giúp nó nhanh hơn đáng kể so với EfficientDet trên phần cứng cấu hình thấp.
- MuSGD Optimizer: Lấy cảm hứng từ các kỹ thuật mô hình ngôn ngữ quy mô lớn (như Kimi K2 của Moonshot AI), đây là sự kết hợp của... SGD và Muon mang lại sự ổn định ở cấp độ LLM và khả năng hội tụ nhanh chóng cho việc huấn luyện thị giác máy tính .
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, một tính năng quan trọng đối với ảnh chụp từ trên không và các ứng dụng máy bay không người lái .
- Cải tiến dành riêng cho từng nhiệm vụ: Bao gồm hàm mất mát phân đoạn ngữ nghĩa và proto đa tỷ lệ cho các tác vụ phân đoạn, ước lượng logarit khả năng dư (RLE) cho ước lượng tư thế phức tạp và hàm mất mát góc chuyên dụng được thiết kế để khắc phục các vấn đề về ranh giới hộp giới hạn định hướng (OBB) .
Đối với các nhóm hiện đang sử dụng các hệ thống cũ, việc chuyển sang Nền tảng Ultralytics sẽ mở khóa quy trình làm việc được tối ưu hóa, cho phép đào tạo và triển khai các mô hình tiên tiến này một cách dễ dàng. Các nhà phát triển cũng có thể xem xét các phiên bản mạnh mẽ trước đó như YOLO11 và YOLOv8 tùy thuộc vào các yêu cầu tương thích ngược cụ thể.
Đào tạo được đơn giản hóa và dễ sử dụng.
Một trong những đặc điểm xác định của Ultralytics Điểm nổi bật của mô hình này chính là tính dễ sử dụng . Không giống như thiết lập phức tạp, đa phụ thuộc cần thiết cho EfficientDet, TensorFlow Môi trường AutoML, Ultralytics Cung cấp một API đơn giản, theo phong cách Python.
Môi trường này giảm thiểu mức sử dụng bộ nhớ CUDA trong quá trình huấn luyện, đảm bảo rằng ngay cả các tập dữ liệu lớn cũng có thể được xử lý hiệu quả mà không gặp lỗi hết bộ nhớ (Out-Of-Memory - OOM) thường thấy trong các kiến trúc Transformer cồng kềnh.
Ví dụ mã: Bắt đầu với Ultralytics
Đoạn mã sau đây minh họa cách các nhà phát triển có thể tận dụng gói Ultralytics để huấn luyện mô hình YOLO26 hiện đại một cách liền mạch mà không cần cấu hình phức tạp.
from ultralytics import YOLO
# Initialize the state-of-the-art YOLO26 model for object detection
model = YOLO("yolo26n.pt")
# Train the model effortlessly using the integrated Ultralytics ecosystem
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Auto-selects optimal device
batch=16,
)
# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the model for edge deployment (e.g., OpenVINO for CPU optimization)
model.export(format="openvino")
Xuất khẩu để sản xuất
Các mô hình được huấn luyện thông qua Ultralytics API có thể được xuất ngay lập tức sang nhiều định dạng sản xuất khác nhau như OpenVINO hoặc ONNX , đảm bảo thông lượng cao bất kể phần cứng mục tiêu của bạn là gì.
Các trường hợp sử dụng lý tưởng và ứng dụng thực tế
Khi thiết kế giải pháp, việc điều chỉnh điểm mạnh của mô hình sao cho phù hợp với trường hợp sử dụng cụ thể là điều vô cùng quan trọng.
Khi nào nên sử dụng EfficientDet?
EfficientDet vẫn là một lựa chọn phù hợp cho các nghiên cứu học thuật truyền thống hoặc các môi trường gắn bó chặt chẽ với hệ sinh thái Google Cloud , nơi các thử nghiệm mở rộng quy mô phức hợp là trọng tâm chính. Các biến thể nhỏ hơn của nó (d0-d2) có lợi khi dung lượng đĩa tuyệt đối bị hạn chế nghiêm ngặt.
Khi nào nên sử dụng YOLOv7
YOLOv7 vượt trội trong các thiết lập cũ hiệu năng cao, đặc biệt là ở những nơi mà... PyTorch Phương pháp tích hợp được ưu tiên hơn. TensorFlow Nó vẫn được sử dụng rộng rãi trong:
- Phân tích video: Xử lý các luồng video an ninh có tốc độ khung hình cao, trong đó... GPU Gia tốc rất dồi dào.
- Kiểm tra công nghiệp: Phát hiện lỗi trên các dây chuyền lắp ráp sản xuất tốc độ cao.
Khi nào nên chọn YOLO26
Đối với tất cả các triển khai mới, YOLO26 là sự lựa chọn được đề xuất không thể bàn cãi. Sự cân bằng hiệu năng vượt trội và hệ sinh thái mạnh mẽ, được bảo trì tốt khiến nó trở thành lựa chọn tối ưu cho:
- Thành phố thông minh và quản lý giao thông: NMS Thiết kế không phụ thuộc vào bộ nhớ đảm bảo độ trễ suy luận nhất quán, điều rất quan trọng cho việc điều phối lưu lượng truy cập thời gian thực.
- Robot và Hệ thống Tự động: Sự tăng trưởng ấn tượng 43% CPU Tốc độ suy luận đảm bảo các thuật toán điều hướng có độ phản hồi cao cho các thiết bị nhúng.
- Giám sát nông nghiệp và trên không: Sử dụng ProgLoss và STAL để xác định chính xác các vật thể nhỏ như cây trồng cụ thể hoặc động vật hoang dã từ ảnh chụp ở độ cao lớn.
Tóm lại, trong khi EfficientDet và YOLOv7 Cung cấp bối cảnh lịch sử quý giá và tiện ích chuyên biệt, kỹ sư thị giác máy tính hiện đại sẽ được hưởng lợi nhiều nhất khi áp dụng kiến trúc Ultralytics YOLO26 , giải quyết một cách khéo léo các điểm nghẽn trước đây đồng thời đẩy mạnh giới hạn của những gì có thể trong trí tuệ nhân tạo.