Meet YOLO26: next-gen vision AI.

Link to this sectionCách xác định mục tiêu cho dự án Computer Vision của bạn#

Để xác định một dự án computer vision, hãy viết một bản tuyên bố vấn đề nêu rõ vấn đề cốt lõi, phạm vi, các bên liên quan và các ràng buộc; thiết lập các mục tiêu có thể đo lường và giới hạn thời gian; đồng thời ánh xạ vấn đề đó vào tác vụ computer vision giúp xác định mô hình, tập dữ liệu và các quyết định triển khai của bạn. Hướng dẫn này sẽ đi qua từng bước với một ví dụ thực tế.



Watch: How to define Computer Vision Project's Goal | Problem Statement and VisionAI Tasks Connection 🚀

Để có cái nhìn tổng quan về quy trình làm việc đầy đủ từ thu thập dữ liệu đến triển khai, hãy xem hướng dẫn của chúng tôi về các bước chính trong dự án computer vision.

Link to this sectionCách viết bản tuyên bố vấn đề cho dự án Computer Vision#

Một bản tuyên bố vấn đề rõ ràng là bước quan trọng đầu tiên để tìm ra giải pháp hiệu quả nhất. Nó bao gồm bốn phần:

  • Xác định vấn đề cốt lõi: Chỉ ra thách thức cụ thể mà dự án computer vision của bạn hướng tới để giải quyết.
  • Xác định phạm vi: Xác định ranh giới cho vấn đề của bạn.
  • Xem xét người dùng cuối và các bên liên quan: Xác định những ai sẽ bị ảnh hưởng bởi giải pháp.
  • Phân tích yêu cầu và ràng buộc của dự án: Đánh giá các nguồn lực sẵn có (thời gian, ngân sách, nhân sự) và xác định bất kỳ ràng buộc kỹ thuật hoặc quy định nào.

Link to this sectionVí dụ về một tuyên bố vấn đề kinh doanh#

Hãy xem xét một dự án computer vision nơi bạn muốn ước tính tốc độ xe cộ trên đường cao tốc. Vấn đề cốt lõi là các phương pháp giám sát tốc độ hiện tại không hiệu quả và dễ xảy ra sai sót do hệ thống radar lỗi thời và các quy trình thủ công. Dự án nhằm mục đích phát triển một hệ thống computer vision thời gian thực có thể thay thế các hệ thống ước tính tốc độ cũ.

Vehicle speed estimation on a highway using Ultralytics YOLO

Người dùng chính bao gồm các cơ quan quản lý giao thông và lực lượng thực thi pháp luật, trong khi các bên liên quan thứ cấp là những người quy hoạch đường cao tốc và công chúng hưởng lợi từ những con đường an toàn hơn. Các yêu cầu chính bao gồm đánh giá ngân sách, thời gian và nhân sự, cũng như giải quyết các nhu cầu kỹ thuật như camera độ phân giải cao và xử lý dữ liệu thời gian thực. Ngoài ra, các ràng buộc quy định về quyền riêng tư và bảo mật dữ liệu phải được xem xét.

Link to this sectionThiết lập các mục tiêu có thể đo lường được#

Việc thiết lập các mục tiêu có thể đo lường là yếu tố then chốt dẫn đến sự thành công của một dự án computer vision. Các mục tiêu hiệu quả cần tuân thủ tiêu chí SMART:

Tiêu chíÝ nghĩa
Cụ thể (Specific)Xác định các mục tiêu rõ ràng và chi tiết.
Có thể đo lường (Measurable)Đảm bảo các mục tiêu có thể định lượng được.
Có thể đạt được (Achievable)Đặt ra các mục tiêu thực tế trong khả năng của bạn.
Liên quan (Relevant)Căn chỉnh các mục tiêu với mục đích tổng thể của dự án.
Có giới hạn thời gian (Time-bound)Thiết lập thời hạn cho từng mục tiêu.

Đối với ví dụ về ước tính tốc độ trên đường cao tốc, các mục tiêu SMART có thể là:

  • Đạt được ít nhất 95% độ chính xác trong việc phát hiện tốc độ trong vòng sáu tháng, sử dụng bộ dữ liệu gồm 10.000 hình ảnh phương tiện.
  • Hệ thống phải có khả năng xử lý các luồng video thời gian thực ở tốc độ 30 khung hình/giây với độ trễ tối thiểu.

Bằng cách đặt ra các mục tiêu cụ thể và có thể định lượng, bạn có thể theo dõi tiến độ một cách hiệu quả, xác định các lĩnh vực cần cải thiện và đảm bảo dự án đi đúng hướng.

Link to this sectionCách chọn tác vụ Computer Vision phù hợp#

Bản tuyên bố vấn đề giúp bạn hình dung tác vụ computer vision nào có thể giải quyết vấn đề của mình. Các tác vụ phổ biến bao gồm image classification, object detectionimage segmentation — hãy xem trang tác vụ Ultralytics để biết sự so sánh chi tiết.

Comparison of image classification, object detection, and image segmentation outputs

Ví dụ, nếu vấn đề của bạn là giám sát tốc độ phương tiện trên đường cao tốc, tác vụ liên quan là object tracking. Tracking phù hợp vì nó theo dõi từng phương tiện qua các khung hình video với một ID cố định, đây chính là yếu tố cần thiết để tính toán tốc độ.

YOLO object tracking of vehicles on a highway with persistent track IDs

Các tác vụ khác ít phù hợp hơn khi đứng độc lập. Chẳng hạn, object detection xác định vị trí phương tiện trong mỗi khung hình nhưng không duy trì danh tính của từng phương tiện qua các khung hình — và nếu không có danh tính đó, hệ thống không thể đo lường sự di chuyển theo thời gian. Sau khi đã xác định được tác vụ computer vision phù hợp, nó sẽ định hướng một số khía cạnh quan trọng của dự án, như lựa chọn mô hình, chuẩn bị tập dữ liệu và phương pháp huấn luyện mô hình.

Link to this sectionĐiều gì đi trước: Mô hình, Dữ liệu hay Phương pháp huấn luyện?#

Thứ tự lựa chọn mô hình, chuẩn bị tập dữ liệu và phương pháp huấn luyện phụ thuộc vào các đặc thù của dự án bạn:

Tình huống của bạnBắt đầu vớiVí dụ
Vấn đề và mục tiêu đã được xác định rõ ràngLựa chọn mô hìnhĐối với một hệ thống giám sát giao thông ước tính tốc độ phương tiện, hãy chọn một mô hình object tracking, thu thập và chú thích video đường cao tốc, sau đó huấn luyện bằng các kỹ thuật xử lý video thời gian thực.
Dữ liệu độc nhất hoặc hạn chếChuẩn bị tập dữ liệuĐối với hệ thống nhận dạng khuôn mặt với tập dữ liệu nhỏ, hãy chú thích dữ liệu trước, sau đó chọn một mô hình hoạt động tốt với dữ liệu hạn chế — chẳng hạn như mô hình tiền huấn luyện cho transfer learning — và lên kế hoạch cho data augmentation để mở rộng tập dữ liệu.
Thử nghiệm là rất quan trọng (nghiên cứu)Phương pháp huấn luyệnTrong một dự án khám phá các phương pháp mới để phát hiện lỗi sản xuất, trước tiên hãy thử nghiệm trên một tập dữ liệu nhỏ. Khi đã tìm thấy một kỹ thuật tiềm năng, hãy chọn một mô hình phù hợp với những phát hiện đó và chuẩn bị một tập dữ liệu toàn diện.

Nếu bạn bắt đầu với dữ liệu, Ultralytics Platform sẽ đơn giản hóa việc tổ chức, chú thích và huấn luyện tập dữ liệu khi dự án của bạn phát triển.

Link to this sectionCách các tùy chọn triển khai ảnh hưởng đến dự án của bạn#

Các tùy chọn triển khai mô hình ảnh hưởng nghiêm trọng đến hiệu suất dự án computer vision của bạn, vì vậy hãy cân nhắc chúng ngay từ đầu. Môi trường triển khai phải xử lý được tải tính toán của mô hình:

Tùy chọn triển khaiTốt nhất choCông nghệ ví dụ
Edge devicesĐiện thoại thông minh và thiết bị IoT có tài nguyên tính toán hạn chế; các mô hình nhẹTensorFlow Lite, ONNX Runtime
Cloud serversCác mô hình phức tạp với nhu cầu tính toán cao hơn; phần cứng có khả năng mở rộng theo dự ánAWS, Google Cloud, Azure
On-premise serversNhu cầu cao về data privacy và bảo mật; toàn quyền kiểm soát dữ liệu và hạ tầngMáy chủ GPU tự quản lý
Hybrid solutionsCân bằng giữa hiệu suất với chi phí và độ trễ; xử lý tại biên kết hợp với phân tích trên đám mâyKết hợp các runtime tại biên và nền tảng đám mây

Mỗi tùy chọn đều có những lợi ích và thách thức khác nhau, việc lựa chọn phụ thuộc vào các yêu cầu cụ thể của dự án như hiệu suất, chi phí và bảo mật.

Link to this sectionKết luận#

Một dự án computer vision thành công bắt đầu bằng một bản tuyên bố vấn đề rõ ràng, các mục tiêu SMART có thể đo lường và tác vụ computer vision phù hợp cho công việc — những quyết định này sẽ định hướng mọi thứ tiếp theo, từ lựa chọn mô hình đến triển khai. Bước tiếp theo, hãy học cách thu thập và chú thích dữ liệu, hoặc thảo luận về dự án của bạn với các nhà phát triển khác trên GitHubmáy chủ Discord của Ultralytics.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionLàm thế nào để tôi xác định bản tuyên bố vấn đề rõ ràng cho dự án computer vision của mình?#

Một bản tuyên bố vấn đề rõ ràng nêu rõ vấn đề cốt lõi mà dự án của bạn giải quyết, phạm vi, người dùng cuối và các bên liên quan, cùng với các ràng buộc về tài nguyên và quy định. Hãy thực hiện bốn phần đó theo thứ tự, sau đó xác nhận bản tuyên bố với các bên liên quan trước khi đưa ra các quyết định kỹ thuật. Xem Cách viết bản tuyên bố vấn đề cho dự án Computer Vision để có bản phân tích đầy đủ và ví dụ thực tế.

Link to this sectionLàm thế nào để tôi chọn đúng tác vụ computer vision cho vấn đề của mình?#

Hãy so khớp đầu ra mà vấn đề của bạn cần với tác vụ tạo ra nó: một nhãn duy nhất trên mỗi ảnh dẫn đến image classification, các vị trí đối tượng dẫn đến object detection, các ranh giới ở cấp độ pixel dẫn đến image segmentation, và danh tính được duy trì qua các khung hình video dẫn đến object tracking. Ví dụ, giám sát tốc độ phương tiện đòi hỏi tracking vì tốc độ được tính toán từ sự di chuyển của mỗi phương tiện theo thời gian. Xem trang tác vụ Ultralytics để biết tất cả các tác vụ được hỗ trợ.

Link to this sectionLàm thế nào để tôi thiết lập các mục tiêu đo lường hiệu quả cho dự án computer vision của mình?#

Sử dụng tiêu chí SMART: Cụ thể (Specific), Đo lường được (Measurable), Đạt được (Achievable), Liên quan (Relevant) và Giới hạn thời gian (Time-bound). Ví dụ: "Đạt độ chính xác 95% trong việc phát hiện tốc độ trong vòng sáu tháng bằng cách sử dụng tập dữ liệu 10.000 ảnh phương tiện." Cách tiếp cận này giúp theo dõi tiến độ và xác định các lĩnh vực cần cải thiện. Đọc thêm về thiết lập các mục tiêu có thể đo lường.

Link to this sectionMột mô hình tiền huấn luyện có thể ghi nhớ các lớp mà nó đã biết trước khi thực hiện huấn luyện tùy chỉnh không?#

Không, các model đã được huấn luyện trước không "nhớ" các lớp theo nghĩa truyền thống. Chúng học các mẫu từ các bộ dữ liệu khổng lồ, và trong quá trình huấn luyện tùy chỉnh (tinh chỉnh), các mẫu này được điều chỉnh cho tác vụ cụ thể của bạn. Dung lượng của model có giới hạn, và việc tập trung vào thông tin mới có thể ghi đè một số kiến thức đã học trước đó.

Overview of transfer learning from a pretrained model to a custom model

Nếu bạn muốn sử dụng các lớp mà model đã được huấn luyện trước, một cách tiếp cận thực tế là sử dụng hai model: một model giữ lại hiệu suất ban đầu và model kia được tinh chỉnh cho tác vụ cụ thể của bạn. Bằng cách này, bạn có thể kết hợp kết quả đầu ra của cả hai model. Có những tùy chọn khác như đóng băng các lớp, sử dụng model đã huấn luyện trước làm bộ trích xuất đặc trưng và phân nhánh theo tác vụ, nhưng đây là những giải pháp phức tạp hơn và đòi hỏi chuyên môn cao hơn.

Link to this sectionCác tùy chọn triển khai ảnh hưởng như thế nào đến dự án computer vision của tôi?#

Các tùy chọn triển khai xác định kích thước và định dạng mô hình nào khả thi, do đó chúng định hình dự án của bạn ngay từ đầu. Edge devices cần các mô hình nhẹ được phục vụ thông qua các định dạng và runtime như TensorFlow Lite hoặc ONNX Runtime, các cloud servers xử lý các mô hình phức tạp trên phần cứng có khả năng mở rộng, on-premise servers cung cấp khả năng kiểm soát dữ liệu đầy đủ cho các dự án nhạy cảm về quyền riêng tư, và các thiết lập lai giúp cân bằng giữa hai yếu tố trên. Hãy so sánh chúng trong bảng tùy chọn triển khai, hoặc xem hướng dẫn về các tùy chọn triển khai mô hình để biết chi tiết.

Link to this sectionNhững thách thức phổ biến nhất trong việc xác định vấn đề computer vision là gì?#

Các thách thức phổ biến bao gồm:

  • Tuyên bố vấn đề mơ hồ hoặc quá rộng.
  • Các mục tiêu không thực tế.
  • Thiếu sự thống nhất giữa các bên liên quan.
  • Thiếu hiểu biết về các ràng buộc kỹ thuật.
  • Đánh giá thấp các yêu cầu về dữ liệu.

Hãy giải quyết những thách thức này thông qua nghiên cứu ban đầu kỹ lưỡng, giao tiếp rõ ràng với các bên liên quan, và tinh chỉnh lặp lại tuyên bố vấn đề cũng như các mục tiêu. Để biết toàn bộ quy trình làm việc của dự án, hãy xem các bước chính trong dự án computer vision.

Bình luận