Ir al contenido

Preparación de datos

La preparación de datos es la base para modelos de visión artificial exitosos. La Plataforma Ultralytics ofrece herramientas completas para gestionar sus datos de entrenamiento, desde la carga y la anotación hasta el análisis.

Visión general

La sección de Datos de la Plataforma Ultralytics le ayuda a:

  • Cargar imágenes, videos y archivos (ZIP, TAR, GZ)
  • Anotar con herramientas de dibujo manual y etiquetado inteligente impulsado por SAM — elija entre SAM 2.1 o el nuevo SAM 3.
  • Analice sus datos con estadísticas y visualizaciones
  • Exportar en formato NDJSON para entrenamiento local

Plataforma Ultralytics: Visión General de Datos - Conjuntos de Datos de la Barra Lateral

Flujo de Trabajo

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
CargarImportar imágenes, vídeos o archivos con procesamiento automático
AnotarEtiquete datos con herramientas manuales para los 5 tipos de tareas, o use la anotación SAM para detect, segment y obb
AnalizarVisualice distribuciones de clases, mapas de calor espaciales y estadísticas de dimensiones
ExportarDescargar en formato NDJSON para uso sin conexión

Tareas admitidas

La Plataforma Ultralytics es compatible con los 5 tipos de tareas de YOLO:

TareaDescripciónHerramienta de Anotación
DetectarDetección de objetos con cajas delimitadorasHerramienta de rectángulo
SegmentarSegmentación de instancias con máscaras de píxelesHerramienta de polígono
PoseEstimación de puntos clave (formato COCO de 17 puntos)Herramienta de puntos clave
OBBCajas delimitadoras orientadas para objetos rotadosHerramienta de caja orientada
ClasificarClasificación a nivel de imagenSelector de clase

Selección del tipo de tarea

El tipo de tarea se establece al crear un conjunto de datos y determina qué herramientas de anotación están disponibles. Puede cambiarlo más tarde desde la configuración del conjunto de datos, pero las anotaciones incompatibles no se mostrarán después del cambio.

Características clave

Almacenamiento Inteligente

La Plataforma Ultralytics utiliza Almacenamiento Direccionable por Contenido (CAS) para una gestión eficiente de datos:

  • Deduplicación: Imágenes idénticas almacenadas una sola vez mediante hash XXH3-128
  • Integridad: El direccionamiento basado en hash garantiza la integridad de los datos.
  • Eficiencia: Almacenamiento optimizado y procesamiento rápido

URIs de Conjuntos de Datos

Referenciar conjuntos de datos usando el ul:// Formato URI (ver Uso de Conjuntos de Datos de la Plataforma):

yolo train data=ul://username/datasets/my-dataset

Esto permite entrenar en los conjuntos de datos de la plataforma desde cualquier máquina con su clave API configurada.

Utilice Datos de Plataforma desde Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Control de Versiones del Conjunto de Datos

Cree instantáneas NDJSON inmutables de su conjunto de datos para un entrenamiento reproducible. Cada versión captura el recuento de imágenes, el recuento de clases y el recuento de anotaciones en el momento de su creación. Consulte la Pestaña de Versiones para más detalles.

Pestañas del Conjunto de Datos

Cada página de dataset proporciona seis pestañas:

PestañaDescripción
ImágenesExplorar imágenes en vista de cuadrícula, compacta o tabla con superposiciones de anotaciones
ClasesVer y editar nombres de clases, colores y recuentos de etiquetas por clase
GráficosEstadísticas automáticas: distribución de divisiones, recuentos de clases, mapas de calor
ModelosModelos entrenados con este conjunto de datos con métricas y estado
VersionesCree y descargue instantáneas NDJSON inmutables para un entrenamiento reproducible
ErroresImágenes que fallaron en el procesamiento con detalles de error y guía de solución

Estadísticas y Visualización

El Charts pestaña proporciona análisis automático que incluye:

  • Distribución de divisiones: Gráfico de anillo del recuento de imágenes de entrenamiento/validación/prueba
  • Clases Principales: gráfico de anillo de las clases de anotación más frecuentes
  • Anchuras de Imagen: Histograma de la distribución de anchuras de imagen
  • Alturas de Imagen: Histograma de la distribución de alturas de imagen
  • Puntos por Instancia: Distribución del recuento de vértices de polígono o puntos clave (conjuntos de datos de segmentación/pose)
  • Ubicaciones de Anotación: Mapa de calor 2D de las posiciones centrales de las cajas delimitadoras.
  • Dimensiones de la Imagen: Mapa de calor 2D de ancho vs alto con líneas guía de relación de aspecto

Preguntas frecuentes

¿Qué formatos de archivo son compatibles para la carga?

La Plataforma Ultralytics soporta:

Imágenes: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (máx. 50MB cada una)

Vídeos: MP4, WebM, MOV, AVI, MKV, M4V (máx. 1GB, fotogramas extraídos a 1 FPS, máx. 100 fotogramas)

Archivos: ZIP, TAR, TAR.GZ, TGZ, GZ (máx. 10GB) que contienen imágenes con etiquetas opcionales en formato YOLO

¿Cuál es el tamaño máximo del conjunto de datos?

Los límites de almacenamiento dependen de su plan:

PlanLímite de Almacenamiento
Gratuito100 GB
Pro500 GB
EmpresarialIlimitado

Límites de archivo individuales: Imágenes 50MB, Vídeos 1GB, Archivos 10GB

¿Puedo utilizar mis conjuntos de datos de la Plataforma para el entrenamiento local?

¡Sí! Utilice el formato URI del conjunto de datos para entrenar localmente:

export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "your_key"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

O exporte su conjunto de datos en formato NDJSON para un entrenamiento completamente offline.



📅 Creado hace 2 meses ✏️ Actualizado hace 0 días
glenn-jocheramanharshxsergiuwaxmann

Comentarios