Preparación de datos

La preparación de datos es la base de unos modelos de visión artificial de éxito. Ultralytics Platform proporciona herramientas completas para gestionar tus datos de entrenamiento, desde la carga hasta el análisis, pasando por el etiquetado.



Watch: Get Started with Ultralytics Platform - Data

Descripción general

La sección de Datos de Ultralytics Platform te ayuda a:

  • Cargar imágenes, vídeos y archivos de conjuntos de datos (ZIP, TAR, incluyendo .tar.gz/.tgz, NDJSON)
  • Etiquetar con herramientas de dibujo manual y etiquetado inteligente potenciado por SAM: elige entre SAM 2.1 o el nuevo SAM 3
  • Analizar tus datos con estadísticas y visualizaciones
  • Exportar en formato NDJSON para el entrenamiento local

Vista general de datos de Ultralytics Platform en la barra lateral

Flujo de trabajo

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
CargarImporta imágenes, vídeos o archivos con procesamiento automático
AnotarEtiqueta datos con herramientas manuales para los 5 tipos de tareas, o utiliza el etiquetado SAM para detección, segmentación y OBB
AnalizarVisualiza distribuciones de clases, mapas de calor espaciales y estadísticas de dimensiones
ExportarDescarga en formato NDJSON para uso sin conexión

Tareas admitidas

Ultralytics Platform es compatible con los 5 tipos de tareas de YOLO:

TareaDescripciónHerramienta de etiquetado
Detectar (Detect)Detección de objetos con cajas delimitadoras (bounding boxes)Herramienta de rectángulo
Segmentar (Segment)Segmentación de instancias con máscaras de píxelesHerramienta de polígono
Pose (Pose)Estimación de puntos clave con plantillas de esqueleto integradas y personalizadasHerramienta de puntos clave
OBB (OBB)Cajas delimitadoras orientadas para objetos rotadosHerramienta de caja orientada
Clasificar (Classify)Clasificación a nivel de imagenSelector de clase
Selección del tipo de tarea

El tipo de tarea se establece al crear un conjunto de datos y determina qué herramientas de etiquetado están disponibles. Puedes cambiarlo más adelante desde el selector de tareas en el encabezado del conjunto de datos, pero las anotaciones incompatibles no se mostrarán después del cambio.

Características clave

Almacenamiento inteligente

Ultralytics Platform utiliza el almacenamiento direccionable por contenido (CAS) para una gestión eficiente de los datos:

  • Deduplicación: Las imágenes idénticas se almacenan solo una vez mediante el hashing XXH3-128
  • Integridad: El direccionamiento basado en hash garantiza la integridad de los datos
  • Eficiencia: Almacenamiento optimizado y procesamiento rápido

URIs de conjuntos de datos

Haz referencia a conjuntos de datos utilizando el formato de URI ul:// (consulta Uso de conjuntos de datos de la plataforma):

yolo train data=ul://username/datasets/my-dataset

Esto permite realizar el entrenamiento con los conjuntos de datos de la plataforma desde cualquier máquina que tenga configurada tu clave API.

Utiliza datos de la plataforma desde Python
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Control de versiones de conjuntos de datos

Crea instantáneas NDJSON inmutables de tu conjunto de datos para un entrenamiento reproducible. Cada versión registra el recuento de imágenes, clases y anotaciones en el momento de la creación. Consulta la Pestaña de versiones para más detalles.

Pestañas del conjunto de datos

Las páginas de conjuntos de datos pueden mostrar hasta seis pestañas, dependiendo del estado del conjunto de datos y de tus permisos:

PestañaDescripción
ImágenesExplora imágenes en vista de cuadrícula, compacta o de tabla con superposiciones de anotaciones
ClasesVisualiza y edita nombres de clases, colores y recuentos de etiquetas por clase
GráficosEstadísticas automáticas: distribución de divisiones (splits), recuentos de clases, mapas de calor
ModelosModelos entrenados con este conjunto de datos con métricas y estado
VersionesCrea y descarga instantáneas NDJSON inmutables para un entrenamiento reproducible
ErroresImágenes que fallaron en el procesamiento con detalles del error y guía de solución

Classes and Charts appear when the dataset has images. Errors appears only when processing failures exist. Versions appears for owners, or for non-owners when versions already exist.

Agrupamiento (Clustering)

Explora tu conjunto de datos como un diagrama de dispersión 2D interactivo donde las imágenes visualmente similares aparecen cerca unas de otras; es útil para detectar clústeres, duplicados y valores atípicos, así como para inspeccionar cómo se distribuyen las divisiones o clases a través de tus datos. Selecciona con el lazo una región del gráfico para filtrar la galería con esas imágenes. Consulta Clustering para más detalles.

Estadísticas y visualización

The Charts tab provides automatic analysis including:

  • Distribución de divisiones: Gráfico circular de recuentos de imágenes para train/val/test
  • Clases principales: Gráfico circular de las clases de anotación más frecuentes
  • Anchos de imagen: Histograma de la distribución del ancho de las imágenes
  • Alturas de imagen: Histograma de la distribución de la altura de las imágenes
  • Puntos por instancia: Distribución del recuento de vértices de polígono o puntos clave (conjuntos de datos de segmentación/pose)
  • Ubicaciones de anotaciones: Mapa de calor 2D de las posiciones centrales de las cajas delimitadoras
  • Dimensiones de la imagen: Mapa de calor 2D de ancho frente a altura con líneas guía de relación de aspecto

Enlaces rápidos

Preguntas frecuentes

¿Qué formatos de archivo se admiten para la carga?

Ultralytics Platform admite:

Imágenes: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (máximo 50 MB cada una)

Vídeos: MP4, WebM, MOV, AVI, MKV, M4V (máximo 1 GB, fotogramas extraídos a 1 FPS, máximo 100 fotogramas)

Archivos de conjuntos de datos: Archivos ZIP o TAR incluyendo .tar.gz y .tgz (máximo 10 GB en Free, 20 GB en Pro, 50 GB en Enterprise) que contengan imágenes con etiquetas opcionales en formato YOLO, además de exportaciones NDJSON

¿Cuál es el tamaño máximo del conjunto de datos?

Los límites de almacenamiento dependen de tu plan:

PlanLímite de almacenamiento
Gratis100 GB
Pro500 GB
EnterpriseIlimitado

Límites de archivo individual: imágenes de 50 MB, vídeos de 1 GB, conjuntos de datos de 10 GB en Free / 20 GB en Pro / 50 GB en Enterprise

¿Puedo utilizar mis conjuntos de datos de la plataforma para el entrenamiento local?

¡Sí! Utiliza el formato de URI del conjunto de datos para entrenar localmente:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

O exporta tu conjunto de datos en formato NDJSON para un entrenamiento totalmente sin conexión.

Comentarios