Datasets

Create a dataset from file upload, HuggingFace, or Kaggle

datasets.create() -> DatasetCreateResponse

POST/api/v1/datasets

Get a dataset by ID

datasets.get() -> Dataset

GET/api/v1/datasets/{dataset_id}

List datasets

datasets.list() -> SyncCursor[DatasetListResponse]

GET/api/v1/datasets

Get the processing status of a dataset

datasets.get_status() -> DatasetGetStatusResponse

GET/api/v1/datasets/{dataset_id}/status

Download the processed dataset

datasets.download(, ) -> DatasetDownloadResponse

GET/api/v1/datasets/{dataset_id}/download

Publish a dataset to an external platform

datasets.publish(, ) -> DatasetPublishResponse

POST/api/v1/datasets/{dataset_id}/publish

Start an augmentation run (or estimate cost)

datasets.run(, ) -> DatasetRunResponse

POST/api/v1/datasets/{dataset_id}/run

Get evaluation results for a dataset

datasets.get_evaluation() -> DatasetGetEvaluationResponse

GET/api/v1/datasets/{dataset_id}/evaluation

ModelsExpand Collapse

class Dataset: …

configured_column_mapping: Optional[ConfiguredColumnMapping]

User-configured column mapping. Null if not yet configured.

chat: Optional[str]

completion: Optional[str]

context: List[str]

image: Optional[str]

prompt: Optional[str]

created_at: datetime

Timestamp when the dataset was created

formatdate-time

dataset_id: str

Unique dataset identifier

error_data: Optional[ErrorData]

Error details if the dataset failed. Null otherwise.

code: Optional[str]

Stable error code when the failure was structured (e.g. E0100)

level: Optional[Literal["error", "warning"]]

Severity when known

One of the following:

"error"

"warning"

message: Optional[str]

Error message

evaluation_summary: Optional[EvaluationSummary]

Compact evaluation summary. Null if evaluation has not completed.

grade_after: Optional[str]

Letter grade (A-E) after augmentation

grade_before: Optional[str]

Letter grade (A-E) before augmentation

improvement_percent: Optional[float]

Relative improvement percentage

score_after: Optional[float]

Quality score after augmentation

score_before: Optional[float]

Quality score before augmentation

image_column_formats: Optional[Dict[str, Literal["embedded_bytes", "url", "file_reference"]]]

Per-column export encoding for detected image columns (column name → format). Use with GET /datasets/{dataset_id}/download: look up the active image column (mapped image column that is also in configured_column_mapping.context) to determine how each row's original_image is encoded. Null or empty when no image columns were detected.

One of the following:

"embedded_bytes"

"url"

"file_reference"

name: Optional[str]

Human-readable name for the dataset

progress: Optional[Progress]

Processing progress. Null when no run is active.

percent: Optional[int]

Progress percentage (0-100)

processed_rows: Optional[int]

Number of rows processed so far

total_rows: Optional[int]

Total rows to process (samples_to_process or row_count)

row_count: Optional[int]

Total number of rows in the dataset

run_id: Optional[str]

ID of the currently active run

status: Literal["pending", "running", "succeeded", "failed"]

Lifecycle status: pending, running, succeeded, or failed

One of the following:

"pending"

"running"

"succeeded"

"failed"

updated_at: datetime

Timestamp of the last update

formatdate-time

DatasetsUpload

Initiate a dataset upload

datasets.upload.initiate() -> UploadInitiateResponse

POST/api/v1/datasets/upload/initiate

Complete a dataset upload and trigger processing

datasets.upload.complete() -> UploadCompleteResponse

POST/api/v1/datasets/upload/complete

Complete a file upload and trigger processing

datasets.upload.complete_by_id(, ) -> UploadCompleteByIDResponse

POST/api/v1/datasets/{dataset_id}/upload/complete