Insieme di dati - Data set

Un set di dati (o set di dati ) è una raccolta di dati . Nel caso dei dati tabulari, un data set corrisponde a una o più tabelle di database , dove ogni colonna di una tabella rappresenta una particolare variabile , e ogni riga corrisponde a un dato record del data set in questione. Il set di dati elenca i valori per ciascuna delle variabili, come l'altezza e il peso di un oggetto, per ogni membro del set di dati. Ogni valore è noto come dato. I set di dati possono anche consistere in una raccolta di documenti o file.

Nella disciplina dei dati aperti , il set di dati è l'unità per misurare le informazioni rilasciate in un repository di dati aperti pubblici. Il portale European Open Data aggrega più di mezzo milione di set di dati. Alcuni altri problemi (fonti di dati in tempo reale, set di dati non relazionali, ecc.) aumentano la difficoltà di raggiungere un consenso al riguardo.

Proprietà

Diverse caratteristiche definiscono la struttura e le proprietà di un set di dati. Questi includono il numero e i tipi di attributi o variabili e varie misure statistiche ad essi applicabili, come la deviazione standard e la curtosi .

I valori possono essere numeri, come numeri reali o interi , che rappresentano ad esempio l'altezza di una persona in centimetri, ma possono anche essere dati nominali (cioè non costituiti da valori numerici ), ad esempio che rappresentano l'etnia di una persona. Più in generale, i valori possono essere di uno qualsiasi dei tipi descritti come livello di misurazione . Per ogni variabile, i valori sono normalmente tutti dello stesso tipo. Tuttavia, possono mancare anche dei valori , che devono essere indicati in qualche modo.

In statistica , i set di dati di solito provengono da osservazioni effettive ottenute campionando una popolazione statistica e ogni riga corrisponde alle osservazioni su un elemento di quella popolazione. I set di dati possono inoltre essere generati da algoritmi allo scopo di testare determinati tipi di software . Alcuni moderni software di analisi statistica come SPSS presentano ancora i loro dati nel modo classico dei set di dati. Se i dati sono mancanti o sospetti , è possibile utilizzare un metodo di imputazione per completare un set di dati.

Set di dati classici

Diversi set di dati classici sono stati ampiamente utilizzati nella letteratura statistica :

Guarda anche

Riferimenti

link esterno