Training e test set

Nell'apprendimento automatico^[1] un training set (in italiano insieme di addestramento o insieme di stima) è un insieme di esempi (spesso rappresentati come vettori di valori di attributi discreti o continui, le variabili di input) ad ognuno dei quali è associata una risposta, il valore di un attributo-obiettivo, ossia un valore categorico, cioè una classe, o un valore numerico. Tali esempi vengono utilizzati per addestrare un modello predittivo supervisionato (tipicamente un classificatore o un regressore) capace di determinare il valore-obiettivo per nuovi esempi. Un modello addestrato può essere valutato su un nuovo insieme di esempi, il test set (in italiano insieme di verifica), non utilizzati in fase di addestramento.

È comune dividere il training set in una parte dedicata all'addestramento dell'algoritmo, detta propriamente training set e una parte dedicata alla verifica della bontà dell'addestramento, detta validation set (in italiano insieme di validazione).

Motivazione

L'apprendimento di un modello supervisionato (e.g. un classificatore, un regressore) viene effettuato sulla base di un insieme di addestramento. I modelli supervisionati, che mirano a cercare relazioni empiriche tra esempi dell'insieme di addestramento, possono dar vita al fenomeno del sovradattamento a tale insieme. Ciò significa che essi potrebbero identificare relazioni che valgono nell'insieme di addestramento ma non in generale, per l'intera popolazione. Pertanto, per verificare se le relazioni empiriche apprese possano avere una validità generale, il modello appreso va valutato su un test set disgiunto dall'insieme di addestramento.

Note

^ T. Mitchell, Machine Learning. McGraw-Hill, 1997.

Voci correlate

Convalida incrociata
Classificatore (matematica)

Altri progetti

Wikimedia Commons

Wikimedia Commons contiene immagini o altri file su Training e test set

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · Dbscan · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Probabilistic graphical model · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico