Training e test set

Nell'apprendimento automatico[1] un training set (in italiano insieme di addestramento o insieme di stima) è un insieme di esempi (spesso rappresentati come vettori di valori di attributi discreti o continui, le variabili di input) ad ognuno dei quali è associata una risposta, il valore di un attributo-obiettivo, ossia un valore categorico, cioè una classe, o un valore numerico. Tali esempi vengono utilizzati per addestrare un modello predittivo supervisionato (tipicamente un classificatore o un regressore) capace di determinare il valore-obiettivo per nuovi esempi. Un modello addestrato può essere valutato su un nuovo insieme di esempi, il test set (in italiano insieme di verifica), non utilizzati in fase di addestramento.

È comune dividere il training set in una parte dedicata all'addestramento dell'algoritmo, detta propriamente training set e una parte dedicata alla verifica della bontà dell'addestramento, detta validation set (in italiano insieme di validazione).

Motivazione

L'apprendimento di un modello supervisionato (e.g. un classificatore, un regressore) viene effettuato sulla base di un insieme di addestramento. I modelli supervisionati, che mirano a cercare relazioni empiriche tra esempi dell'insieme di addestramento, possono dar vita al fenomeno del sovradattamento a tale insieme. Ciò significa che essi potrebbero identificare relazioni che valgono nell'insieme di addestramento ma non in generale, per l'intera popolazione. Pertanto, per verificare se le relazioni empiriche apprese possano avere una validità generale, il modello appreso va valutato su un test set disgiunto dall'insieme di addestramento.

Note

  1. ^ T. Mitchell, Machine Learning. McGraw-Hill, 1997.

Voci correlate

  • Convalida incrociata
  • Classificatore (matematica)

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su Training e test set
  Portale Informatica
  Portale Matematica
  Portale Statistica