Jedním z nejznámějších problémů v oblasti data mininigu je problém klasifikace kosatců. Jde o poměrně malý a jednoduchý problém, u kterého jsou navíc velmi dobře prozkoumány vlastnosti dat, takže se často používá pro testování metod data miningu. Je zajímavé zmínit, že jde o data prezentovaná již sirem R.A. Fisherem v roce 1936. Jak data vypadají? Jde o celkem 150 dat, která odpovídají třem různým druhům kosatců (Iris setosa, Iris virginica a Iris versicolor). Každý z kosatců je zastoupen 50 daty. Data odpovídají měřením okvětních lístků jednotlivých rostlin. Okvětí kosatců se dělí na tři vnější a tři vnitřní lístky okvětní, u kterých se měří délka a šířka v centimetrech. Data uložená v souboru IRIS.ARFF tedy vypadají takto:
Sepal Length | Sepal Width | Petal Length | Petal Width | Species |
---|---|---|---|---|
5,1 | 3,5 | 1,4 | 0,2 | Iris setosa |
4,9 | 3 | 1,4 | 0,2 | Iris virginica |
5,9 | 3 | 5,1 | 1,8 | Iris virginica |
Cílem data miningu je v tomto případě vytvořit model, který je schopen na základě čtyř naměřených údajů rozlišit, o který ze tří druhů kosatců jde. O složitosti či snadnosti úlohy si můžeme vytvořit představu z následujícího obrázku.
Z obrázku je vidět, že Iris setosa tvoří kategorii, která je poměrně dobře oddělitelná od ostatních dvou druhů. Je dokonce lineárně separabilní. Iris virginica a Iris versicolor jsou naopak v některých osách poměrně těžko oddělitelné.