Klasifikace kostatců

Jedním z nejznámějších problémů v oblasti data mininigu je problém klasifikace kosatců. Jde o poměrně malý a jednoduchý problém, u kterého jsou navíc velmi dobře prozkoumány vlastnosti dat, takže se často používá pro testování metod data miningu. Je zajímavé zmínit, že jde o data prezentovaná již sirem R.A. Fisherem v roce 1936. Jak data vypadají? Jde o celkem 150 dat, která odpovídají třem různým druhům kosatců (Iris setosa, Iris virginica a Iris versicolor). Každý z kosatců je zastoupen 50 daty. Data odpovídají měřením okvětních lístků jednotlivých rostlin. Okvětí kosatců se dělí na tři vnější a tři vnitřní lístky okvětní, u kterých se měří délka a šířka v centimetrech. Data uložená v souboru IRIS.ARFF tedy vypadají takto:

Sepal LengthSepal WidthPetal LengthPetal WidthSpecies
5,13,51,40,2Iris setosa
4,931,40,2Iris virginica
5,935,11,8Iris virginica

Cílem data miningu je v tomto případě vytvořit model, který je schopen na základě čtyř naměřených údajů rozlišit, o který ze tří druhů kosatců jde. O složitosti či snadnosti úlohy si můžeme vytvořit představu z následujícího obrázku.


Grafické 2D znázornění dat kosatců (převzato z Wikipedie).

Z obrázku je vidět, že Iris setosa tvoří kategorii, která je poměrně dobře oddělitelná od ostatních dvou druhů. Je dokonce lineárně separabilní. Iris virginica a Iris versicolor jsou naopak v některých osách poměrně těžko oddělitelné.