Po spuštění programu uvidíte hlavní okno, které obsahuje menu, tlačítka na prohlížení výsledků (o nich později), prohlížení datových souborů (ještě později) a nový experiment (o něm až úplně nakonec). Pod nimi jsou dvě obrovská tlačítka na dva pokusy, které jsou popsané v metodikách – klasifikace kosatců a předvídání známek z tělocviku. A pod nimi je okno, do kterého se zobrazují informace o práci programu. Zatím tam toho moc není, ale to hned napravíme.
Klikněte na tlačítko s obrázkem kosatce a budeme pracovat na spuštění prvního experimentu. Ti pečlivější z vás by si asi předem měli přečíst povídání o data miningu a popis úlohy klasifikace kosatců. KLIK!
Otevře se nám okno s novým experimentem, které má již předvyplněné datové soubory (ti, co četli metodiku, vědí, že se jmenují pěkně latinsky iris). Dvakrát je tak soubor uveden proto, že používáme stejný soubor pro učení i testování. A arff je přípona označující typ souboru, který každý správný data miner zná a má rád.
Vrchní okénko máme zatím prázdné, ale hned ho vyplníme. Přidáme jednu či dvě metody učení. Samozřejmě k tomu slouží tlačítko Přidat. funkci tlačítek Odebrat a Upravit ponecháme na váš vlastní průzkum.
Po stisknutí tlačítka Přidat se objeví hlavní okno výběru metod učení a nastavování jejich parametrů. Pomocí lišty nahoře si lze vybrat ze tří metod: vícevrstvý perceptron (MultilayerPerceptron), jednovrstvý perceptron (Perceptron) a síť typu RBF (RBFNetwork). Jde o metody z rodiny umělých neuronových sítí a mluví se o nich zase v metodikách.
Každá metoda má různé parametry, které vidíme v záložkách. Záložka s jednotlivým parametrem obsahuje stručný popis a možnosti, jak parametr nastavit. Typicky můžeme buď ponechat výchozí (defaultní, tvůrci víceméně rozumně nastavenou) hodnotu, nebo zadat ručně jednu hodnotu, nebo nechat systém vybírat hodnoty náhodně.
U výchozí hodnoty a ručního nastavení není moc o čem hovořit. Snad kromě toho, že náš systém z důvodů kompatibility se světovými dataminingovými centry a tajnými laboratořemi vyžaduje desetinnou tečku místo čárky. A také, pokud zadáte hodnotu mimo povolený rozsah, nebo nějakou úplnou blbost, systém vám to buď nedovolí anebo si vezme rozumnou defaultní hodnotu.
Výběr více hodnot je zajímavější, protože umožňuje spustit spoustu malých experimentů v rámci jednoho. Máte možnost zadat interval, ze kterého se hodnoty vybírají, anebo množinu (to má smysl například u hodnot, které mají vlastní kódování, podívejte se třeba na počet jednotek). Dejte pozor na to, že snadno můžete nastavit velké množství experimentů (pokud třeba u perceptronu necháte každý parametr vybírat deset hodnot, spustíte 1000 experimntů, a to nejspíš do konce hodiny nedoběhne).
Všimněte si také, že v rámci experimentu můžete přidat více různých sítí s různými nastaveními, po dalším přidání se síť zařadí do horního okénka a můžete přidávat dál … dokud nespustíte experiment tlačítkem … Spustit experiment, ano.
Když se konečně experiment spustí, dozvíte se o jeho průběhu ve spodní oblasti hlavního okna. Postupně probíhají experimenty a když jsou k dispozici první výsledky, objeví se okno prohlížeče výsledků.
Výsledky učení si můžete uložit do souboru (to se může hodit, když se chcete pochlubit kamarádům), načíst ze souboru (to se může hodit po uložení, když se chcete pochlubit kamarádům), anebo exportovat to CSV (to se může hodit, když se chcete pochlubit kamarádům, kteří mají Excel nebo Open Office). Důležitější ale je, že každý výsledek experimentu si můžete zkusit vizualizovat (nakreslit) a otestovat na libovolných datech. K tomu stačí kliknout myší na experiment, který nás zajímá a použít tlačítka Podrobnosti nebo Ohodnotit nová data. (Stejně funguje pravé tlačítko myši a malé lokální menu.)
Podrobnosti nám otevřou krásné vizualizační okno, kde si můžeme zobrazit data použitá k učení modelu, testovací data (v našem případě stejná) a hlavně výsledek našeho učení.
Vizualizace dat o kosatcích není jednoduchá. Ti, co četli metodiky, vědí, že jde o data, která mají 4 vstupní údaje – délky a šířky korunních a kališních lístků – a jeden výstupní údaj – název druhu daného kosatce. Jelikož obrazovka je jen dvojrozměrná, zobrazují se výsledky tak, že si vlevo nahoře vyberete, které dva ze vstupů chcete vidět na osách x a y. Barevně se pak zobrazují druhy kosatců. Původní data jsou zobrazená většími objekty, výsledky našeho modelu menšími. Pokud jsou pro vás puntíky příliš malé, zvětšete si je táhlem nahoře, ale nezapomeňte zmáčknout tlačítko Překreslit.
Zobrazte si data v různých souřadnicích a uvidíte, že klasifikace tří druhů kosatců není jednoduchá a modely typicky několik málo kosatců klasifikují nesprávně. Pohledem do záložky Testovací data můžete zjistit, která data to přesně jsou (nápověda, všimněte si, že trénovací data jsou seřazena dle druhů), ale nic není názornější než obrázek čtyřrozměrných dat.
Posledním způsobem, jak si pohrát s výsledkem experimentu, je test na nových datech (ano, Ohodnotit nová data)
Po otevření okna s daty můžeme ručně zadat hodnoty vstupů. Stiskneme Přidej řádek a postupně místo otazníků zadáme ručně hodnoty vstupních dat (první čtyři sloupce v našem případě). Vstup dat je třeba v každé sloupci potvrdit klávesou Enter. Otazník v daném sloupečku znamená neznámou hodnotu. Systém je totiž schopen poradit si i s tím, když mu nějaká hodnota chybí (to je pak pro něj ta neznámá hodnota, kterou zadáme otazníkem). Doporučujeme ale příliš si s neznámými hodnotami nezahrávat, odpověď systému může v takových případech působit zmateně. Pátý sloupec je výsledek, ten nevyplňujte a rychle stiskněte Ohodnoť data.
Systém chvíli počítá – předloží zadané vstupy modelu, který jsme si vybrali – a doplní výsledný druh kosatce. Kromě tajemného tlačítka Vymazat nám program umožní i ohodnocovat data ze souboru, případně je do souboru uložit. Jde o CSV soubor, se kterým budeme pracovat i v další kapitole, kde se na něj podíváme podrobněji.