Pro pokročilé

Prohlížeč souborů

Prohlížeč souborů je komponenta programu, o které jsme zatím moc nemluvili. Umožňuje prohlížení interních souborů, které má program ve své databázi a při prvním spouštění si je aktualizuje. Jde o skupinu hodně používaných souborů v oblasti strojového učení. V prohlížeči je možné zobrazit si jejich přehled, filtrovat seznam podle různých podmínek, dále se podívat na jejich konkrétní data a také je vizualizovat. Pro nás mají význam hlavně v případě, že bychom se rozhodli provést s nimi nějaký nový experiment. Často jde ale o komplikovaná data o tisících příkladech a desítkách vstupů.

Nový experiment

Tlačítko Nový experiment vlastně už známe, i když zatím jen z té dobré stránky. Spustí nám povědomý dialog, kde si zadáme data a metody k experimentování.

Testovací soubory

Při opravdovém dataminingu se často data rozdělí na trénovací a testovací data (což jsme četli v metodice). Úlohu pak učíme na těch trénovacích, ale úspěšnost metody testujeme na těch druhých. Představme si, například, že bychom naše data o tělocviku získali ze čtvrté A, a ve čtvrté B bychom nasbírali testovací data. Jednou z možností použití je tedy nastavit A jako trénovací data a B jako testovací.

Pro ilustraci jsme uměle vyrobili testovací data z naší tělocvičné úlohy tak, že jsme výšku zvětšili o 3cm a váhu o 1kg. (Není to vůbec realistické, leda by v béčku byli lépe živení. A i tak by bylo lepší udělat v datech nějaké malé náhodné změny.) Výsledek spuštění základního nastavení vícevrstvého perceptronu je na obrázku, přičemž větší kruhy jsou trénovací data a menší testovací. Je vidět, že v základním nastavení si perceptron s úlohou neporadil úplně správně – dolní pás čtyř dvojkařů je klasifikován jako skupina jedničkářů. Mimochodem, je to dáno tím, že základní nastavení velikosti sítě je pro tuhle úlohu příliš malé.

 

 

Ohodnocení souboru

Jinou možností, jak porovnat áčko s béčkem, je využití ohodnocení nových dat v prohlížeči výsledků. Okno Ohodnocení dat má tlačítko pro načtení souboru CVS do tabulky hodnot, kterou pak ohodnotíme pomocí tlačítka Ohodnoť data (to zní logicky).

Ukládání a načítání výsledků

Opustíme-li program, jsou všechny výsledky navždy ztraceny. Tomu lze předejít tím, že si aktuální výsledky uložíme do souboru, který pak můžeme kdykoliv načíst. Jde o soubor s příponou BRES, který obsahuje všechny aktuálně naučené modely z prohlížeče výsledků.

Takže, mimochodem, pokud chceme jen použít naučené modely, nemusíme vůbec začínat experiment, ale z hlavního okna jdeme rovnou do prohlížeče výsledků, kde stiskneme příslušné tlačítko Načíst výsledky. A dále již můžeme ohodnocovat dle libosti.