Experiment s vlastními daty nelze začít jinak než pořízením vlastních dat. Podívejte se do metodiky pro obecné úvahy, pro účely této kapitoly si vytvoříme velmi jednoduchá data, která budou obsahovat jako vstupy váhu a výšku a jako výstup známku z tělocviku. Nebojte se ale ve svém experimentu experimentovat s jinými vstupy i výstupem.
Data si připravíme v tabulkovém procesoru MS Excel, Open Office apod. První řádek bude obsahovat hlavičku – názvy sloupečků. Sloupce musejí být seřazeny tak, že nejprve jsou všechny vstupy a poslední sloupec reprezentuje výstup. Dejme tomu, že máme následující data.
Nyní si data z tabulkového procesoru uložíme jako soubor CSV (to znamená comma- separated values). Při nastavení formátu souboru se přesvědčte, že oddělovač sloupců je buď čárka nebo středník a hlavně, že desetinné číslo reprezentováno s desetinnou tečkou a ne čárkou (viz oddíl často kladených otázek). Samozřejmě, pokud desetinná čísla nepoužíváte, není třeba to řešit. Následují dva příklady toho, jak vypadá takový dobře exportovaný (v angličtině well done) CSV soubor.
vyska;vaha;znamka
180;90;3
175;45;2
179;69;1
167;67;2
165;55;1
150;50;1
190;90;2
191;105;3
186;100;3
…
anebo
"vyska","vaha","znamka"
180,90,3
175,45,2
179,69,1
167,67,2
165,55,1
150,50,1
190,90,2
191,105,3
186,100,3
…
Máme-li připravena data, můžeme experimentovat a stvořit model. Využijeme k tomu pravé velké tlačítko v hlavním okně programu. Stisknutím otevřeme nejprve dialog na výběr souboru k učení. Pomocí tří teček u řádky Trénovací soubor se dostaneme k výběru souborů, některé jsou již načtené v programu jako Interní soubory, ale náš CSV najdeme a načteme pomocí tlačítka Vybrat soubor z disku. Po potvrzení se nám soubor zkopíruje i jako testovací, což zatím mlčky přejdeme, a otevře se známý dialog na výběr metody (pokud jsme nepřeskočili kapitolu o kosatcích!).
Začneme experimentovat jednoduše, zvolíme si třeba vícevrstvý perceptron a spustíme ho s předem nastavenými hodnotami. Pravděpodobně se v takovém případě úloha nenaučí úplně, tj. s nulovou chybou, pokud tedy nebyla příliš jednoduchá. První parametr, který se vyplatí vyzkoušet měnit, je v našem případě velikost sítě, zkusme třeba měnit počet jednotek od 1 do 10.
Prohlížení výsledků nás již nezaskočí, pojďme se tedy podívat na náš jednoduchý ukázkový datový soubor a jeho model. Na přiloženém obrázku jsme si vybrali dobře naučenou síť, takže nemáme žádné dvoubarevné kruhy.
Z vizualizace vyplývá, že naše data mají náhodou zajímavou strukturu, kategorie se táhnou v diagonálních pásech, přičemž zelení jedničkáři jsou po obou stranách obklopeni modrými dvojkaři, a nahoře jsou smutní trojkaři s příliš velkým BMI. Abychom si ověřili, zda model takhle opravdu funguje, vezměme si teoretického člověka s výškou 165cm a vyzkoušejme, jakou známku by dostal při různých hmotnostech. Ano, zavoláme na pomoc Ohodnocení dat. A výsledek nám potvrdil naši hypotézu (alespoň pro osoby kolem 165cm).
Pokud má váš soubor více než dva vstupy, zobrazte si data v různých projekcích, zjistěte, kde se váš model nenaučil správně, a experimentujete s parametry učení.