Míry, váhy a známka z tělocviku

Aktivita v kostce

Učitel a žáci se seznámí s programem BANG, například pomocí aktivity Kosatce - Základy data miningu. Poté vytvoří vlastní testovací sadu, která bude obsahovat jejich tělesné míry a známku z tělocviku. Vytvoří model dat pomocí programu BANG a poté jej otestují na mírách jiných osob (třeba učitelů, finalistek miss nebo poslanců). Kromě seznámení se s principy sběru statistických dat a jejich vyhodnocování by měla následovat i krátká diskuse na téma fyzické kondice.

Cíle aktivity

Cílem aktivity je komplexní pochopení sběru statistických dat a jejich vyhodnocování a následné použití takovéhoto souboru k testování a predikci. Student se naučí metodické práci (měření) a zápisu dat a pochopí řešení jednoho ze základních problémů data miningu – učení s učitelem. Dále se prostřednictvím závěrečné diskuse zabrousí do oblasti společenské, probere se téma předsudků, tolerance, prevence obezity apod.

Časová náročnost

příprava učitele: cca 20 min
práce při vyučování: 45 min. (předpokládá se, že v jiné hodině se již žáci i učitel s programem BANG seznámili)
domácí příprava studentů: 0 min

Aplikace

Program BANG.
Open Office SpreadSheet nebo Microsoft Office Excel pro přípravu tabulky dat

Popis aplikace

Program je dostupný v českém a anglickém jazyce pro platformy MS Windows a Linux. Ovládání je poměrně jednoduché, součástí aplikace je dokumentace včetně tutoriálu, a připravené datové soubory pro experimenty.

Technické požadavky

Program je distribuován jako samostatná aplikace, která ke své práci potřebuje nainstalované runtime prostředí Java. Byl testován v prostředích MS Windows a Ubuntu Linux.

Pomůcky

Počítač, elektřina, několik krejčovských metrů, váha, ev. papíry na poznámky a tužky

Popis aktivity

Pokud se žáci ještě neseznámili s programem BANG, učitel tak provede například pomocí aktivity Kosatce - Základy data miningu. Nyní zadá žákům úkol vytvořit vlastní testovací sadu. Žáci ve skupinkách změří svoje tělesné rozměry (výška, váha, obvod hrudi, pasu a boků) a data převedou do tabulky. Z 20% získaných dat si vytvoří testovací sadu, zbytek použijí jako tréninkovou sadu pro naučení programu BANG. Zde se uplatní zkušenosti získané v aktivitě Kosatce - Základy data miningu. Jakmile je program naučen a otestován, žáci s jeho pomocí zjišťují, jakou známku z tělocviku by mohli mít lidé, jejichž rozměry zadají. Následuje diskuse.

Data mining - metoda získávání informace z rozsáhlého souboru dat
Učení s učitelem - metoda data miningu, která se snaží minimalizovat chybu modelu na tréninkové množině dat
Vícevrstvá perceptronová síť - síť, kterou tvoří modely neuronu. Každý modelový neuron má několik vstupů, kterým jsou přiřazeny váhy, které vstup zesilují nebo zeslabují, a jeden výstup. Jednovrstvá perceptronová síť umí vyřešit pouze lineárně-separabilní úlohy, na složitější data je třeba zkombinovat několik vrstev perceptronů a použít vhodnou metodu učení.
Radiální síť - síť tvoří jednotky částečně podobné perceptronům, ale způsob, kterým počítají výstup, je zásadně odlišný – místo lineární kombinace vstupů s váhami se tu počítá euklidovská vzdálenost, a také místo sigmoidální funkce počítáme Gaussovu funkci.
Tréninková data - data, která se používají k učení modelu. Máme-li k dispozici jeden soubor dat, bývá zvykem rozdělit ho na data tréninková (80-90%) a data testovací (10-20%).
Testovací data - data, která použijeme k ověření správné funkce modelu

Motivace

(může proběhnout po seznámení se s programem BANG) Tento program nemusí být jenom užitečný při rozpoznávání motýla podle dvaceti různých znaků, ale může třeba na základě vaší postavy říct, jakou budete mít známku z tělocviku. Nevěříte? Tak si to pojďme zkusit. Teď je z vás vědecký tým, který dostal za úkol právě něco takového zjistit! Pokud uspějete, získáte nástroj, který vám prozradí známku z tělocviku kohokoliv na světě (jehož tělesné rozměry získáte). Tak s chutí do toho!

Postup při zadávání

Nejprve proběhne seznámení s programem BANG a principy data miningu. Následně učitel přednese motivační řeč a rozdělí žáky do skupinek. Počet skupinek se řídí počtem dostupných krejčovských metrů (žáci buď dostali za úkol je přinést nebo učitel obstaral vlastní). Ve skupince se žáci navzájem změří a získaná data (zatím neanonymní) zapíší do excelové tabulky. Měříme výšku, obvod boků, pasu a hrudi. Dále se žáci zváží (pokud učitel donesl váhu) nebo do tabulky pravdivě nahlásí svou hmotnost. Jako poslední bod všichni dodají svou známku z tělocviku.

Nyní učitel vysvětlí, že stejně jako opravdoví statistici, si 20% dat schováme na ověření, že náš program funguje a zbylá použijeme jako trénovací sadu. Jeden žák (pokud možno schopný rychlé práce s excelem, případně sám učitel) převede získaná data do jedné tabulky, exportuje do tvaru CSV a doplní hlavičku souboru podle vzoru existující tabulky (viz Tutoriál v dokumentaci BANGu). Pro vytvoření modelu těchto dat je nejvhodnější použít RBF síť s počtem jednotek například mezi 5 a 20, a vícevrstvý perceptron se dvěma vrstvami opět o několika jednotkách (5-10 v každé vrstvě). Následuje proces učení, který probíhá na jednom počítači. Ostatní žáci pozorují a radí, jaké nastavit parametry, aby byla chyba co nejmenší - zde se uplatní zkušenosti získané v aktivitě Kosatce - Základy data miningu.

Jakmile je program naučen a otestován, můžeme přistoupit k třetí části a začít zjišťovat, jaké známky z tělocviku mají jiní lidé. Můžeme využít předpřipravený seznam (příloha1) nebo si vytvořit vlastní (třeba míry a váhy učitelského sboru, podle fotografie odhadnout míry a váhy politiků, oblíbených herců atp.). Tento soubor necháme ohodnotit naučeným modelem. Následuje diskuse o získaných výsledcích.

Náměty na diskusi:

Metodické poznámky

Varianty aktivity