Něco mi nefunguje (často kladené otázky, často slýchané výkřiky)

 

Pomoc, není to česky!

Program se při spuštění řídí systémovým nastavením jazyka. Pokud ho nemáte nastaven na češtinu, spustí se anglická verze. Zeptejte se tatínka, jak jazyk v systému správně nastavit, anebo spusťte program z příkazové řádky či terminálového okna následující magickou formulí:

java -Duser.language=cs -Duser.country=CZ -jar pikater.jar

Co to je příkazová řádka a terminálové okno?

Jak to, že jsme na světě, je to jenom náhoda? Odkud pocházíme? Kam jdeme?

Nečte mi to data z Excelu!

Jsou data správně exportovaná do CSV? Nejčastějším problém je, že Excel (Open office, Libre office, či jiný váš oblíbený tabulkový program) dodržuje českou konvenci o desetinné čárce, zatímco náš program potřebuje tečku. Excel umožňuje nastavení desetinného oddělovače v různých verzích různě, zkuste nejdřív toto:

http://support.microsoft.com/kb/320532/en-us?fr=1

Pokud to nezabere, lze ještě v MS Windows v ovládacím panelu Místní a jazykové nastavení změnit formát čísel, ale kdo ví, zda to tatínek dovolí. Rodina programů Open office dovoluje měnit formát každé buňky zvlášť (Formát buňky ... číselný … jazyk … přepínám).

Co když nemám - neumím - nechci mít tabulkový procesor?

Pssst, CSV je vlastně textový soubor, takže ho také mohu připravit ve svém oblíbeném textovém editoru, například vi. Měl bych ale vědět, co dělám.

Proč jsou tak divné obrázky na tlačítkách?

Protože jsou volně šiřitelné, vztahují se tematicky k daným úlohám, kosatec je exemplářem druhu Iris virginica (přeměřte a ověřte) a Edward Muybridge byl ve své době velmi originální fotograf.

Jaké nastavení použít, abych na kosatcích dosáhl nulové chyby?

Odpověď se zjeví po dlouhém experimentování, tajenka se případně skrývá v jednom z obrázků příslušné kapitoly.

Proč jsou na konci všechny výsledky ztraceny?

Jednalo se o nelehké manažerské rozhodnutí zvolit ze dvou zel to menší. Je lepší kdesi v hloubi programu nechat bobtnat databázi výsledků, kterou všichni uživatelé chtě nechtě sdílejí, anebo je lepší ukládat jen na vyžádání? Studentská verze volí druhou možnost, která je výrazně ohleduplnější k životnímu prostředí. Neukládáním ušetříme zhruba 10000000000000000000000000 elektronů.

Jak vypadá ten arff?

ARFF je jeden z nejčastějších formátů souborů, které používají programy pro data mining. Jeho výhodou je, že jde opět o textový soubor, který obsahuje informace o datech, dále tak zvaná metadata (kolik sloupců mají data a jakého jsou typu), a dále případné poznámky o původu a vlastnostech dat, které by měly pomoci dobyvatelům informací z dat. Data v tomto formátu se nacházejí na internetu v nejrůznějších veřejně přístupných databázích.  Pro ilustraci, začátek souboru iris.arff vypadá takto:

% 1. Title: Iris Plants Database

%

% 2. Sources:

%      (a) Creator: R.A. Fisher

%      (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)

%      (c) Date: July, 1988

%

% 3. Past Usage:

%    - Publications: too many to mention!!!  Here are a few.

%    1. Fisher,R.A. "The use of multiple measurements in taxonomic problems"

%       Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions

%       to Mathematical Statistics" (John Wiley, NY, 1950).

%    2. Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis.

%       (Q327.D83) John Wiley & Sons.  ISBN 0-471-22361-1.  See page 218.

%    3. Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System

%       Structure and Classification Rule for Recognition in Partially Exposed

%       Environments".  IEEE Transactions on Pattern Analysis and Machine

%       Intelligence, Vol. PAMI-2, No. 1, 67-71.

%       -- Results:

%          -- very low misclassification rates (0% for the setosa class)

%    4. Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule".  IEEE

%       Transactions on Information Theory, May 1972, 431-433.

%       -- Results:

%          -- very low misclassification rates again

%    5. See also: 1988 MLC Proceedings, 54-64.  Cheeseman et al's AUTOCLASS II

%       conceptual clustering system finds 3 classes in the data.

%

% 4. Relevant Information:

%    --- This is perhaps the best known database to be found in the pattern

%        recognition literature.  Fisher's paper is a classic in the field

%        and is referenced frequently to this day.  (See Duda & Hart, for

%        example.)  The data set contains 3 classes of 50 instances each,

%        where each class refers to a type of iris plant.  One class is

%        linearly separable from the other 2; the latter are NOT linearly

%        separable from each other.

%    --- Predicted attribute: class of iris plant.

%    --- This is an exceedingly simple domain.

%

% 5. Number of Instances: 150 (50 in each of three classes)

%

% 6. Number of Attributes: 4 numeric, predictive attributes and the class

%

% 7. Attribute Information:

%    1. sepal length in cm

%    2. sepal width in cm

%    3. petal length in cm

%    4. petal width in cm

%    5. class:

%       -- Iris Setosa

%       -- Iris Versicolour

%       -- Iris Virginica

%

% 8. Missing Attribute Values: None

%

% Summary Statistics:

%                 Min  Max   Mean    SD   Class Correlation

%    sepal length: 4.3  7.9   5.84  0.83    0.7826  

%     sepal width: 2.0  4.4   3.05  0.43   -0.4194

%    petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)

%     petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

%

% 9. Class Distribution: 33.3% for each of 3 classes.

 

@RELATION iris

 

@ATTRIBUTE sepallength     REAL

@ATTRIBUTE sepalwidth      REAL

@ATTRIBUTE petallength     REAL

@ATTRIBUTE petalwidth      REAL

@ATTRIBUTE class    {Iris-setosa,Iris-versicolor,Iris-virginica}

 

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa