Как набирать результаты работы на компьютере

Главная цель набора -- сделать данные доступными для всех, кто пожелает ими воспользоваться. К сожалению, существует очень много форматов данных, причем многие программы умеют читать одни форматы и не умеют читать другие.

Единственный формат, который воспринимают почти все программы статистического анализа (R, S-PLUS, SPSS, Minitab, STATISTICA) -- это "простой текстовый формат", который иногда называют "формат ASCII".

Бланк, который Вы заполнили -- это по сути уже маленькая таблица, поэтому перенести ее в электронную форму удобнее всего с помощью программы, работающей с электронными таблицами. Наиболее известна MS Excel и ее свободные аналоги GNU Gnumeric и OpenOffice.org CALC. Затем данные надо сохранить в текстовом формате.

Правила набора:

  1. В таблице не должно быть ничего, кроме заголовков столбцов ("переменных") и цифр в остальных ячейках. В принципе, вместо цифр в ячейках в отдельных случаях удобнее набирать латинские буквы, но некоторые программы (например, STATISTICA) некорректно работают с такими данными.
  2. В таблице не должно быть русских букв и вообще любых знаков, кроме цифр, точки и букв латинского алфавита. Таким образом, русские названия переменных лучше перевести на английский, сократить и записать заглавными буквами, например, так:

    Длина листа -> Leaf length -> L.LENGTH

    Можно также использовать транслитерацию:

    Длина листа -> Dlina lista -> DL.LISTA

  3. Если существуют другие данные (прошлого года или выполненные параллельно), названия переменных должны быть одинаковы во всех случаях.
  4. Данные (1) о том, что означают Ваши сокращения и вообще, что это за проект, кто и когда его делал и (2) об общих признаках популяций, то есть то, что в бланках обычно не входит в саму таблицу, надо записать в отдельные файлы. Первый файл называется "файл заголовка" и набирается в обычном текстовом редакторе. Второй файл (в некоторых проектах его может не быть) называется "файл популяций", его можно набирать в виде электронной таблицы. Главный же файл, о котором мы в основном говорим, должен содержать сами измерения и обязательно номера популяций, чтобы можно было легко найти, к какой популяции принадлежит данная особь. Очень желательно и файл заголовка, и файл популяций набирать по-английски.
  5. По окончании набора в программе электронных таблиц файл надо сохранить "как текстовый". Лучше всего, чтобы цифры в основной части файла выглядели бы как:
    3.2,5,3.1
    2.25,3.2,5
    6.25,3.2,5.1
    

    либо:

    3,2;5;3,1
    2,25;3,2;5
    6,25;3,2;5,1
    

    Самое главное, чтобы разделитель ячеек и десятичный разделитель отличались друг от друга. В русифицированном MS Excel второй вариант получается, если при сохранении задать формат "CSV", для других программ результата надо добиваться опытным путем.

  6. Если данные набирались в STATISTICA, то описания переменных часто находятся в таблице "All specs". Нужно вызвать эту таблицу, выделить содержимое, скопировать его в буфер, а затем вставить в какой-нибудь текстовый редактор, например, Notepad (Блокнот) и сохранить как "файл заголовка".
  7. Иногда удобно файл заголовка присоединить к основному файлу (для компактности). В этом случае перед обработкой в программах типа STATISTICA заголовок надо удалять. Чтобы такой файл успешно обрабатывался в R или S-PLUS, надо все строчки заголовка начинать со знака "#" и пробела. В этом случае удалять заголовок не надо, но следует быть осторожным и не записать новый файл "поверх" старого, иначе все комментарии пропадут! Вот как может выглядеть начало такого файла с комментарием:
    # 30 Wakehurst Place, Sussex, U.K., 23 Mar 2003
    # LOCAL Opisaniya populyatsij
    # ZVET Tsvet otgiba venchika, kody: -1 limonno-zheltyi, 0 belyi
    # DL.CHASH Dlina trubki chashechki, mm
    # ZUB Dlina zubchikov chashechki, mm
    # DL.TR Dlina trubki venchika, mm
    # DL.OTG.L Dlina otgiba lepestkov, mm
    #
    ZVET;DL.CHASH;ZUB;DL.TR;DL.OTG.L
    -1;14;5;18;16
    -1;22;8;27;17
    -1;19;;22;16
    -1;21;7;23;18
    
  8. Если Вы набираете флористические списки (например, данные по озерам), удобно сначала всю таблицу заполнить нулями, а затем вставлять в ненулевые ячейки баллы обилия. Если Вы хотите, чтобы названия видов в такой таблице стали названиями строк, надо первую строчку сделать короче на одну ячейку. R и S-PLUS поймут это как "намек" на то, что остальная таблица начинается с названий строк, а не с первой ячейки. К сожалению, этот трюк не работает в других программах.
  9. Для пропущенных данных нужно оставлять ячейки пустыми, и ни в коем случае не обозначать их нулями или прочерками!
  10. Перед тем, как "сдавать" работу, данные надо внимательно просмотреть (например, распечатав набранный файл на принтере). Обратите особое внимание на возможные опечатки -- они могут сильно испортить Вам жизнь при последующей обработке! Очень важно проследить за отсутствием любых знаков, кроме цифр и разделителей, в основном тексте. Очень хорошо также сделать предварительную обработку: определить количество пропущенных данных, максимальное и минимальные значения. Иногда это очень полезно: например, если максимальное значение переменной "DL.LISTA" для подорожника равно 1240 мм, то это скорее всего опечатка (надо было, наверное "12.40" либо "124.0").
  11. В идеальном случае у Вас должно получиться три текстовых файла. Назвать их надо как-нибудь похоже, чтобы потом было легко найти все компоненты работы, например, так:

    pr03-c.txt файл заголовка, работа 2003 г.

    pr03-p.txt файл популяций

    pr03-d.txt основной файл (файл данных)