Как набирать результаты работы на компьютере
Главная цель набора -- сделать данные доступными для всех, кто
пожелает ими воспользоваться. К сожалению, существует очень много
форматов данных, причем многие программы умеют читать одни форматы и не
умеют читать другие.
Единственный формат, который воспринимают почти все программы
статистического анализа (R, S-PLUS, SPSS, Minitab, STATISTICA) -- это
"простой текстовый формат", который иногда называют "формат ASCII".
Бланк, который Вы заполнили -- это по сути уже маленькая таблица,
поэтому перенести ее в электронную форму удобнее всего с помощью
программы, работающей с электронными таблицами. Наиболее известна MS
Excel и ее свободные аналоги GNU Gnumeric и OpenOffice.org CALC. Затем
данные надо сохранить в текстовом формате.
Правила набора:
- В таблице не должно быть ничего, кроме заголовков столбцов
("переменных") и цифр в остальных ячейках. В принципе, вместо цифр в
ячейках в отдельных случаях удобнее набирать латинские буквы, но
некоторые программы (например, STATISTICA) некорректно работают с такими
данными.
- В таблице не должно быть русских букв и вообще любых знаков, кроме
цифр, точки и букв латинского алфавита. Таким образом, русские названия
переменных лучше перевести на английский, сократить и записать
заглавными буквами, например, так:
Длина листа -> Leaf length -> L.LENGTH
Можно также использовать транслитерацию:
Длина листа -> Dlina lista -> DL.LISTA
- Если существуют другие данные (прошлого года или выполненные
параллельно), названия переменных должны быть одинаковы во всех случаях.
- Данные (1) о том, что означают Ваши сокращения и вообще, что это за
проект, кто и когда его делал и (2) об общих признаках популяций, то
есть то, что в бланках обычно не входит в саму таблицу, надо записать в
отдельные файлы. Первый файл называется "файл заголовка" и набирается в
обычном текстовом редакторе. Второй файл (в некоторых проектах его может
не быть) называется "файл популяций", его можно набирать в виде
электронной таблицы. Главный же файл, о котором мы в основном говорим,
должен содержать сами измерения и обязательно номера популяций, чтобы
можно было легко найти, к какой популяции принадлежит данная особь.
Очень желательно и файл заголовка, и файл популяций набирать
по-английски.
- По окончании набора в программе электронных таблиц файл надо
сохранить "как текстовый". Лучше всего, чтобы цифры в основной части файла выглядели
бы как:
3.2,5,3.1
2.25,3.2,5
6.25,3.2,5.1
либо:
3,2;5;3,1
2,25;3,2;5
6,25;3,2;5,1
Самое главное, чтобы разделитель ячеек и десятичный разделитель отличались друг от
друга. В русифицированном MS Excel второй вариант получается, если при сохранении
задать формат "CSV", для других программ результата надо добиваться опытным путем.
- Если данные набирались в STATISTICA, то описания переменных часто
находятся в таблице "All specs". Нужно вызвать эту таблицу, выделить
содержимое, скопировать его в буфер, а затем вставить в какой-нибудь
текстовый редактор, например, Notepad (Блокнот) и сохранить как "файл
заголовка".
- Иногда удобно файл заголовка присоединить к основному файлу (для
компактности). В этом случае перед обработкой в программах типа
STATISTICA заголовок надо удалять. Чтобы такой файл успешно
обрабатывался в R или S-PLUS, надо все строчки заголовка начинать со
знака "#" и пробела. В этом случае удалять заголовок не надо, но следует
быть осторожным и не записать новый файл "поверх" старого, иначе все
комментарии пропадут! Вот как может выглядеть начало такого файла с
комментарием:
# 30 Wakehurst Place, Sussex, U.K., 23 Mar 2003
# LOCAL Opisaniya populyatsij
# ZVET Tsvet otgiba venchika, kody: -1 limonno-zheltyi, 0 belyi
# DL.CHASH Dlina trubki chashechki, mm
# ZUB Dlina zubchikov chashechki, mm
# DL.TR Dlina trubki venchika, mm
# DL.OTG.L Dlina otgiba lepestkov, mm
#
ZVET;DL.CHASH;ZUB;DL.TR;DL.OTG.L
-1;14;5;18;16
-1;22;8;27;17
-1;19;;22;16
-1;21;7;23;18
- Если Вы набираете флористические списки (например, данные по
озерам), удобно сначала всю таблицу заполнить нулями, а затем вставлять
в ненулевые ячейки баллы обилия. Если Вы хотите, чтобы названия видов в
такой таблице стали названиями строк, надо первую строчку сделать короче
на одну ячейку. R и S-PLUS поймут это как "намек" на то, что остальная
таблица начинается с названий строк, а не с первой ячейки. К сожалению,
этот трюк не работает в других программах.
- Для пропущенных данных нужно оставлять ячейки пустыми, и ни в коем
случае не обозначать их нулями или прочерками!
- Перед тем, как "сдавать" работу, данные надо внимательно просмотреть
(например, распечатав набранный файл на принтере). Обратите особое
внимание на возможные опечатки -- они могут сильно испортить Вам жизнь
при последующей обработке! Очень важно проследить за отсутствием любых
знаков, кроме цифр и разделителей, в основном тексте. Очень хорошо также
сделать предварительную обработку: определить количество пропущенных
данных, максимальное и минимальные значения. Иногда это очень полезно:
например, если максимальное значение переменной "DL.LISTA" для
подорожника равно 1240 мм, то это скорее всего опечатка (надо было,
наверное "12.40" либо "124.0").
- В идеальном случае у Вас должно получиться три текстовых файла.
Назвать их надо как-нибудь похоже, чтобы потом было легко найти все
компоненты работы, например, так:
pr03-c.txt файл заголовка, работа 2003 г.
pr03-p.txt файл популяций
pr03-d.txt основной файл (файл данных)