Назад
51
более 16000 элементов. Предполагается, что весь массив данныхэто один пара-
метр (признак), измеренный для нескольких вариантов опыта, хотя возможна
обработка и одной выборки.
Формат двумерного массива:
Число строк = число вариантов + 1 строка значений границ интервалов в
группах;
Число столбцов = число интервалов группировки данных + 1 столбец для
для правой границы последнего интервала (в Табличном Редакторе не отобража-
ется).
В первую строку заносятся значения параметралевых границ интерва-
лов; например, имееем 7 вариантов опыта и 5 интервалов группировки данных:
2.0-3.999, 4.0-4.999, 5.0-5.999, 6.0-6.999, 7.0-9.0;
эти значения заносятся в первую строку массива:
6 8
2,00 4,00 5,00 6,00 7,00 9,00
-999 2 6 1 -999 –999
2 4 6 -999 2 -999
2 5 11 7 2 -999
-999 1 8 3 1 -999
1 2 9 5 3 -999
1 -999 6 2 -999 –999
-999 1 -999 4 2 -999
Данные по овсу, 1997 г.
<= начало файла: 6 столбцов, 8 строк
<= интервалы для групп
1-й вариант: 9 значений
2-й вариант: 14 значений
3-й вариант: 27 значений
4-й вариант: 13 значений
5-й вариант: 20 значений
6-й вариант: 9 значений
7-й вариант: 7 значений
<- необязательный комментарий
Средние для интервалов в этом случае будут следующие:
3,0 4,5 5,5 6,5 8,0
Эти значения будут использоваться программой для вычисления статисти-
ческих характеристик выборок, поэтому границы интервалов должны выби-
раться соответственно реальным средним.
Результаты счета могут быть отредактированы непосредственно в среде
программы при выводе результатов на дисплей (заголовок, комментарии, удале-
ние ненужной информации и т.п.).
В результате работы программы рассчитываются различные виды стати-
стических характеристик: средние, ср.-квадр. отклонения, коэффициенты вариа-
ции, асимметрии, эксцесса, и т.д.
С помощью пункта Меню "Сервис" можно изменить цвет фона, замкнутых
фигур, сменить шрифт, а при выводе графика "столбчатая диаграмма" сделать
некоторые дополнительные операции.
52
Для анализа достоверности различия средних используются формулы из
[10, стр. 99-100]. Для эмпирического значения T-критерия вычисляется вероят-
ность ошибки в случае отклонения 0-гипотезы: данная пара выборок взята из
одной генеральной совокупности, средние различаются только из-за действия
случайных факторов. Если вероятность меньше выбранного уровня значимости
(обычно 0,05), 0-гипотеза должна быть отвергнута: выборки по-видимому взяты
из различных генеральных совокупностей. В качестве контроля можно выбрать
любой вариант, по умолчанию контрольным считается 1-й вариант.
5. Дисперсионный анализ
Классический (параметрический) дисперсионный анализ Р.Фишера предпо-
лагает выполнение нескольких предпосылок [8, стр. 376] для обрабатываемого
массива данных:
1. Нормальность распределения ошибок измерения.
2. Равенство дисперсий ошибок измерения.
3. Статистическая независимость ошибок в последовательности измерений
данных в эксперименте.
Равенство дисперсий ошибок обычно трактуется как равенство выборочных
дисперсий вариантов опыта, так как иным способом оценить вариабельность
ошибок измерения не представляется возможным.
Статистическая независимость ошибок может быть проверена различными
методами, например, тестом серий, тестом достоверности автокорреляций; для
этого надо двумерный массивварианты-повторения преобразовать в одномер-
ный одностолбцовый массив, например:
12,3 12,5 14,2 12,3
8,34 11,0 13,1 –> 12,5
8,48 10,3 11,7 14,2
8,34
11,0
13,1
8,48
10,3
11,7
затем вычислить матрицу автокорреляций (программа MATRIX), либо выполнить
тест серий (SERIES или VARS).
53
В программах пакета обычно есть возможность записать массив остатков
для теста нормальности программой NORMAL, выполнить тест однородности
дисперсий в вариантах массива данных (программа COMPAR).
Проверка нормальности малых выборок 6-10 дат обычно весьма проблема-
тична. Согласно ГОСТ проверка нормальности таких выборок вообще не делает-
ся, так как практически всегда результат будет подтверждать гипотезу нормаль-
ности. Есть, однако, критерии (Уилк-Шапиро, Колмогоров-Смирнов), которые
могут быть использованы для теста нормальности малых выборок.
В руководствах по прикладной статистике обычно имеются фразы типа
при умеренных отклонениях от нормальности допустимо использование класси-
ческих методов”. Следует по возможности добиваться
равного числа повторений,
избегать использования дисперсионного анализа для данных из явно дискретных
распределений (целочисленные значениябаллы, экспертные оценки, численно-
сти, данные в виде 0 и 1, и т.п.). Для таких данных нужно использовать непара-
метрические аналоги дисперсионного анализа.
Основной результат работы программы параметрического дисперсионного
анализа – F-критерий Фишера-Снедекора. 0-гипотеза чаще всего формулируется
следующим образом: отсутствует действие изучаемого фактора типа Fixed,
средние имеют разные значения вследствие действия случайных факторов. Для F-
критерия вычисляется "вероятность ошибки в случае отклонения 0-гипотезы".
Если
P <= 0,01 действие фактора подтверждено на уровне значимости 1%,
P <= 0,05 действие фактора подтверждено на уровне значимости 5%,
P > 0,10 действие фактора не подтверждено.
В многофакторном анализе обычно допускается возможность взаимодейст-
вия факторов, для проверки этого вычисляются F-критерии для каждого вида
взаимодействия (2-, 3-факторные и т.д.).
0-гипотеза для проверки взаимодействия: факторы влияют на изучаемую
систему как простая сумма воздействий, отсутствует эффект взаимоусиления
(синергизм) или взаимоподавления (антагонизм) факторов. F-критерий для взаи-
модействия и соответствующая ему вероятность трактуются аналогично:
P <= 0,01 взаимодействие факторов подтверждено на уровне 1%,
P <= 0,05 взаимодействие факторов подтверждено на уровне 5%,
P > 0,10 взаимодействие факторов не подтверждено.
54
После доказательства действия фактора типа “Fixed” выполняется анализ
достовеpности pазличия фактоpных сpедних по Т-кpитеpию Стьюдента в фоpме
HСР (Hаименьшей Существенной Разницы, в иностранных публикациях LSD,
Least Significant Difference) на заданном уpовне значимости (1, 5 или 10%). Сле-
дует помнить, что Т-кpитеpий полностью коppектен
только пpи 2-х ваpиантах
фактоpа, и может пpивести к ошибочным выводам пpи большем числе ваpиантов.
Для стpогого анализа достовеpности pазличия фактоpных сpедних необходимо
использовать пpогpамму COMPAR. В этой программе множественное сравнение
средних выполняется критериями Шеффе, Тьюки и другими.
Существует проблема относительно трактовки факторов типа “Random”.
Определение Хикса [34, стр. 204-205]
: уровни вариантов выбираются случайным
образом из бесконечной совокупности возможных уровней. Насколько это при-
менимо к практике экспериментирования? Например, принято считать, что фак-
торГоды” (многолетние полевые опыты) – Random типа. В этом случае действие
фактора означает лишь доказательство различия дисперсий по некоторым годам,
относительно различия среднемноголетних теория ничего говорит, тогда как экс-
периментаторам как раз нужна оценка достоверности различия средних по годам.
В этой ситуации можно рекомендовать следующий подход: вначале обрабо-
тать данные по модели “Mixed”; если для “Random” фактора 0-гипотеза
не от-
клоняется
(нет различий дисперсий по годам), выполнить стандартный анализ по
модели “Fixed”. Если в этом случае выявится действие фактораГоды”, присту-
пить к анализу различия среднемноголетних. Отсутствие различия дисперсий по
годам будет всего лишь выполнение одной из предпосылок параметрического
дисперсионного анализаоднородности дисперсий. В случае, когда обнаружено
различие дисперсий, следует анализировать среднемноголетние данные непара-
метрическими методами.
5.1. D1MAXI: 1-факторный дисперсионный анализ
Программа D1MAXI предназначена для обработки экспериментальных
данных методом однофакторного дисперсионного анализа, с возможностью ана-
лиза различий средних по величине НСР (Наименьшей Существенной Разницы).
Массив данных может иметь выпавшие значения, в этом случае используется
итерационный алгоритм "восстановления" данных по Снедекору [20, стр. 294-
295]. В программе можно создать новый массив, заполнить его числами, исполь-
55
зовать для редактирования ранее введенный массив, сформированный в стандарте
пакета SNEDECOR.
Данные в виде двумерного массива "признаки-объекты" могут быть введе-
ны с клавиатуры непосредственно в среде программы, либо иными способами
через буфер Windows, из текстового файла. Пример формирования массива из 3-х
повторностей и 6-и вариантов в текстовом файле:
3 6
12,3 12,5 14,2
8,34 –1,0 13,1
8,48 10,3 11,7
9,23 14,6 11,0
7,12 10,9 10,3
8,27 10,4 12,4
<- начало файла
<- 2-я повторностьдля восстановления
массив данных:
строки = варианты,
столбцы = повторности
В качестве примеров формирования массива для программ, обрабатываю-
щих массивы "варианты-повторности" можно посмотреть файлы D1MAXI.dat,
PEREG233.dat, LAKIN222.dat. Массивы данных, подготовленные для обработки
программами дисперсионного анализа большей факторности, могут быть переда-
ны программе D1MAXI и обработаны как 1-факторные данные. Существует воз-
можность обрабатывать массивы данных с неравным числом повторений. В этом
случае число повторений определяется по значению "-999" при анализе строки
массива слева направо:
4 6
12,3 12,5 14,2 13,4
8,34 9,37 8,25 –999
9,23 10,6 –999 –999
7,12 6,39 8,27 7,55
8,27 19,4 32,4 –999
6,21 8,15 9,66 7,21
Вес листьев
<- начало файла
4 повт.
3 повт. массив данных:
2 повт. строки = варианты,
4 повт. столбцы = повторности.
3 повт. "-999" – признак завершения
4 повт. повторностей варианта.
<- необязательный комментарий
В качестве примера формирования массива с неравным числом повторе-
ний можно использовать файл DAN1.dat. Программа автоматически распознает
тип массива, обрабатывая такие данные по типу "полной рандомизации".
F-критерий Фишера-Снедекора вычисляется для двух методов организации
эксперимента: полной рандомизации вариантов/повторностей и рандомизации
вариантов в блоках повторностей. Дисперсионный анализ подразумевает мате-
матическую модель данных (полная рандомизация):
ijiij
eay ++=
μ
; μгенеральное среднее изучаемой системы;
a
i
эффект варианта фактора типа Fixed;
56
e
ij
ошибка от случайных факторов, распределена по N(0, σ).
0-гипотеза: все a
i
=0, контр-гипотеза: некоторые a
i
=/=0. Математическая
модель в случае рандомизации в блоках:
;eray
ijjiij
+++=
μ
r
j
возможный эффект блока повторений.
Для проверки одной из предпосылок классического дисперсионного анализа
нормальности распределения остатковпрограмма может сформировать 1-
мерный массив остатков в соответствии с моделью данных (полная рандомиза-
ция/рандомизация в блоках), который далее записывается в виде файла для обра-
ботки программой NORMAL.
Пример обработки 1-факторных данных:
Таблица разложения дисперсии ANOVA. Рандомизация в блоках.
————————————————————————————————————————————————————————————————
Дисперсия | Сумма | Доля |Степени| Средний | F- |
| квадратов |вариации|свободы| квадрат |критерий|
————————————————————————————————————————————————————————————————
Общая | 44,498 | 1.0000 | 20 | 2,225 | |
Фактор | 27,885 | 0,6267 | 6 | 4,647 | 4,172 |
Повторения| 3,247 | 0,0730 | 2 | 1,623 | |
Сл.Факторы| 13,367 | 0,3004 | 12 | 1,114 | |
————————————————————————————————————————————————————————————————
F-критерий = 4,1723, ст.св.=6, 12, P=0,0170
Степень влияния по Снедекору = 0,5140
Станд.Ошибка = 0,6093 (5,20% от общего среднего)
HCP(1%)= 2,6322 HCP(5%)= 1,8776 HCP(10%)= 1,5359
Вероятность, вычисленная для значения F-критерия, меньше 0,05; таким
образом, принимается контр-гипотеза: фактор действует, некоторые средние дос-
товерно различаются. Значение (5,2% от общего среднего) в некоторых руково-
дствах трактуется как показательточности опыта”, в других книгах такая харак-
теристика игнорируется. Важный показательВлияние фактора” – можно исполь-
зовать либостепень влияния по Снедекору”, либоДолю вариациииз таблицы
ANOVA.
После выявления действия фактора приступают к анализу различия сред-
них. В качестве контрольного варианта автоматически предлагается первый вари-
ант; если же в действительности в опыте контрольным был другой вариант, его
номер нужно ввести в окне установок параметров анализа. Достоверность разли-
чия средних в сравнении с контрольным вариантом может быть проверена лю-
бым из четырёх критериевШеффе, Тьюки, T(n), Стьюдента. Число средних
(вариантов) фактора не должно превышать 20 [ограничение, связанное с разме-
рами таблиц критериев Тьюки и T(n)]; при выборе критериев Шеффе и Стьюдента
число вариантов может быть произвольным.
57
—————————Повторности——————————————————————————————————
| 1 2 3 |Средние |Разница Значима?|
Варианты——————————————————————————————————————————————
1 | 12,30 12,50 14,20 | 13,00 | Контроль |
2 | 10,00 13,00 12,10 | 11,70 | -1,300 Нет |
3 | 9,000 10,00 11,00 | 10,00 | -3,000 Да! |
4 | 13,00 14,00 11,50 | 12,83 | -0,167 Нет |
5 | 11,00 10,90 10,30 | 10,73 | -2,267 Да! |
6 | 10,00 10,40 12,00 | 10,80 | -2,200 Да! |
7 | 13,00 14,00 12,00 | 13,00 | 0,000 Нет |
——————————————————————————————————————————————————————
Средние 11,19 12,11 11,87 | 11,724 | -1,276 Нет |
——————————————————————————————————————————————————————
Критерий Стьюдента предлагается программой по умолчанию, это связано с
общепринятой практикой Российских естествоиспытателей, однако следует пом-
нить, что это оправдано только при малом числе вариантов (2..4) и при больших
значениях критерия Фишера-Снедекора, с вероятностью ошибки 1-го рода поряд-
ка 0,005 и менее.
Средние каждого фактора вычисляются на основе фактически имеюшихся
значений (исключаются пропуски, даты для восстановления), затем анализиру-
ются сравнением с величиной Наименьшей Существенной Разницы (НСР, в анг-
лоязычной литературе LSD – Least Significant Differens) на выбранном уровне
значимости.
Все критерии сравнения средних, используемые в программе, полностью
эквивалентны для случая эксперимента из 2-х вариантов; как только число ва-
риантов увеличивается, достоверность выявления ДЕЙСТВИТЕЛЬНО разли-
чающихся пар средних может падать.
Самым жестким критерием достоверности различия средних является кри-
терий Шеффе; менее категоричными, но достаточно строгими в теоретическом
плане являются критерии Тьюки и T(n); критерий Стьюдента может привести к
завышенному числу "достоверно" различающихся пар средних при большем чис-
ле вариантов. Известный критерий Дункана основан на эмпирическом правиле
выявления достоверной разницы, и не может считаться строгим критерием для
определения достоверных различий (однако, имеется в программе COMPAR).
Формулы для анализа средних взяты из "Основных таблиц математической ста-
тистики" Ликеша, Ляги; М., 1985, стр. 30-34.
Pекомендуем пользоваться для анализа сpедних, фоpмиpуя HСP на базе
кpитеpия Тьюки.
58
5.2. D2MAXI: 2-факторный дисперсионный анализ
Программа D2MAXI предназначена для обработки экспериментальных
данных различными методами параметрического 2-факторного дисперсионного
анализа, с возможностью анализа различий средних сравнением с Наименьшей
Существенной Разницей, вычисляемой на базе критериев Шеффе, Тьюки, T(n),
Стьюдента. Массив данных может иметь выпавшие значения (помечаемые как -
1.0).
Данные в виде двумерного массива "варианты-повторения " могут быть
введены с клавиатуры непосредственно в среде программы, либо иными способа-
мичерез буфер Windows, из текстового файла.
Ограничения на размер массива данных: общее число вариантовне более
8000, максимальное количество вариантов в любом факторе – 100, максимальное
количество повторностей – 100, общий размер массиване более 16000 элемен-
тов. Пример формирования массива из 4-х повторностей, 2-х вариантов фактора
"А" и 3-х вариантов фактора "В" в текстовом файле:
4 6 2 3
12,3 12,5 14,2 13,1
8,34 13,7 -1,0 11,9
13,3 14,6 11,0 15,3
7,12 9,08 10,3 11,5
8,27 9,56 7,33 10,3
11,5 12,1 11,7 13,5
Данные за 1998 г
<- начало файла
1a1b вар. Всего 2*3=6 вариантов;
1a2b вар. <- в 3-й повторности дата для восстан.
1a3b вар.
2a1b вар. Массив данных:
2a2b вар. Строки = варианты,
2a3b вар. Столбцы = повторности.
<- необязательный комментарий
В качестве примера формирования массива для программы D2MAXI
можно посмотреть файлы D2MAXI.dat, DOSP250.dat. Массивы данных, подго-
товленных для обработки методами дисперсионного анализа большей факторно-
сти (3 и выше), не могут быть переданы программе D2MAXI и обработаны
как 2-факторные данные.
Существует возможность обрабатывать массивы данных с неравным чис-
лом повторений. В этом случае число повторений определяется по значению "-
999" при анализе строки массива слева направо:
59
4 6 2 3
12,3 12,5 14,2 13,1
8,34 13,7 8,25 –999
13,3 14,6 –999 –999
7,12 9,08 10,3 11,5
8,27 9,56 7,33 –999
11,5 12,1 11,7 13,5
Вес листьев
<- начало файла
4 повт.
3 повт. Массив данных:
2 повт. Строки = варианты,
4 повт. Столбцы = повторности.
3 повт. "-999" – признак завершения
4 повт. Повторностей варианта.
<- необязательный комментарий
В качестве примера формирования массива с неравным числом повторе-
ний можно использовать файл DAN2.dat. Программа автоматически распознает
тип массива, обрабатывая такие данные по типу "полной рандомизации".
F-критерий Фишера-Снедекора вычисляется для двух методов организации
эксперимента: полной рандомизации вариантов/повторностей и рандомизации
вариантов в блоках повторностей. Дисперсионный анализ подразумевает мате-
матическую модель данных (полная рандомизация):
ijkijjiijk
eabbay
+
+++=
μ
; μгенеральное среднее изучаемой системы;
a
i
эффект варианта фактора A типа Fixed;
b
j
эффект варианта фактора B типа Fixed;
ab
ij
эффект взаимодействия факторов;
e
ijk
ошибка от случайных факторов, распределена по N(0, σ).
0-гипотезы: все a
i
=0, все b
j
=0, все ab
ij
=0;
контр-гипотезы: некоторые a
i
=/=0, b
j
=/=0, v
ij
=/=0.
Математическая модель в случае рандомизации в блоках:
ijkkijjiijk
erabbay +
+
+++=
μ
; r
k
возможный эффект блока повторений.
Для проверки одной из предпосылок классического дисперсионного анализа
нормальности распределения остатков, программа может сформировать 1-
мерный массив остатков в соответствии с моделью данных (полная рандомиза-
ция/рандомизация в блоках), который далее записывается в виде файла для обра-
ботки программой NORMAL.
Пример обработки 2-факторных данных (файл LAKIN224.dat):
Таблица ANOVA. Полная рендомизация.
—————————————————————————————————————————————————————————————————————
Дисперсия | Сумма | Доля |Степени| Средний | F- |
| квадратов |вариации|свободы| квадрат |критерий|
—————————————————————————————————————————————————————————————————————
Общая | 15,779 | 1.0000 | 35 | 0,451 | |
Случайные Факторы | 6,227 | 0,3946 | 24 | 0,259 | |
Варианты | 9,552 | 0,6054 | 11 | 0,868 | 3,3471 |
=> Фактор "A" | 0,511 | 0,0324 | 2 | 0,255 | 0,9839 |
=> Фактор "B" | 7,939 | 0,5031 | 3 | 2,646 | 10,200 |
=>Взаимодействие| 1,103 | 0,0699 | 6 | 0,184 | 0,7084 |
60
—————————————————————————————————————————————————————————————————————
Анализ действия факторов
—————————————————————————————————————————————————————————————————————
Фактор|Степень | Критерий Фишера-Снедекора |Наим.Существ.Разность|
| влияния| F |ст.своб.|вероятность| 1% 5% 10% |
—————————————————————————————————————————————————————————————————————
A | 0,0000 | 0,984 | 2, 24 | 0,38842 | 0,582 0,429 0,356 |
B | 0,5055 | 10,200 | 3, 24 | 0,00016* | 0,672 0,496 0,411 |
AB | 0,0000 | 0,708 | 6, 24 | 0,64603 | 1,163 0,858 0,712 |
Частные средние| 3,347 | 11, 24 | 0,00645* | 1,163 0,858 0,712 |
————————————————————————————————————————————————————————
Стандартная Ошибка = 0,2941 (9,21% от общего среднего)
—————————————
Нет оснований для отклонения 0-гипотезы относительно действия фактора
А (F-критерий меньше единицы, следовательно все средние вариантов фактора А
не различаются. F-критерий для фактора В позволяет отклонить 0-гипотезу на
очень высоком уровне значимости (P<0,001), имеются достоверные различия
средних фактора В. F-критерий для частных средних также говорит о наличии
достоверно различающихся средних в ячейках плана:
Варианты—————Фактор-"B"——————————————————————————————————————
1 2 3 4 |Средние | Разница Значима?
Фактор"A"————————————————————————————————————————————————————
1 | 2,500 3,767 2,833 3,100 | 3,050 | Контроль |
2 | 2,800 4,167 3,433 2,967 | 3,342 | 0,292 Нет |
3 | 2,433 3,700 3,600 3,033 | 3,192 | 0,142 Нет |
—————————————————————————————————————————————————————————————
Средние| 2,578 3,878 3,289 3,033 | 3,1944 | 0,144 Нет |
Разница| Контр. 1,30 0,71 0,46 | 0,617 |
Значима? Да! Да! Нет | Да! |
————————————————————————————————————————————
Для анализа различий средних в качестве контрольного варианта автомати-
чески предлагается первый вариант; если же в действительности в опыте кон-
трольным был другой вариант, его номер нужно ввести в окне установок пара-
метров анализа (перед выводом на дисплей). В случае, если в массиве имеются
выпавшие значения, для анализа различия средних НСР вычисляется для кон-
кретной пары среднихс учетом действительного числа дат в вариантах.
Здесь же можно указать на необходимость объединения дисперсии взаи-
модействия с дисперсией от случайных факторов, если a priori известно, что
взаимодействие факторов отсутствует. Если о возможности взаимодействия нет
данных, дисперсия взаимодействия может быть объединена с дисперсией от
случайных факторов в случае подтверждения 0-гипотезы (отсутствие взаимодей-
ствия). Тогда несколько изменятся значения F-критериев для главных эффектов.
Это рекомендуется делать при значении вероятности ошибки более 0.5.
Наличие взаимодействия факторов можно анализировать графически: ли-
нии на графике должны быть расходящимися в случае взаимодействия, или бо-
лее-менее параллельными при отсутствии эффекта взаимодействия.