Модели статистического прогнозирования (§18)
О статистике и статистических данных
Прогнозирование по регрессионной модели
Практическая работа № 3.2 Прогнозирование
Мы получили регрессионную математическую модель и можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосферу угарный газ, то, рассчитав его возможную концентрацию, можно предсказать, как это отразится на заболеваемости астмой жителей города.
Существует два способа прогнозирования по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это концентрация угарного газа С), то это называется восстановлением значения.
Прогнозирование за пределами экспериментальных данных называется экстраполяцией.
Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронных таблиц. Выберем для нашего примера в качестве наиболее подходящей квадратичную зависимость. Построим следующую электронную таблицу:
Подставляя в ячейку А2 значение концентрации угарного газа, в ячейке В2 будем получать прогноз заболеваемости. Вот пример восстановления значения:
Заметим, что число, получаемое по формуле в ячейке В2, на самом деле является дробным. Однако не имеет смысла считать число людей, даже среднее, в дробных величинах. Дробная часть удалена — в формате вывода числа указано 0 цифр после запятой.
Экстраполяционный прогноз выполняется аналогично.
Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С = 7, показано на рис. 3.6.
В ряде случаев с экстраполяцией надо быть осторожным. Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области. В нашем примере при экстраполяции не следует далеко уходить от величины 5 мг/м3. Вполне возможно, что далее характер зависимости существенно меняется. Слишком сложной является система «экология — здоровье человека», в ней много различных факторов, которые связаны друг с другом. Полученная регрессионная функция является всего лишь моделью, экспериментально подтвержденной в диапазоне концентраций от 2 до 5 мг/м3. Что будет вдали от этой области, мы не знаем. Всякая экстраполяция держится на гипотезе: «предположим, что за пределами экспериментальной области закономерность сохраняется». А если не сохраняется?
Квадратичная модель в данном примере в области малых значений концентрации, близких к 0, вообще не годится. Экстраполируя ее на С = 0 мг/м3, получим 150 человек больных, т. е. больше, чем при 4 мг/м3.
Очевидно, это нелепость. В области малых значений С лучше работает экспоненциальная модель. Кстати, это довольно типичная ситуация: разным областям данных могут лучше соответствовать разные модели.
Следующая страница Вопросы и задания