Разработка прогноза с помощью метода наименьших квадратов. Пример решения задачи

Метод наименьших квадратов

Разработка прогноза с помощью метода наименьших квадратов. Пример решения задачи

В основе метода наименьших квадратов (МНК) лежит поиск таких значений коэффициентов регрессии, при которых сумма квадратов отклонений теоретического распределения от эмпирического была бы наименьшей. 

Иными словами, из всего множества линий, линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной: 

следовательно 

Целью процедур линейной регрессии является подгонка прямой линии по точкам. А именно, построить линию регрессии так, чтобы минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому на эту общую процедуру иногда ссылаются как на оценивание по методу наименьших квадратов. Прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=ax+b 

Линейная функция

Зная зависимость между величинами, представленными в таблице и полученные опытным путем, необходимо составить математическую зависимость (функциональную зависимость). Воспользуемся методом наименьших квадратов. Пусть опытные данные, близкие к линейной функции,  записаны в таблицу вида:

 Xx1x2x3xn
 Yy1y2y3yn

Подбираем y=ax+b таким образом, чтобы сумма квадратов отклонений была наименьшей. Чтобы найти минимум функции надо вычислить частные производные по каждому из параметров а и b и приравнять их к нулю. 

Обозначим сумму квадратов отклонений (Σεi2) через S, тогда:

S зависит от a и b, т.е. функция двух переменных принимает наименьшее значение в стандартной точке, которая находится из условия:

 Приравняем каждую частную производную к нулю:

Формула для расчета линейной функции y=ax+b

Опытные данные:

iYiXiX2iYiXi
1-8-2416
27-11-7
37000
452410
553,512,2517,5
63,541614
7352515
82,563615
9274914
101,574910,5
Σ 28,531,5196,25105

Для решения системы линейных уравнений и определения параметров, воспользуемся методом Крамера.

Уравнение прямой принимает следующий вид: y=0.1569X+2.3557

Всего один выброс (экстремальная точка с координатами -2; -8 на диаграмме рассеяния) может полностью изменить наклон регрессионной линии и, следовательно, вид зависимости между переменными.

Такие выбросы могут исказить оценки модели, сдвигая линию регрессии в определенном направлении и, тем самым, вызывая смещение коэффициентов регрессии.

  На случай появления выбросов, должны быть предусмотрены корректировки, основанные на использовании “принципов статистического контроля”, т. е.

значения, выходящие за определенный диапазон, который определяется в терминах, кратных сигма, т.е. стандартных отклонений, могут быть преобразованы или вовсе пропущены, и только после этого должны вычисляться окончательные оценки параметров модели (уравнения) регрессии. 

Квадратичная функция (парабола второго порядка) 

Рассмотрим модель регрессии, которая нелинейна относительно включённых в модель независимых переменных Xi, но линейна по оцениваемым параметрам a, b, c. К таким моделям относятся полиномы второго и выше  порядков, а также гиперболическая функция.

Квадратичную функцию вида 

подбираем таким образом, чтобы сумма квадратов отклонений была наименьшей. Чтобы найти минимум функции надо вычислить частные производные по каждому из параметров (а b c) и приравнять их к нулю. 

Обозначим сумму квадратов отклонений (Σεi2) через S, тогда сумма наименьших квадратов отклонений примет следующее выражение:

Функция трех переменных (a b c) принимает наименьшее значение в стандартной точке, которая находится из условия:

 Приравняем каждую частную производную к нулю:

Формула для расчета квадратичной функции y = ax2 + bx + c

Опытные данные:

iYiXiXi2Xi3Xi4YiXiYiXi2
14,3-11-11-4,34,30
23-0,80,64-0,5120,4096-2,41,92
32000000
41,50,50,250,1250,06250,750,375
51111111
60,81,83,245,83210,49761,442,592
72,524816510
82,72,56,2515,62539,06256,7516,875
93,52,66,7617,57645,69769,123,66
104,23,310,8935,937118,592113,8645,738
∑ 25,511,934,0382,583232,321931,2106,46

Для решения системы линейных уравнений и определения параметров, воспользуемся методом Крамера.

Уравнение параболы 2-го порядка принимает следующий вид:

y=0.6531×2-1.3403x+1.9226

По предварительному анализу для данной модели (уравнения регрессии) выполняются первая и вторая предпосылки МНК: остатки распределены случайно, средняя величина случайного отклонения εi (остатков) для всех наблюдений равна нулю (-6,66134E-17 т.е. с точностью до 17 знака после запятой)

Решение системы линейных алгебраических уравнений (СЛАУ) и вычисление определителя матрицы в MS Excel решается с помощью  матричных функций.

Смотри также:  

Источник: http://helpstat.ru/2012/01/metod-naimenshix-kvadratov/

Метод наименьших квадратов в Excel. Регрессионный анализ

Разработка прогноза с помощью метода наименьших квадратов. Пример решения задачи

Метод наименьших квадратов (МНК) относится к сфере регрессионного анализа. Он имеет множество применений, так как позволяет осуществлять приближенное представление заданной функции другими более простыми.

МНК может оказаться чрезвычайно полезным при обработке наблюдений, и его активно используют для оценки одних величин по результатам измерений других, содержащих случайные ошибки.

Из этой статьи вы узнаете, как реализовать вычисления по методу наименьших квадратов в Excel.

Постановка задачи на конкретном примере

Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

Несколько слов о корректности исходных данных, используемых для предсказания

Допустим, у нас есть таблица, построенная по данным для n магазинов.

Согласно математической статистике, результаты будут более-менее корректными, если исследуются данные по хотя бы 5-6 объектам. Кроме того, нельзя использовать «аномальные» результаты. В частности, элитный небольшой бутик может иметь товарооборот в разы больший, чем товарооборот больших торговых точек класса «масмаркет».

Данные таблицы можно изобразить на декартовой плоскости в виде точек M1 (x1, y1), … Mn (xn, yn). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M1, M2, ..Mn.

Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов – a и b.

Оценка точности

При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через ei разность (отклонение) между функциональными и экспериментальными значениями для точки xi, т. е. ei = yi – f (xi).

Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы ei во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

Метод наименьших квадратов

В Excel, как известно, существует встроенная функция автосуммы, позволяющая вычислить значения всех значений, расположенных в выделенном диапазоне. Таким образом, ничто не помешает нам рассчитать значение выражения (e12 + e22 + e32+ … en2).

В математической записи это имеет вид:

Так как изначально было принято решение об аппроксимировании с помощью прямой, то имеем:

Таким образом, задача нахождения прямой, которая лучше всего описывает конкретную зависимость величин X и Y, сводится к вычислению минимума функции двух переменных:

Для этого требуется приравнять к нулю частные производные по новым переменным a и b, и решить примитивную систему, состоящую из двух уравнений с 2-мя неизвестными вида:

После нехитрых преобразований, включая деление на 2 и манипуляции с суммами, получим:

Решая ее, например, методом Крамера, получаем стационарную точку с некими коэффициентами a* и b*. Это и есть минимум, т. е.

для предсказания, какой товарооборот будет у магазина при определенной площади, подойдет прямая y = a*x + b*, представляющая собой регрессионную модель для примера, о котором идет речь.

Конечно, она не позволит найти точный результат, но поможет получить представление о том, окупится ли покупка в кредит магазина конкретной площади.

Как реализоавать метод наименьших квадратов в Excel

В “Эксель” имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

  • диапазон известных значений для Y (в данном случае данные для товарооборота);
  • диапазон x1, …xn, т. е. величины торговых площадей;
  • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

Некоторые особенности

Регрессионный анализ может быть доступен даже чайникам. Формула Excel для предсказания значения массива неизвестных переменных — «ТЕНДЕНЦИЯ» — может использоваться даже теми, кто никогда не слышал о методе наименьших квадратов. Достаточно просто знать некоторые особенности ее работы. В частности:

  • Если расположить диапазон известных значений переменной y в одной строке или столбце, то каждая строка (столбец) с известными значениями x будет восприниматься программой в качестве отдельной переменной.
  • Если в окне «ТЕНДЕНЦИЯ» не указан диапазон с известными x, то в случае использования функции в Excel программа будет рассматривать его как массив, состоящий из целых чисел, количество которых соответствует диапазону с заданными значениями переменной y.
  • Чтобы получить на выходе массив «предсказанных» значений, выражение для вычисления тенденции нужно вводить как формулу массива.
  • Если не указаны новые значения x, то функция «ТЕНДЕНЦИЯ» считает их равным известным. Если и они не заданы, то в качестве аргумента берется массив 1; 2; 3; 4;…, который соразмерен диапазону с уже заданными параметрами y.
  • Диапазон, содержащий новые значения x должен состоять из такого же или большего количества строк или столбцов, как диапазон с заданными значениями y. Иными словами он должен быть соразмерным независимым переменным.
  • В массиве с известными значениями x может содержаться несколько переменных. Однако если речь идет лишь об одной, то требуется, чтобы диапазоны с заданными значениями x и y были соразмерны. В случае нескольких переменных нужно, чтобы диапазон с заданными значениями y вмещался в одном столбце или в одной строке.

Функция «ПРЕДСКАЗ»

Регрессионный анализ в Excel реализуется с помощью нескольких функций. Одна из них называется «ПРЕДСКАЗ». Она аналогична «ТЕНДЕНЦИИ», т. е. выдает результат вычислений по методу наименьших квадратов. Однако только для одного X, для которого неизвестно значение Y.

Теперь вы знаете формулы в Excel для чайников, позволяющие спрогнозировать величину будущего значения того или иного показателя согласно линейному тренду.

Источник: http://fb.ru/article/342215/metod-naimenshih-kvadratov-v-excel-regressionnyiy-analiz

Решение алгебраических и трансцендентных уравнений 5

Разработка прогноза с помощью метода наименьших квадратов. Пример решения задачи

Одной из самых распространенных задач вычислительной математики является задача статистической обработки данных, и, в частности, составление эмпирических формул для нахождения зависимости одной величины от другой, когда известна таблица их значений, полученных в результате некоторой серии экспериментов.

Общей ЗАДАЧЕЙ здесь является нахождение функции определенного вида, которая наилучшим образом отражает зависимость между величинами. Важнейшее отличие постановки данной задачи от задачи интерполирования состоит в том, что не требуется обязательное совпадение данных, полученных в результате измерений со значениями искомой функции в выделенных точках.

Такая постановка задачи кажется нам более естественной, поскольку:

  • результаты измерений могут быть неточными,

  • выделенные точки (узлы), как правило, ничем не отличаются от всех остальных и непонятно, почему именно в них мы должны требовать точного совпадения данных.

Для того, чтобы сравнивать, какая же из функций лучше отражает данную зависимость, нам надо договориться, как мы будем измерять степень приближения искомой функцией данной нам зависимости. В качестве меры приближения обычно выбирают одну из следующих:

  1. Максимальное по модулю отклонение искомой функции в узлах от данных значений.

  2. Сумма модулей отклонений искомой функции в узлах от данных значений.

  3. Сумма квадратов отклонений искомой функции в узлах от данных значений.

Первый из перечисленных случаев соответствует приближению искомой функцией в равномерной метрике, второй – в интегральной метрике, а последний – приближению в метрике пространства функций с интегрируемым квадратом.

Как видно даже из названия лекции, нас будет больше всего интересовать последний случай, который является самым употребляемым на практике, а, кроме того, он проще остальных в смысле организации вычислений, в том числе и автоматизированной обработки данных.

ПОСТАНОВКА ЗАДАЧИ.

Дана таблица зависимости функции Y от аргумента X:

Надо среди функций одного из указанных ниже видов определить такую (найти значения соответствующих параметров), что сумма квадратов разностей значений этой функции в узлах и величин Yi минимальна.

Обычно ограничиваются функциями одного из следующих видов:

  1. Y=ax+b

  2. Y=ax2+bx+c (реже полином более высокой степени)

  3. Y=axn

  4. Y=a ex

  5. Y=1/(ax+b)

  6. Y=a ln(x)+b

  7. Y=a/x+b

  8. Y=x/(ax+b)

Нахождение наилучшей линейной приближающей функции

Разберем подробно решение задачи, когда решение ищется в виде линейной функции (вид1). Цель – определить коэффициенты a и b таким образом, чтобы величина

приняла наименьшее значение.

Функция F(a,b) представляет из себя многочлен второй степени относительно величин a и b с неотрицательными значениями, поэтому решение всегда существует. Более того, оно единственно, если узлов больше одного и все они разные.

Задача 5.1. Почему это действительно так? Какую поверхность задает F(a,b)?

Известно, что для поиска экстремумов гладких функций нескольких переменных нужно находить критические точки, т.е. те точки, в которых все частные производные функции равны нулю. В нашем случае необходимо решить следующую систему:

Это система двух линейных уравнений с двумя неизвестными a и b.

Перепишем ее в следующем виде:

Введем стандартные в статистике обозначения для моментов:

Тогда наша система перепишется в следующем виде:

которая решается стандартным образом.

Далее, осталось отметить, что раз критическая точка одна, а мы предварительно определили, что у нашей задачи решение есть, то задача решена полностью.

Разберем ПРИМЕР 5.1 нахождения наилучшей линейной функции.

Пусть зависимость задана таблицей

Для ручного вычисления моментов Mx, My, Mxx, Mxy построим таблицу:

X

Y

X2

XY

-3

3

9

-9

-1

4

1

-4

1

6

1

6

3

8

9

24

5

10

25

50

Сумма

5

31

45

67

Среднее значение (М)

1

6.2

9

13.4

Отсюда получаем систему

9a+b=13.4 a=0.9

a+b=6.2 или b=5.3

Итак, наилучшая линейная функция имеет вид y=0.9x+5.3

Упражнение 5.1. Проверьте, что если исходные данные удовлетворяют линейной зависимости Yi=а*Xi+b, то и коэффициенты a и b, полученные при решении указанным методом совпадут с исходными.

Упражнение 5.2. Аналогично приведенному выше методу проделайте выкладки и получите систему уравнений для поиска коэффициентов a, b, c при подборе эмпирической квадратичной зависимости (функция вида 2).

Сведение поиска функций другого вида к поиску линейной функции

При поиске функций другого вида (3-8) задача сводится к рассмотренной выше задаче нахождения наилучшей линейной функции. Для этого производится некоторая замена переменных, которая подбирается таким образом, чтобы вновь полученная задача свелась к нахождению линейной зависимости, а после применения описанной конструкции происходит обратная замена.

Рассмотрим на конкретных примерах, как это происходит.

При поиске, скажем, функции y=1/(ax+b) (вид 5) для сведения задачи к линейной мы производим замену t =1/y, после которой задача сводится к нахождению наилучшей линейной функции t=ax+b. А коэффициенты, найденные при ее решении и будут искомыми в первоначальной задаче. Тем самым, поиск наилучшей функции вида 5 надо осуществлять так:

  1. заменяем в исходной таблице переменную Y на t, а все числа, записанные в нижней строке – на обратные

  2. для получившейся таблицы находим линейную зависимость

  3. получившиеся значения a и b берем без изменения.

Аналогичные действия мы производим при поиске наилучшей приближающей функции вида 6. Но замена, которую необходимо произвести для сведения к линейной задаче, в этом случае имеет вид u=ln(x). Итак, мы получим такое правило поиска наилучшей функции вида 6:

  1. заменяем в исходной таблице переменную X на u, а все числа, записанные в верхней строке – на их логарифмы

  2. для получившейся таблицы находим линейную зависимость

  3. получившиеся значения a и b берем без изменения.

Упражнение 5.3. Провести подобные рассуждения и сформулировать способ решения задачи для функций вида 7.

Для того, чтобы найти наилучшую функцию вида 3, нужно прологарифмировать соотношение y=ахn. При этом получится ln(Y)=ln(a)+n*ln(x), откуда и вытекает способ решения:

  1. заменяем в исходной таблице переменную X на u=ln(X), переменную Y на t=ln(y), а все числа, записанные в таблице – на их логарифмы

  2. для получившейся таблицы находим линейную зависимость

  3. по получившимся значениям a и b находим нужные нам числа применяя формулы n=а, a=eb.

Упражнение 5.4. Провести подобные рассуждения и сформулировать способ решения задачи для функций вида 4.

Упражнение 5.5. Провести подобные рассуждения и сформулировать способ решения задачи для функций вида 8.

Контрольные вопросы

1. Какова общая постановка задачи нахождения эмпирических формул?

2. Каким образом можно оценивать качество приближения?

3. Каким образом графически можно интерпретировать постановку задачи нахождения эмпирических формул?

4.В чем сходство и различие постановки задачи метода наименьших квадратов и задачи интерполяции?

5. Какие виды приближающих функций обычно применяются?

6. В чем суть метода приближения таблично заданной функции по методу наименьших квадратов линейной функцией?

7. Как сводится задача построения различных эмпирических формул к задаче нахождения линейной функции?

лабораторной работы

Постановка задачи: По заданной таблице зависимости некоторой величины Y от аргумента X определить коэффициенты линейной функции (или функции другого вида), которая наилучшим образом отражает эту зависимость.

Порядок работы:

1.Ответить на вопросы контролирующей программы.

2.Ввести в ЭВМ и отладить программу для нахождения по заданной табличной зависимости наилучшей линейной приближающей функции. Проверить работу программы на контрольных примерах.

3. Дополнить программу нахождением наилучших приближающих функций всех перечисленных выше видов (за исключением квадратичной). Программа должна выдавать в каждом случае и сообщение о точности приближения. Протестировать программу на контрольных примерах.

3.Исполнить программу для своего варианта и записать ответы.

4.Оформить и сдать работу.

ОТЧЕТ должен содержать

  • название и цель работы,

  • постановку задачи,

  • текст программы для нахождения наилучшей линейной функции,

  • ответ, а также способ сведения к поиску линейной функции для своего варианта.

РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ УРАВНЕНИЙ

Одной из важнейших прикладных задач численных методов является точное или приближенное решение систем линейных уравнений. Многие математические модели приводят к данной задаче непосредственно, но еще чаще к данной задаче приходят после применения каких-либо методов решения более сложных задач.

Отметим лишь один самый важный класс моделей, приводящий к системам линейных уравнений – метод сеток для решения систем уравнений в частных производных.

Очень большое количество задач естественных наук (физика, аэро- и гидродинамика, химия, биология) на стадии построения математических моделей происходящих процессов приводят к уравнениям или системам уравнений с частными производными.

Для нахождения их приближенных решений применяется метод сеток, в результате которого и получаются системы линейных уравнений. Отличительной особенностью таких систем являются их очень большие размеры (десятки и сотни тысяч уравнений и неизвестных).

Постановка задачи и ее качественное исследование

Рассмотрим систему m линейных уравнений с n переменными:

(7.1)

Систему (7.1) можно записать короче в виде одного матричного уравнения AX=B,

где Х -столбец длины n, B -столбец длины m, А -матрица размерами mхn.

TEOРЕМА 1. Если ранг матрицы А совпадает с рангом расширенной матрицы (А|B), то в этом случае существует решение системы (7.1) и наоборот.

ТЕОРЕМА 2. В случае, когда количество уравнений совпадает с числом неизвестных и определитель A отличен от 0, существует единственное решение системы(7.1).

m=n и det(А)0 => решение (7.1) существует и единственно.

Если n>m, то решений (7.1) обычно бесконечное множество (линейное пространство размерности n-rang(A)). Если m>n, то обычно решений нет.

Упражнение 7.1. Приведите пример несовместной системы, у которой mn.

Далее мы ограничимся рассмотрением частного случая: m=n и det(А)0, т.е. случай, когда решение существует и единственно, хотя метод Гаусса, например, носит универсальный характер.

Методы решения систем линейных уравнений можно разбить на две группы: точные методы и приближенные. К точным (прямым) относятся методы, позволяющие за конечное число шагов получить точное решение системы, (т.е. те методы, погрешность которых равна 0).

К итерационным относятся методы, при которых строится рекуррентная последовательность векторов, сходящихся к решению. Обычно они применяются, когда применение точных методов затруднено или невозможно, например когда порядок системы – тысячи переменных.

К прямым методам относятся, кроме метода Гаусса, метод квадратного корня для симметричных матриц (или компакт-метод для произвольных), метод Крамера. Последний метод обычно изучается в теории систем линейных уравнений в виду возможности кратко записать решение системы.

Пусть D-определитель квадратной матрицы А системы линейных уравнений: D=det(A)0. Пусть D(i)-определитель матрицы, у которой на i-ом месте находится столбец В, а остальные столбцы совпадают с соответствующими столбцами матрицы А.

Тогда координаты вектора решения находятся по формулам: Х(i)=D(i)/D.

Упражнение 7.3. Определите по формулам Крамера решение системы и проверьте его:

Метод Гаусса

(метод последовательного исключения переменных)

Матрица называется верхнетреугольной, если ниже главной диагонали все элементы равны нулю, т.е. aij=0 при i>j. Аналогично, матрица называется нижнетреугольной, если все элементы выше главной диагонали (i

Источник: http://textarchive.ru/c-2633709-p3.html

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.