Функция ЛИНЕСТ в Excel с примерами формул

  • Поделись Этим
Michael Brown

В этом учебном пособии объясняется синтаксис функции LINEST и показывается, как использовать ее для проведения линейного регрессионного анализа в Excel.

Microsoft Excel не является статистической программой, однако в ней есть ряд статистических функций. Одной из таких функций является LINEST, которая предназначена для проведения линейного регрессионного анализа и возврата соответствующей статистики. В этом учебнике для начинающих мы лишь слегка коснемся теории и основных расчетов. Наше основное внимание будет сосредоточено на том, чтобы предоставить вам формулу, которая просто работает.может быть легко настроена под ваши данные.

    Функция ЛИНЕСТ в Excel - синтаксис и основные области применения

    Функция LINEST вычисляет статистику для прямой линии, которая объясняет связь между независимой переменной и одной или несколькими зависимыми переменными, и возвращает массив, описывающий линию. Функция использует функцию наименьшие квадраты метод, чтобы найти наилучшее соответствие для ваших данных. Уравнение для линии выглядит следующим образом.

    Уравнение простой линейной регрессии:

    y = bx + a

    Уравнение множественной регрессии:

    y = b 1 x 1 + b 2 x 2 + ... + b n x n + a

    Где:

    • y - зависимая переменная, которую вы пытаетесь предсказать.
    • x - независимая переменная, которую вы используете для прогнозирования y .
    • a - перехват (указывает, где линия пересекает ось Y).
    • b - наклон (показывает крутизну линии регрессии, т.е. скорость изменения y при изменении x).

    В своей основной форме функция LINEST возвращает перехват (a) и наклон (b) для уравнения регрессии. По желанию она может возвращать дополнительную статистику для регрессионного анализа, как показано в данном примере.

    Синтаксис функции LINEST

    Синтаксис функции Excel LINEST следующий:

    LINEST(известные_y's, [известные_x's], [const], [stats])

    Где:

    • известный (требуемый) является диапазоном зависимого y -значения в уравнении регрессии. Обычно это один столбец или одна строка.
    • известные_х (необязательно) - это диапазон независимых значений x. Если он опущен, предполагается, что это массив {1,2,3,...} того же размера, что и известный .
    • const (необязательно) - логическое значение, определяющее, как перехват (константа a ) должны быть обработаны:
      • Если TRUE или опущено, то константа a рассчитывается нормально.
      • Если FALSE, то константа a принудительно равна 0, а наклон ( b коэффициент) рассчитывается для соответствия y=bx.
    • статистика (необязательно) - логическое значение, определяющее, выводить или нет дополнительную статистику:
      • Если TRUE, функция LINEST возвращает массив с дополнительной статистикой регрессии.
      • Если FALSE или опущено, LINEST возвращает только константу перехвата и коэффициент(ы) наклона.

    Примечание. Поскольку LINEST возвращает массив значений, его необходимо ввести как формулу массива, нажав сочетание клавиш Ctrl + Shift + Enter. Если его ввести как обычную формулу, возвращается только первый коэффициент наклона.

    Дополнительная статистика, возвращаемая LINEST

    Сайт статистика аргумент, установленный в TRUE, дает указание функции LINEST вернуть следующие статистические данные для вашего регрессионного анализа:

    Статистика Описание
    Коэффициент наклона b значение в y = bx + a
    Константа перехвата значение в y = bx + a
    Стандартная ошибка наклона Значение(я) стандартной(ых) ошибки(й) для коэффициента(ов) b.
    Стандартная ошибка перехвата Значение стандартной ошибки для константы a .
    Коэффициент детерминации (R2) Показывает, насколько хорошо уравнение регрессии объясняет взаимосвязь между переменными.
    Стандартная ошибка для оценки Y Показывает точность регрессионного анализа.
    F-статистика, или F-наблюдаемое значение Он используется для проведения F-теста для нулевой гипотезы, чтобы определить общую степень пригодности модели.
    Степени свободы (df) Число степеней свободы.
    Сумма квадратов регрессии Показывает, какая часть вариации зависимой переменной объясняется моделью.
    Остаточная сумма квадратов Измеряет величину дисперсии зависимой переменной, которая не объясняется вашей регрессионной моделью.

    На приведенной ниже карте показан порядок, в котором LINEST возвращает массив статистики:

    В последних трех строках ошибки #N/A появятся в третьем и последующих столбцах, не заполненных данными. Это поведение функции LINEST по умолчанию, но если вы хотите скрыть обозначения ошибок, оберните вашу формулу LINEST в IFERROR, как показано в этом примере.

    Как использовать LINEST в Excel - примеры формул

    Функция ЛИНЭСТ может быть сложной в использовании, особенно для новичков, потому что нужно не только правильно построить формулу, но и правильно интерпретировать ее результат. Ниже вы найдете несколько примеров использования формул ЛИНЭСТ в Excel, которые, надеюсь, помогут погрузиться в теоретические знания :)

    Простая линейная регрессия: вычислить наклон и перехват

    Чтобы получить интерцепт и наклон линии регрессии, вы используете функцию ЛИНЕЙН в ее простейшей форме: задайте диапазон зависимых значений для параметра известный аргумент и диапазон независимых значений для известные_х Последние два аргумента могут быть установлены в TRUE или опущены.

    Например, с y значения (количество продаж) в C2:C13 и значения x (стоимость рекламы) в B2:B13, наша формула линейной регрессии проста:

    =LINEST(C2:C13,B2:B13)

    Чтобы правильно ввести ее в рабочий лист, выделите две соседние ячейки в одной строке, E2:F2 в данном примере, введите формулу и нажмите Ctrl + Shift + Enter для ее завершения.

    Формула вернет коэффициент наклона в первую ячейку (E2) и константу перехвата во вторую ячейку (F2):

    Сайт наклон составляет приблизительно 0,52 (округлено до двух знаков после запятой). Это означает, что когда x увеличивается на 1, y увеличивается на 0,52.

    Сайт Y-интерцепт отрицательное -4.99. Это ожидаемое значение y когда x=0. Если построить график, то это значение, при котором линия регрессии пересекает ось y.

    Подставьте приведенные выше значения в простое уравнение линейной регрессии, и вы получите следующую формулу для прогнозирования количества продаж в зависимости от стоимости рекламы:

    y = 0,52*x - 4,99

    Например, если вы потратите 50 долларов на рекламу, то ожидается, что вы продадите 21 зонтик:

    0.52*50 - 4.99 = 21.01

    Значения наклона и перехвата можно также получить отдельно, используя соответствующую функцию или вложив формулу LINEST в INDEX:

    Склон

    =SLOPE(C2:C13,B2:B13)

    =INDEX(LINEST(C2:C13,B2:B13),1)

    Перехват

    =INTERCEPT(C2:C13,B2:B13)

    =INDEX(LINEST(C2:C13,B2:B13),2)

    Как показано на скриншоте ниже, все три формулы дают одинаковые результаты:

    Множественная линейная регрессия: наклон и перехват

    Если у вас есть две или более независимых переменных, обязательно введите их в соседние столбцы и передайте весь этот диапазон в файл известные_х аргумент.

    Например, с номерами продаж ( y D2:D13, стоимость рекламы (один набор значений x) в B2:B13 и среднемесячное количество осадков (другой набор значений x) в D2:D13. x значения) в C2:C13, вы используете эту формулу:

    =LINEST(D2:D13,B2:C13)

    Поскольку формула будет возвращать массив из 3 значений (2 коэффициента наклона и константа перехвата), выделим три смежные ячейки в одной строке, введем формулу и нажмем комбинацию клавиш Ctrl + Shift + Enter.

    Обратите внимание, что формула множественной регрессии возвращает значение коэффициенты наклона в обратный порядок независимых переменных (справа налево), то есть b n , b n-1 , ..., b 2 , b 1 :

    Чтобы спрогнозировать количество продаж, мы подставляем значения, полученные по формуле LINEST, в уравнение множественной регрессии:

    y = 0.3*x 2 + 0.19*x 1 - 10.74

    Например, при затратах на рекламу в размере $50 и среднемесячном количестве осадков в 100 мм, ожидается, что вы продадите примерно 23 зонта:

    0.3*50 + 0.19*100 - 10.74 = 23.26

    Простая линейная регрессия: предсказать зависимую переменную

    Помимо расчета a и b значения для уравнения регрессии, функция Excel ЛИНЭСТ может также оценить зависимую переменную (y) на основе известной независимой переменной (x). Для этого используется ЛИНЭСТ в сочетании с функцией SUM или SUMPRODUCT.

    Например, вот как вы можете рассчитать количество продаж зонтов на следующий месяц, скажем, октябрь, на основе продаж в предыдущие месяцы и рекламного бюджета на октябрь в размере 50 долларов:

    =SUM(LINEST(C2:C10, B2:B10)*{50,1})

    Вместо жесткого кодирования x значение в формуле, вы можете предоставить его как ссылку на ячейку. В этом случае вам нужно ввести константу 1 в какую-то ячейку, потому что вы не можете смешивать ссылки и значения в константе массива.

    С x значение в E2 и константу 1 в F2, то любая из приведенных ниже формул будет работать на ура:

    Обычная формула (вводится нажатием клавиши Enter ):

    = СУММАРНЫЙ ПРОДУКТ(LINEST(C2:C10, B2:B10)*(E2:F2))

    Формула массива (вводится нажатием клавиш Ctrl + Shift + Enter ):

    =SUM(LINEST(C2:C10, B2:B10)*(E2:F2))

    Чтобы проверить результат, вы можете получить перехват и наклон для тех же данных, а затем использовать формулу линейной регрессии для расчета y :

    =E2*G2+F2

    Где E2 - наклон, G2 - x значение, а F2 - перехват:

    Множественная регрессия: прогнозирование зависимой переменной

    В случае, если вы имеете дело с несколькими предикторами, т.е. с несколькими различными наборами x значения, включите все эти предикторы в массив констант. Например, при рекламном бюджете в 50 долларов (x 2 ) и среднемесячное количество осадков 100 мм (x 1 ), формула выглядит следующим образом:

    =SUM(LINEST(D2:D10, B2:C10)*{50,100,1})

    Где D2:D10 - известные y значения, а B2:C10 - два набора x значения:

    Пожалуйста, обратите внимание на порядок x значения в массиве constant. Как указывалось ранее, когда функция Excel ЛИНЭСТ используется для множественной регрессии, она возвращает коэффициенты наклона справа налево. В нашем примере, функция Реклама сначала возвращается коэффициент, а затем Осадки коэффициент. Чтобы правильно рассчитать прогнозируемое число продаж, необходимо умножить коэффициенты на соответствующие x значения, поэтому вы размещаете элементы константы массива в таком порядке: {50,100,1}. Последний элемент - 1, потому что последнее значение, возвращаемое LINEST, - это перехват, который не должен быть изменен, поэтому вы просто умножаете его на 1.

    Вместо того чтобы использовать константу массива, вы можете ввести все переменные x в некоторые ячейки и ссылаться на эти ячейки в вашей формуле, как мы делали в предыдущем примере.

    Обычная формула:

    = СУММАРНЫЙ ПРОДУКТ(LINEST(D2:D10, B2:C10)*(F2:H2))

    Формула массива:

    =SUM(LINEST(D2:D10, B2:C10)*(F2:H2))

    Где F2 и G2 - это x значения, а H2 - 1:

    Формула LINEST: дополнительная статистика регрессии

    Как вы помните, чтобы получить больше статистики для регрессионного анализа, в последнем аргументе функции LINEST ставится TRUE. В применении к данным нашей выборки формула принимает следующий вид:

    =LINEST(D2:D13, B2:C13, TRUE, TRUE)

    Поскольку у нас есть 2 независимые переменные в столбцах B и C, мы выбираем ярость, состоящую из 3 строк (два значения x + перехват) и 5 столбцов, вводим приведенную выше формулу, нажимаем Ctrl + Shift + Enter , и получаем такой результат:

    Чтобы избавиться от ошибок #N/A, вы можете вложить LINEST в IFERROR следующим образом:

    =IFERROR(LINEST(D2:D13, B2:C13, TRUE, TRUE), "")

    На скриншоте ниже показан результат и объяснено, что означает каждое число:

    Коэффициенты наклона и Y-интерцепт были объяснены в предыдущих примерах, поэтому давайте вкратце рассмотрим другие статистические данные.

    Коэффициент детерминации (R2). Значение R2 - это результат деления суммы квадратов регрессии на общую сумму квадратов. Оно показывает, сколько y значения объясняются x переменных. Это может быть любое число от 0 до 1, то есть от 0% до 100%. В данном примере R2 составляет приблизительно 0,97, что означает, что 97% наших зависимых переменных (продажи зонтов) объясняются независимыми переменными (реклама + среднемесячное количество осадков), что является отличным подходом!

    Стандартные ошибки В целом, эти значения показывают точность регрессионного анализа. Чем меньше эти числа, тем больше уверенности в регрессионной модели.

    F-статистика Рекомендуется использовать статистику F в сочетании со значением P при решении вопроса о том, являются ли общие результаты значимыми.

    Степени свободы (df). Функция ЛИНЕСТ в Excel возвращает значение остаточные степени свободы , который является общий df минус регрессионный df Вы можете использовать степени свободы для получения F-критических значений в статистической таблице, а затем сравнить F-критические значения со статистикой F для определения уровня доверия для вашей модели.

    Сумма квадратов регрессии (он же объясненная сумма квадратов , или сумма квадратов модели ). Это сумма квадратов разницы между предсказанными значениями y и средним значением y, рассчитываемая по формуле: =∑(ŷ - ȳ)2. Она показывает, какую часть вариации зависимой переменной объясняет ваша регрессионная модель.

    Остаточная сумма квадратов Это сумма квадратов разницы между фактическими значениями y и предсказанными значениями y. Она показывает, какую часть вариации зависимой переменной ваша модель не объясняет. Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем лучше ваша регрессионная модель соответствует данным.

    5 вещей, которые вы должны знать о функции LINEST

    Чтобы эффективно использовать формулы LINEST в своих рабочих листах, вы можете узнать немного больше о "внутренней механике" функции:

    1. Known_y's и известные_х В простой линейной регрессионной модели с одним набором переменных x, известный и известные_х могут быть диапазонами любой формы, если только они имеют одинаковое количество строк и столбцов. Если вы проводите множественный регрессионный анализ с более чем одним набором независимых x переменные, известный должен быть вектором, т.е. диапазоном из одной строки или одного столбца.
    2. Принуждение константы к нулю . Когда const аргумент равен TRUE или опущен, то a вычисляется константа (перехват) и включается в уравнение: y=bx + a. Если const имеет значение FALSE, перехват считается равным 0 и исключается из уравнения регрессии: y=bx.

      В статистике уже несколько десятилетий ведутся споры о том, имеет ли смысл приводить константу перехвата к 0 или нет. Многие авторитетные специалисты по регрессионному анализу считают, что если приведение перехвата к нулю (const=FALSE) оказывается полезным, то линейная регрессия сама по себе является неверной моделью для данного набора данных. Другие полагают, что константу можно приводить к нулю в определенных ситуациях, например,В целом, в большинстве случаев рекомендуется использовать const=TRUE или опустить.

    3. Точность Точность уравнения регрессии, рассчитанного функцией LINEST, зависит от дисперсии точек ваших данных. Чем линейнее данные, тем точнее результаты формулы LINEST.
    4. Избыточные значения x В некоторых ситуациях один или несколько независимых x переменные могут не иметь дополнительной предсказательной ценности, и удаление таких переменных из регрессионной модели не влияет на точность предсказанных значений y. Это явление известно как "коллинеарность". Функция Excel ЛИНЕСТ проверяет коллинеарность и исключает все лишние переменные. x переменные, которые он идентифицирует из модели. Опущенные x переменных можно узнать по 0 коэффициентам и 0 значениям стандартной ошибки.
    5. ЛИНЕСТ против СЛОПА и ИНТЕРСЕПТА Алгоритм, лежащий в основе функции LINEST, отличается от алгоритма, используемого в функциях SLOPE и INTERCEPT. Поэтому, когда исходные данные не определены или коллинеарны, эти функции могут давать разные результаты.

    Функция ЛИНЕСТ в Excel не работает

    Если ваша формула LINEST выдает ошибку или выдает неправильный результат, скорее всего, это происходит по одной из следующих причин:

    1. Если функция LINEST возвращает только одно число (коэффициент наклона), скорее всего, вы ввели ее как обычную формулу, а не как формулу массива. Обязательно нажмите Ctrl + Shift + Enter, чтобы правильно завершить формулу. Когда вы это сделаете, формула будет заключена в {курчавые скобки}, которые видны в строке формул.
    2. Ошибка #REF! Возникает, если известные_х и известный диапазоны имеют разные размеры.
    3. #VALUE! ошибка. Возникает, если известные_х или известный содержит хотя бы одну пустую ячейку, текстовое значение или текстовое представление числа, которое Excel не распознает как числовое значение. Также ошибка #VALUE возникает, если в поле const или статистика аргумент не может быть оценен как TRUE или FALSE.

    Вот как можно использовать LINEST в Excel для простого и множественного линейного регрессионного анализа. Для более детального изучения формул, рассмотренных в этом руководстве, вы можете скачать наш образец рабочей книги ниже. Я благодарю вас за чтение и надеюсь увидеть вас в нашем блоге на следующей неделе!

    Рабочая тетрадь для тренировок для скачивания

    Примеры функций Excel LINEST (файл.xlsx)

    Майкл Браун — увлеченный технологический энтузиаст, стремящийся упростить сложные процессы с помощью программных инструментов. Имея более чем десятилетний опыт работы в технологической отрасли, он отточил свои навыки в Microsoft Excel и Outlook, а также в Google Sheets и Docs. Блог Майкла посвящен тому, чтобы делиться своими знаниями и опытом с другими, предоставляя простые советы и учебные пособия для повышения производительности и эффективности. Являетесь ли вы опытным профессионалом или новичком, в блоге Майкла вы найдете ценную информацию и практические советы, которые помогут вам максимально эффективно использовать эти важные программные инструменты.