Наши исследования МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ИНДЕКСА KASE

МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ИНДЕКСА KASE

19 June 2013

В данной статье на основе ежедневных значений индекса KASE на момент закрытия торгов с 5 января 2009 года по 27 апреля 2012 года была построена модель оперативного прогнозирования рынка акций Республики Казахстан.

В процессе первичного анализа данных возникли проблемы с пропущенными интервалами двух типов: регулярные выходные, когда биржа не работает, и праздники. Для удобства работы с рядами, чтобы придать их структуре регулярность, решено было заполнить пропуски вследствие праздников по принципу линейной аппроксимации. К примеру, если праздничный день выпал на пятницу, то Y пт =¾Y чт +¼Y пн , то коэффициент при индексе тем больше, чем ближе один будний день к праздничному относительно другого буднего дня. Если пропущена среда, то веса, соответственно, по ½ для показателей вторника и четверга. Таким образом, были получены данные индекса KASE на момент закрытия торгов по пятидневным рабочим неделям с 5 января 2009 года по 27 апреля 2012 года. Далее было решено прологарифмировать ряд KASE, чтобы в дальнейшем работать не с абсолютными, а относительными показателями. График ряда LKASE, то есть прологарифмированного ряда KASE, показан на рисунке 1.

В качестве модели прогнозирования индекса KASE была выбрана модель авторегрессии – скользящего среднего ARMA.

Для построения модели ARMA изначально была проведена проверка ряда LKASE за рассматриваемый период на стационарность.

Рисунок 1 - Динамика логарифма ежедневных значений Индекса KASE c 05.01.2009г. по 27.04.2012г.

Примечание. Составлен автором на основании данных

Результаты тестирования данного ряда на наличие единичного корня (тест Дикки-Фуллера), которые показаны в таблице 1, говорят, что нулевая гипотеза о наличии единичного корня у ряда LKASE не отвергается, то есть ряд не стационарен, об этом говорит и визуальный анализ данной выборки (см. рисунок 1).

Таблица 1. Проверка ряда LKASE на стационарность.

Примечание. Таблица составлена автором в программе «Eviews 6» на основе расчетов.

Далее были протестированы на наличие единичного корня первые разности (DLKASE) данного ряда. Результаты этой проверки (см. таблицу 2) показали, что в первых разностях ряд LKASE стационарен.

Таблица 2. Проверка первых разностей ряда LKASE на стационарность.

Примечание. Таблица составлена автором в программе «Eviews 6» на основе расчетов.

Визуальный анализ графика первых разностей ряда LKASE (рисунок 2) и коррелограмма (рисунок 3) также подтвердили то, что ряд DLKASE стационарен.

Рисунок 2 - График первых разностей ряда LKASE

Примечание. Составлен автором в программе «Eviews 6».

Значения Q-статистик, показанных на коррелограмме (рисунок 3) говорят о том, что первые разности далеки от «белого шума».

Таким образом, ряд LKASE имеет тип I(1), то есть является интегрированным рядом первого порядка, вследствие чего вместо модели авторегресси – скользящего среднего ARMA(p, q) было решено использовать интегрированную модель авторегресси – скользящего среднего ARIMA(p, d, q), у которой порядок параметра d равен 1.

Далее для определения порядка параметров p и q модели ARIMA использовалась ранее полученная коррелограмма (см. рисунок 5). Порядок AR определяется по выпадениям автокорреляционной функции, а порядок MA – по частной автокорреляционной функции.

Рисунок 3 - Коррелограмма ряда DLKASE

Примечание. Составлен автором в программе «Eviews 6».

Так как в данной ситуации ни одно из значений автокорреляционной функции и частной автокорреляционной функции не выпадает за границы 2±  ,то в модель было решено включать наиболее близкие к границам порядки элементов AR и MA. Следуя данной логике, в модель были включены элементы AR(1), AR(3), AR(5), AR(7), AR(9), AR(10), MA(1), MA(3), MA(5), MA(7), MA(9), MA(10). Результатом стала модель ARIMA(10,1,10), которая показана в таблице 2В Приложения В. В данной модели коэффициенты при AR(1), AR(7), AR(10), MA(1), MA(7), MA(10) оказались статистически не значимы, поэтому они были исключены из модели ARIMA(10,1,10) вследствие чего была оценена новая модель ARIMA(9,1,9) без включения туда параметров AR(1), AR(7), MA(1), MA(7). Информационные критерии Акайке и Шварца в модели ARIMA(9,1,9) оказались меньше, чем в ARIMA(10,1,10). Таким образом, из двух оцененных моделей была выбрана ARIMA(9,1,9):

DLKASE t = 0,050·DLKASE t-3 – 0,187· DLKASE t-5 + 0,710·DLKASE t-9 – – 0,044·e t-3 + 0,270·e t-5 -0,748·e t-9 , (1)

где DLKASE t-3 – значение разницы логарифма индекса KASE в момент времени t-3; DLKASE t-5 – значение разницы логарифма индекса KASE в момент времени t-5; DLKASE t-9 – значение разницы логарифма индекса KASE в момент времени t-9; e t-3 – ошибка модели в момент времени t-3; e t-5 – ошибка модели в момент времени t-5; e t-9 – ошибка модели в момент времени t-9.

Далее для проверки наличия автокорреляции в остатках модели ARIMA(9,1,9) был проведен LM-тест Бреуша-Годфри, по результатом которого (см. таблицу 3) оказалось, что в остатках модели AR(9,1,9) при лаге 9 имеется автокорреляция. Это говорит о том, что статистические выводы по модели ARIMA(9,1,9) могут быть ошибочными и приводить к неверным выводам.

Таблица 3. LM-тест Бреуша-Годфри на наличии автокорреляции в остатках модели ARIMA(9,1,9)

Примечание. Составлена автором в программе «Eviews 6» на основе расчетов.

Для устранения автокорреляции в остатках модели ARIMA(9,1,9) было решено изменить ее спецификацию. С этой целью параметры AR(9) и MA(9) были заменены на AR(10) и MA(10), также в попытке улучшить модель были включены ранее исключенные параметры AR(1), MA(1), AR(7), MA(7). И в этот раз, то есть после исключения из модели ARIMA(10,1,10) параметров AR(9) и MA(9), коэффициенты при AR(1), AR(5), AR(7), AR(10), MA(1), MA(5), MA(7), MA(10) оказались статистически не значимы, поэтому для улучшения качества оцененных коэффициентов было решено исключить из модели параметры AR(7) и MA(7), так как предполагалось, что именно эти параметры снижают значимость коэффициентов при других параметрах, что подтвердилось после построения модели ARIMA(10, 1, 10).

Модель ARIMA(10,1,10) после исключения из него параметров AR(7), MA(7), AR(9), MA(9):

DLKASE t = – 0,306·DLKASE t-1 + 0,284·DLKASE t-3 – 0,981·DLKASE t-5 – – 0,415·DLKASE t-10 + 0,373·e t-1 – 0,314·e t-3 - 0,931·e t-5 + 0,430·e t-10 , (2)

где DLKASE t-1 – значение разницы логарифма индекса KASE в момент времени t-1; DLKASE t-3 – значение разницы логарифма индекса KASE в момент времени t-3; DLKASE t-5 – значение разницы логарифма индекса KASE в момент времени t-5; DLKASE t-10 – значение разницы логарифма индекса KASE в момент времени t-10; e t-1 – ошибка модели в момент времени t-1; e t-3 – ошибка модели в момент времени t-3; e t-5 – ошибка модели в момент времени t-5; e t-10 – ошибка модели в момент времени t-10.

По результатам LM-теста Бреуша-Годфри на наличие автокорреляции в остатках последней модели ARIMA(10,1,10) была принята на 5%-ом уровне значимости нулевая гипотеза об отсутствии автокорреляции в остатках (см. таблицу 4).

Таблица 4. LM-тест Бреуша-Годфри на наличии автокорреляции в остатках модели ARIMA(10,1,10)

Значения информационных критериев Акайке и Шварца, скорректированного коэффициента детерминации полученной модели ARIMA(10,1,10) ниже значений этих же показателей в предыдущих двух моделях, к тому же в остатках полученной модели (2) отсутствует автокорреляция. Таким образом, был сделан вывод, что модель ARIMA(10, 1, 10) без учета параметров AR(2), AR(4), AR(6), AR(7), AR(8), AR(9), MA(2), MA(4), MA(6), MA(7), MA(8), MA(9) является наилучшей моделью способной описать ARMA-процесс в данном случае. По модели можно сказать, что на изменение значения индекса KASE в момент времени t влияют его изменения в моменты времени t-1, t-3, t-5, t-10, а также случайные составляющие данного процесса в те же моменты времени.

Коэффициент детерминации полученной модели ARIMA(10,1,10), равный 0,093, показывает, что данная модель не идеально описывает изменение реальных данных, но тот факт, что все коэффициенты при переменных модели являются статистически значимыми при 1%-ом уровне значимости, говорит о том, что на основе модели можно получить неплохие прогнозы. Но для окончательного вывода по модели далее были проведены тестирования его ARMA-структуры на стационарность, анализ ряда его остатков, а также анализ точности прогнозов.

Результаты тестирования ARMA-структуры полученной модели (2) на стационарность путем нахождения корней его характеристического уравнения показали, что абсолютные значения всех обратных корней этого уравнения меньше единицы, то есть лежат внутри единичного круга (см. рисунок 9), следовательно данный ARMA процесс в модели ARIMA(10, 1, 10) можно считать стационарным.

Таблица 5. Тестирование ряда остатков RESID модели ARIMA(10, 1, 10) на стационарность

Тестирование ряда остатков RESID модели ARIMA(10,1,10) на стационарность также дал положительный ответ, и по результатам теста (см. таблицу 5) была отвергнута на 1%-ом уровне значимости нулевая гипотеза о наличии единичного корня у данного ряда.

При этом гипотеза о нормальном распределении остатков RESID тоже была опровергнута (см. рисунок 5), что не позволяет строить точечные и интервальные прогнозы по данной модели, так как условием прогнозирования является соответствие ряда остатков нормальному распределению. Но, в соответствии с асимптотическими теориями Андерсона и Эйкера, обычную теорию для нормального случая при больших объемах выборок можно использовать с достаточной точностью и в тех ситуациях, когда наблюдения не являются нормально распределенными [43, 35-39].

Таким образом, благодаря большому объему выборки в данном случае (865 наблюдений), даже при том, что ряд остатков модели не распределен по нормальному закону, точечное и интервальное прогнозирование имеет место и не будет противоречить теоретическим предпосылкам.

Рисунок 4 - График обратных корней характеристического уравнения

Рисунок 5 - Гистограмма и описательная статистика ряда остатков RESID модели ARIMA(10,1,10)

Далее были получены точечные и интервальные прогнозные значения индекса KASE на период оценивания модели ARIMA(10,1,10).

Для анализа точечных прогнозов, полученных по модели ARIMA(10,1,10), были осуществлены расчеты квадратного корня средней ошибки предсказания (root mean squared error), средней ошибки по модулю (mean absolute error), средней ошибки по модулю в процентах (mean absolute percentage error) и коэффициента неравенства Тейла (Theil inequality coefficient), результаты которых представлены в таблице 6.

Таблица 6. Анализ точности точечных прогнозов статистической модели ARIMA(10,1,10)

Квадратный корень средней ошибки предсказания индекса KASE равен 22,89 базовым пунктам, средняя ошибка предсказания по модулю равна 16,71 базовым пунктам, что в процентах составляет 1,27 %, коэффициент неравенства Тейла равен 0,0079, то есть близок нулю, что говорит о хорошем качестве предсказания.

Касательно доверительных интервалов, построенных для прогноза индекса KASE при 95%-ом уровне надежности, нужно отметить, что из 854 фактических значений индекса 24 не вошли в границы интервального прогноза, точнее оказались ниже нижней границы прогноза, тогда как 830 из них оказались в границах доверительного интервала, то есть точность интервального прогноза составляет 97,19 %.

На рисунках 6 и 7 показаны графики точечного и интервального прогнозов индекса KASE за январь-апрель 2012 года, рассчитанные по модели ARIMA(10, 1, 10), в сравнении с фактическими значениями индекса за этот же период. Из рисунка 6 видна схожесть графиков фактических и прогнозных значений индекса KASE, а из рисунка 12 видно, что фактические значения индекса KASE не выходят за верхние и нижние границы доверительного интервала для 95 %-ого уровня надежности, то есть в течение рассматриваемого периода (с 2 января 2012 года по 27 апреля 2012 года), то есть в течение 2012 года значимых отклонений от фактических значений индекса KASE как точечных, так и от интервальных прогнозов не было. Таким образом, исходя из всего вышесказанного, был сделан вывод, что статистическая модель ARIMA(10,1,10) является качественной прогностической моделью, которую можно использовать для прогноза индекса KASE на момент закрытия торгов.

После проверки точности прогнозов по полученной модели ARIMA(10,1,10) были рассчитаны прогнозные значения индекса KASE на момент закрытия торгов для рабочих дней, которые не использовались при построении модели.

Рисунок 6 - Точечное прогнозирование индекса KASE

Рисунок 7 - Интервальное прогнозирование индекса KASE

Таблица 7. Точечное и интервальное прогнозирование индекса KASE с 28 апреля 2012 года по 11 мая 2012 года

Примечание. Таблица составлена автором на основе расчетов и данных сайта Казахстанской фондовой биржи (режим доступа: www.kase.kz).

Прогнозные значения индекса KASE, показанные в таблице 7, имеют отклонения от фактических значений и не стопроцентно совпадают с фактическими значениями, но при этом все прогнозные значения, кроме прогноза на 8 мая, входят в доверительные интервалы. Ниже приведено графическое изображение прогнозов и фактических значений индекса KASE на момент закрытия торгов с 28 апреля 2012 года по 11 мая 2012 года.

Рисунок 8 - Точечное и интервальное прогнозирования индекса KASE с 28 апреля 2012 года по 11 мая 2012 года

Список использованных источников:

Андерсон Т. Статистический анализ временных рядов / Пер. с англ. под редакцией Ю.К. Беляева. – М.: Мир, 1976 – 745 с.
Официальный сайт Казахстанской фондовой биржи KASE – http:www.kase.kz

Жүктеу

Пікірлер 0

Басқа мақалалар

От слов к данным: текстовый анализ экономических новостей Казахстана с использованием языковых моделей Толығырақ оқыңыз

Экономическое взаимодействие стран ЦА и России: современные вызовы Толығырақ оқыңыз

Новые навыки и профессии для Казахстана в эпоху после COVID-19 Толығырақ оқыңыз