События От слов к данным: текстовый анализ экономических новостей Казахстана с использованием языковых моделей

От слов к данным: текстовый анализ экономических новостей Казахстана с использованием языковых моделей

Файл доступен для скачивания (ссылка внизу страницы)

В ежегодном Послании Президента Касым-Жомарта Токаева в 2025 году особое внимание уделяется цифровизации и внедрению искусственного интеллекта в ключевые сферы экономики. Действительно, сегодня использование методов машинного обучения и технологий искусственного интеллекта становится одним из центральных инструментов современного экономического анализа и управления. Эти технологии позволяют работать с большими массивами данных, выявлять скрытые закономерности и формировать прогнозы, недоступные при традиционных подходах. Одним из перспективных направлений их применения выступает анализ текстов новостных материалов, который приобретает всё большее значение в условиях перенасыщенного информационного пространства.

Новости в современном обществе перестали быть лишь источником информации: они сами становятся фактором, влияющим на экономическое поведение. В научной литературе убедительно показано, что интенсивность и тональность новостного освещения способны изменять инфляционные ожидания населения. Так, Larsen et al. (2021), используя обширный корпус новостных материалов и алгоритмы машинного обучения, исследовали роль, которую играет медиа в процессе формирования настроений и инфляционных ожиданий домашних хозяйств. К слову, использование новостей в качестве фактора формирования инфляционных ожиданий стало особенно популярной темой для исследований самими центральными банками. Например, исследование Федерального резервного банка Сан-Франциско (Chahrour, Shapiro, Wilson, 2025) показало, что увеличение частоты негативных новостей об инфляции повышает инфляционные ожидания населения в среднем на 0,4 процентного пункта, тогда как позитивные сообщения оказывают значительно более слабое воздействие.

Практика международных организаций также подтверждает важность текстового анализа. Международный валютный фонд совместно с исследователями разработал World Uncertainty Index, который основан на подсчёте частоты употребления слова “uncertain” (неопределенность) в материалах Economist Intelligence Unit (Ahir et al., 2022). Этот индекс замеряется ежемесячно и сегодня рассматривается как индикатор уровня глобальной неопределенности, который косвенно объясняет волатильность на финансовых рынках. В Европейском центральном банке были проведены эксперименты с применением крупных языковых моделей, включая ChatGPT, для анализа комментариев деловых опросов, что позволило улучшить краткосрочные прогнозы ВВП. В академической литературе также появляются специализированные языковые модели. Например, (Allard, Teiletche, Zinebi, 2024) дообучили модель, создав InflaBERT, предназначенную для анализа инфляционной тональности новостей. Tilly и Livan (2021) показали в своем исследовании, что новостные темы и их эмоциональная окраска могут повышать точность прогнозов инфляционных ожиданий на финансовых рынках. Eugster, Uhl (2024), собрав базу из 730 000 новостей, измерили их тональность и построили новостной индекс, который стали использовать как «фактор» предсказания будущей инфляции. Таким образом, сейчас подобные исследования очень популярны.

Для Казахстана использование подобных инструментов особенно перспективно. Во-первых, растёт потребность в своевременной оценке общественных и экономических настроений, которые напрямую влияют на инфляционные ожидания, инвестиционные решения и доверие к политике государства. Во-вторых, накапливается значительный массив локальных новостных данных, что делает возможным создание национальных индексов уже с учётом казахстанских медиа, языка и экономических реалий.

О чем писали казахстанские новостные порталы в последние 10 лет?

Мы в AERC уже начали работу в направлении использования текстового анализа: нами уже собрана база из более, чем 338 тысяч экономических новостей за период с 2007 года по июль 2025 года, охватывающая материалы 18 ведущих казахстанских изданий, включая Tengri NewsInformburoKapitalKursivAtameken InBusiness и др. Этот массив данных открывает возможность системного анализа, выявления наиболее обсуждаемых тем и отслеживания трансформации экономического дискурса по годам.

Справочно; Данные собирались автоматически — веб-скрейпингом — с очисткой: удалялись технические шумы, дубликаты, очень короткие тексты; источники унифицировались по названиям. В выборку входят 18 изданий, освещающих деловую и общественно-экономическую повестку.

Например, на основе собранной базы новостей мы уже видим, что интенсивность публикаций по экономическим темам в Казахстане резко возросла. При этом пик пришелся как раз на 2022 год, что связано с началом войны России и Украины, введением санкций против России (см. рис. 1) – этот внешнеэкономический шок актуализировал такие темы, как внешняя торговля, валютный курс, внешняя торговля.


Рис. 1. Динамика количества публикаций новостей по экономике и финансам (по всем 18 источникам) за период январь 2007 г. -июль 2025 г., в ед.


Для большего понимания того, какой потенциал имеет анализ новостей, мы в качестве примера ниже приводим более глубокий анализ новостей именно по 2025 году, по месяцам. Всего с января по июль 2025 года 18 новостными порталами уже опубликовано 18,8 тыс. новостей по экономике и финансам.


Ниже приведена структура новостных публикаций в 2025 году по крупным тематическим блокам:

Рис. 2. Структура экономических новостей 18 порталов, опубликованных в январе-июле 2025 г., в разрезе тем, в % к итогу


Как видно, больше всего новостей – по блоку финансового сектора и кредитования, валютного рынка и обменных курсов, государственных финансов и налогов. К слову, тема государственных финансов стала наиболее популярна именно в последние 3 года.  Одновременно анализ в разрезе каждого новостного источника показывает, что в январе-июле 2025 года наиболее интенсивно на тему экономики и финансы публиковали новости Kapital.kz, DKNews.kz, Zakon.kz и LSM.kz (см. рис. 3).


Рис. 3. Динамика экономических новостей, опубликованных в январе-июле 2025 г., в разрезе порталов, в % к итогу

После выделения тематических кластеров для каждой темы были построены временные ряды, отражающие количество новостей по данным темам во времени. Такой подход позволяет исследовать эволюцию информационной повестки и выявлять, каким образом интерес к различным аспектам экономики и общества изменялся на протяжении исследуемого периода. Вдобавок, в крупных тематических блоках можно выделять отдельные подтемы.

Например, из недавнего мы отметили, что в блоке «международные отношения и внешняя торговля» в январе-феврале 2025 года появился отдельный «яркий» сюжет – «политика США и Дональд Трамп». По этой подтеме было опубликовано 36 новостей, правда, основная масса – в январе-феврале 2025 года, а с марта 2025 года количество новостей по этой теме уменьшалось, сходя на нет (см. рис. 4).


Рис. 4. Динамика экономических новостей по подтеме «Политика США и Трамп» в блоке «Международные отношения и внешняя торговля» в 2025 году


Вот именно такое разложение на подтемы позволяет отделить краткосрочные информационные импульсы от долгосрочного тренда и точнее интерпретировать повестку экономических новостей по месяцам. В частности, долгосрочной повесткой характеризуется, например, тема «инфляции и роста цен»: с начала года по этой теме ежемесячно публиковалось не менее 20 новостей, то есть в среднем каждый портал минимум 1 раз в месяц упоминает тему инфляции (см. рис. 5).

Рис. 5. Динамика экономических новостей по подтеме «Инфляция и рост цен» в блоке «Макроэкономика и инфляция» в 2025 году

Тональность новостей: какие темы несут негатив?

Отдельно мы проанализировали общую тональность публикаций за 2025 год с помощью модели Gemini. Под тональностью понимается общее «настроение» новости: позитивное, нейтральное или негативное. То есть все мы, когда читаем новость, считываем не просто факты, но «окрас» новости. Одни материалы откровенно окрашены в негатив, другие несут позитивный подтекст, третьи остаются максимально нейтральными. И для современного государственного управления мониторинг тональности новостного потока, учитывая объемы ежедневно выливаемой информации, становится критически важным, поскольку этот новостной поток способен оказывать влияние на динамику общественных настроений.

Стоит отметить, что мы пока не настраивали модель на особую категорию пользователя, то есть «тональность» оценивалась так, как если бы текст читал «условный средний пользователь». При этом модель можно дообучить под разные профили восприятия – под разные интересы. Например, если задать перспективу «инвестора», темы финансовых рынков или валютного курса, которые для массового читателя выглядят нейтрально, могут приобрести «негативную» эмоциональную окраску.

Пока мы провели анализ тональности в базовой конфигурации, то есть для «условного среднего пользователя», разбив корпус новостей на подтемы, чтобы продемонстрировать возможности языковых моделей. Например, как видно на рис. 6, модель классифицировала основную часть публикаций по теме «валютный рынок и курс» как нейтральные, поскольку при настройке не задавалось, что читатель — житель Казахстана, для которого вопросы инфляции и обменного курса могут иметь более выраженный эмоциональный оттенок.

Тем не менее, уже в такой «базовой» настройке можно заметить, что доля негативных материалов превышает 20% по тематическим блокам «макроэкономика и инфляция», «государственное управление и право», а также «автомобильный рынок». В этих блоках чаще встречаются сообщения о конфликтах интересов, ценовых и регуляторных рисках.

Рис. 6. Тональность новостей по подтемам

Напротив, темы бизнес и предпринимательство, промышленность и производство, региональное развитие и СЭЗ, туризм, культура и досуг демонстрируют выраженную положительную тональность. Здесь преобладают новости о запусках проектов, инвестициях, расширении мощностей и инфраструктурных инициативах.

При этом, следует заметить, что большая часть новостей все же имеет «нейтральный» окрас, как ввиду того, что тональность рассматривалась для усредненного пользователя, так и ввиду того, что в целом в экономических новостях доминирует фактология и официальные сообщения, которые не имеют явного эмоционального окраса (в отличие, например, от новостей «спорта и культуры»).

От информационного шума к системному анализу: роль ИИ в понимании экономических настроений

В условиях стремительного роста новостного потока создание национальных инструментов текстового анализа становится не вопросом выбора, а вопросом времени.

Ручная обработка новостей уже не отвечает современным вызовам: один исследователь физически не способен охватить массив из тысяч сообщений в сутки и увидеть полную картину.

Только машинное обучение и методы обработки естественного языка обеспечивают необходимый масштаб и аналитическую глубину.

Дальнейшее развитие локальных технологий позволит использовать огромный массив казахстанских новостных данных как практический инструмент для мониторинга общественных настроений, выявления ключевых тем, а также для улучшения прогнозно-аналитических моделей и выстраивания эффективной коммуникации государства с обществом.

Комментарии 0