Новые экономические индикаторы ЦБ на основе Больших данных

Финансовая математика...
Источник: GAAP.RU
Опубликовано: 25 Августа 2017

Тема Больших данных подробно на нашем портале до сих пор не разбиралась, а тут такой информационный повод! Мы тут же решили узнать мнение российских экспертов относительно перспектив разработки Центробанком новых экономических индикаторов на основе больших объемов неструктурированных данных, в пример которым можно привести информацию из тех же соцсетей. Более того, в недавней новости утверждается, что ЦБ уже даже преуспел в работе по этому направлению и сегодня тестирует новый экономический индикатор, использующий данные новостных сайтов. Мы невольно задались вопросом, не возникнет ли смещения таких индикаторов в случае, если новости подаются не совсем объективно, а в зависимости от политических предпочтений владельцев сайта и/или заказчика. Настолько ли полезными они будут? Какие тут еще могут быть “подводные камни”?

Приятно видеть по количеству ответов, что тема волнует российский бизнес. Спасибо всем, кто отписался!

Александр Воробьев, CTO & Co-Founder Fundery:

Big Data - это не только сведения из соцсетей и вебсайтов. Центральный банк по своему статусу имеет доступ к огромному объему достоверной первичной информации. Также значительные объемы информации накоплены Росфинмониторингом и МинФином РФ. Так что недостатка в данных для анализа у ЦБ быть не должно.

Если говорить о пригодности для анализа новостных сайтов и социальных сетей, данные которых могут массово намеренно или ненамеренно искажаться, то полезную информацию можно успешно извлекать не только из достоверных источников. Зачастую алгоритмы анализа Big Data могут делать выводы и из общего уровня недостоверности информации, или просто из факта отсутствия или исчезновения информации по какому-то вопросу. Невозможно извлечь полезную составляющую только из абсолютно случайных данных.

Константин Фрумкин, журнал ”Инвест-Форсайт”:

Главной проблемой создания новых экономических индикаторов является репрезентативность данных, на основе которых он рассчитывается. Существующие сегодня массивы “Больших данных” складываются зачастую стихийно, их формированием занимаются отдельные частные организации, не имеющие амбиций организовать тотальный мониторинг рынка. За пределами этих массивов в огромном большинстве случаев остаются данные о людях, не вовлеченных активно в цифровую экономику (жители малых городов, не пользующиеся интернетом и. т. д.). Репрезентативность подобных массивов данных пока не доказана, а зачастую и не исследована.

Когда удастся установить, что эти базы данных достаточно представительны по отношению ко всей экономике или для ее определенных сегментов, они могут использоваться. Соцсети, которые являются информационной средой для достаточно активной части населения, теоретически могут служить источником данных, однако прежде чем начать пользоваться такими индикаторами, необходимо проводить исследование, насколько эти индикаторы коррелируют с другими показателями экономики. Вообще, нужно ждать роста баз данных и расширения их эмпирического базиса.

Что касается политической пристрастности - она не будет препятствием, поскольку и сами пристрастности могут быть объектом исследования.

Роман Кузнецов, старший аналитик QBF:

Технология Big Data является одним из наиболее перспективных направлений в подготовке статистики. На текущий момент процесс сбора информации Росстатом является несовершенным, поскольку зачастую основан на результатах опросов участников хозяйственной деятельности и позволяет оценивать сравнительно небольшую выборку из общей совокупности предметной информации на рынке. Переход на использование Больших данных позволит охватить большее число статистических элементов, что сделает публикуемые индикаторы более релевантными.

Негативным аспектом может стать процесс обработки информации и статистические допущения, которые способны снизить качество выходных данных, поскольку в условиях изменения состава и структуры массива необходимо будет произвести пересмотр механизмов корректировки. Это с высокой долей вероятности найдет отражение в искажении статистических параметров после перехода на подготовку с использованием Big Data, однако может быть быстро исправлено. 
 

Александр Купцикевич, финансовый аналитик FxPro:

Статистика и комментарии ЦБ пользуются более высоким доверием, чем данные Росстата. В первую очередь это вызвано тем, что, опираясь на искаженные данные, регулятор будет проводить неверную политику, то есть она может оказаться излишне жесткой, если данные по производству будут завышены, или излишне мягкой, если данные по инфляции окажутся заниженными.

ЦБ сейчас уходит в изучение настроений и пытается докопаться до основы инфляционных ожиданий, правильно отбросив искажения, которые получаются из опросов общественного мнения. В них всегда инфляция выше, и в случае с Россией разница между фактом и ощущениями людей составляет около 6.5 процентных пунктов. При инфляции в 4% эта разница выглядит чудовищно огромной.

Ограничения доступа к информации некоторых сайтов, скорей всего, будет решаться созданием правильной репрезентативной выборки. Эта задача сродни тому, как отбирают людей для опросов “в полях”: не нужно опрашивать все население, чтобы правильно понять общий тренд. К тому же “большие данные” в таких условиях рискуют оказаться неподъемно большими.

Алексей Краснопольский, директор по продукту Первого ОФД:

Полагаю, что индексы, построенные на основе Big Data, будут достаточно точными и, что немаловажно, оперативными: срез информации можно будет получать практически в режиме реального времени. Так, к примеру, на основании агрегированных и обезличенных данных, обрабатываемых ОФД, можно выстраивать аналитические модели по экономической активности в разрезе регионов, детализировать эти статистические данные в различных разрезах.

Андрей Поваров, доцент Института бизнеса и делового администрирования (ИБДА) РАНХиГС:

Удивительное свойство методов Big Data состоит в том, что они позволяют выявить закономерности, которые реально существуют, но не очевидны, не могут быть логически выведены, а иногда, будучи уже найденными, не могут быть даже объяснены. 

Предметная область для таких исследований – все, что нельзя четко описать и измерить, но при этом существует много релевантных исторических данных, по которым прошлое поведение системы можно сопоставить с сочетанием повлиявших на него факторов. В некотором смысле это изучение поведения “черного ящика”, выдающего какой-то результат на очередном наборе входных переменных.

В макроэкономике – и при формировании Центральным банком различных индексов на основе Big Data – к таким переменным относятся не только экономические параметры, но и политические, и социальные. Чем больше данных, и чем лучше построена модель, тем выше получаемая точность. Например, в недавних исследованиях Центрального банка Норвегии точность индексов, получаемых с помощью методов Big Data, превзошла точность традиционных на 10%, а в Индии рассматривается получение более точного, базирующегося на комбинации ежемесячных индикаторов и Big Data, прогноза роста ВВП, и при этом еще до того, как все официальные данные для такого расчета получены.

Никаких сложностей в построении экономических индикаторов на основе Big Data в России я не усматриваю. Даже если принять во внимание потенциальное искажение информации из-за политических предпочтений владельцев сайтов или возможного введения ограничений доступа к определенным интернет-ресурсам, все равно основной базой для анализа будут скорее бытовые реалии. Простейший пример – слово “цена”, взятое с учетом эмоциональной направленности контекста, связей с другими ключевыми словами и динамически меняющейся частотой употребления (более частое употребление слова, даже независимо от контекста, уже может быть индикатором обеспокоенности). При этом выбор и способы комбинирования параметров здесь будут целиком определяться Центральным банком, а учитывая то, что в России около 90 млн. интернет-пользователей, недостатка в данных не будет.

Наконец, помимо данных из соцсетей и другого производимого пользователями контента, методы Big Data берут еще и объективные данные, которые добавляют как бы еще одно “измерение” в пространстве используемых данных. Это делает общий результат значительно точнее. Пример подобного подхода – проект The Billion Prices Project от MIT, собирающий и использующий в Big Data-аналитике ежедневные цены. 

Таким образом, представляется совершенно реалистичным, что при правильном подборе Центральным банком комбинаций объективных данных, новостного фона и информации из социальных сетей станет возможно строить гораздо более полезные и эффективные индикаторы, чем те, что предлагает сегодня официальная статистика.

Александр Артемьев, заместитель генерального директора Berkshire Advisory Group:

Необходимо обратить внимание на то, что, как и прежде, основным источником анализа изменения экономических индикаторов будут являться отраслевые данные или так называемые структурированные базы данных. Но для формирования наиболее объективной и независимой информации в условиях бурно растущих объемов и источников интернет-данных необходимо использовать и так называемые неструктурированные массивы информации (аналитические обзоры, социальные сети, информационные и новостные порталы и пр.). Именно для этого и используются во всем мире высокоскоростные информационные технологии и подходы для обработки огромных массивов социально-экономических данных. 

Что касается политических предпочтений авторов тех или иных порталов, то они не могут внести существенные изменения в обработку и формирование новых индикаторов больших данных. Проблемы возможны только тогда, когда абсолютно все источники данных будут вносить искажения на основе политических, а не экономических факторов, что представляется нереальным.

Теги: экономические индикаторы  Большие данные  Big Data  неструктурированные данные  Центральный банк  ЦБ  недостоверность информации  репрезентативность данных  цифровая экономика  базы данных  показатели экономики  подготовка статистики  сбор информации  Рос