Тема Больших данных подробно на нашем портале до сих пор не разбиралась, а тут такой информационный повод! Мы тут же решили узнать мнение российских экспертов относительно перспектив разработки Центробанком новых экономических индикаторов на основе больших объемов неструктурированных данных, в пример которым можно привести информацию из тех же соцсетей. Более того, в недавней новости утверждается, что ЦБ уже даже преуспел в работе по этому направлению и сегодня тестирует новый экономический индикатор, использующий данные новостных сайтов. Мы невольно задались вопросом, не возникнет ли смещения таких индикаторов в случае, если новости подаются не совсем объективно, а в зависимости от политических предпочтений владельцев сайта и/или заказчика. Настолько ли полезными они будут? Какие тут еще могут быть “подводные камни”?
Приятно видеть по количеству ответов, что тема волнует российский бизнес. Спасибо всем, кто отписался!
Александр Воробьев, CTO & Co-Founder Fundery:
Big Data - это не только сведения из соцсетей и вебсайтов. Центральный банк по своему статусу имеет доступ к огромному объему достоверной первичной информации. Также значительные объемы информации накоплены Росфинмониторингом и МинФином РФ. Так что недостатка в данных для анализа у ЦБ быть не должно.
Если говорить о пригодности для анализа новостных сайтов и социальных сетей, данные которых могут массово намеренно или ненамеренно искажаться, то полезную информацию можно успешно извлекать не только из достоверных источников. Зачастую алгоритмы анализа Big Data могут делать выводы и из общего уровня недостоверности информации, или просто из факта отсутствия или исчезновения информации по какому-то вопросу. Невозможно извлечь полезную составляющую только из абсолютно случайных данных.
Константин Фрумкин, журнал ”Инвест-Форсайт”:
Главной проблемой создания новых экономических индикаторов является репрезентативность данных, на основе которых он рассчитывается. Существующие сегодня массивы “Больших данных” складываются зачастую стихийно, их формированием занимаются отдельные частные организации, не имеющие амбиций организовать тотальный мониторинг рынка. За пределами этих массивов в огромном большинстве случаев остаются данные о людях, не вовлеченных активно в цифровую экономику (жители малых городов, не пользующиеся интернетом и. т. д.). Репрезентативность подобных массивов данных пока не доказана, а зачастую и не исследована.
Когда удастся установить, что эти базы данных достаточно представительны по отношению ко всей экономике или для ее определенных сегментов, они могут использоваться. Соцсети, которые являются информационной средой для достаточно активной части населения, теоретически могут служить источником данных, однако прежде чем начать пользоваться такими индикаторами, необходимо проводить исследование, насколько эти индикаторы коррелируют с другими показателями экономики. Вообще, нужно ждать роста баз данных и расширения их эмпирического базиса.
Что касается политической пристрастности - она не будет препятствием, поскольку и сами пристрастности могут быть объектом исследования.
Роман Кузнецов, старший аналитик QBF:
Технология Big Data является одним из наиболее перспективных направлений в подготовке статистики. На текущий момент процесс сбора информации Росстатом является несовершенным, поскольку зачастую основан на результатах опросов участников хозяйственной деятельности и позволяет оценивать сравнительно небольшую выборку из общей совокупности предметной информации на рынке. Переход на использование Больших данных позволит охватить большее число статистических элементов, что сделает публикуемые индикаторы более релевантными.Негативным аспектом может стать процесс обработки информации и статистические допущения, которые способны снизить качество выходных данных, поскольку в условиях изменения состава и структуры массива необходимо будет произвести пересмотр механизмов корректировки. Это с высокой долей вероятности найдет отражение в искажении статистических параметров после перехода на подготовку с использованием Big Data, однако может быть быстро исправлено.
Александр Купцикевич, финансовый аналитик FxPro:
Статистика и комментарии ЦБ пользуются более высоким доверием, чем данные Росстата. В первую очередь это вызвано тем, что, опираясь на искаженные данные, регулятор будет проводить неверную политику, то есть она может оказаться излишне жесткой, если данные по производству будут завышены, или излишне мягкой, если данные по инфляции окажутся заниженными.
ЦБ сейчас уходит в изучение настроений и пытается докопаться до основы инфляционных ожиданий, правильно отбросив искажения, которые получаются из опросов общественного мнения. В них всегда инфляция выше, и в случае с Россией разница между фактом и ощущениями людей составляет около 6.5 процентных пунктов. При инфляции в 4% эта разница выглядит чудовищно огромной.
Ограничения доступа к информации некоторых сайтов, скорей всего, будет решаться созданием правильной репрезентативной выборки. Эта задача сродни тому, как отбирают людей для опросов “в полях”: не нужно опрашивать все население, чтобы правильно понять общий тренд. К тому же “большие данные” в таких условиях рискуют оказаться неподъемно большими.