#11 Digital Forum РБК, 26 декабря 2022
Тенденции , Санкт-Петербург и область ,  
0 

Большие данные: новые горизонты для госсектора

Фото: Антон Кузнецов/РБК Петербург
Фото: Антон Кузнецов/РБК Петербург
Синергия больших данных государства и бизнеса открывает новые возможности для обеих сторон. Уже есть примеры их взаимно успешного использования, однако массовое внедрение пока не происходит.

По оценкам IDC, государственный сектор в глобальном разрезе не входит пока в топ-3 отраслей по размеру затрат на большие данные и бизнес-аналитику. Однако эксперты уверены: государство начинает все активнее опираться в процессе принятия решений на технологию big data, и этот тренд будет нарастать. Перспективы применения больших данных в этом сегменте и сложности, с которыми пока приходится сталкиваться, обсудили в рамках паблик-тока, проведенного РБК Петербург и компанией Tele2 для представителей органов власти Петербурга и Ленинградской области.

Универсальные данные

«Государство — один из крупнейших владельцев данных, который не только собирает их сам, но еще и аккумулирует полученную информацию от других поставщиков. Однако эти данные в госсегменте используются далеко не всегда, а если применяются, то зачастую малоэффективно», — объясняет руководитель службы развития продуктов больших данных Tele2 Александр Сафонов.

Александр Сафонов, Tele2
Александр Сафонов, Tele2 (Фото: Антон Кузнецов/РБК Петербург)

Между тем бизнесом накоплен уже довольно большой опыт использования данных, есть наработанные методики и практики, которые, по мнению эксперта, можно использовать и для пользы государства. К тому же при помощи бизнеса представители госсектора могут те данные, которые у них есть, превращать в интересный продукт, который затем может быть полезен и предприятиям страны.

Генеральный директор Phoenix Lab Руслан Малашин связывает нарастающий тренд на использование big data с тем, что мобильные телефоны практически полностью оцифровали жизнь людей, их используют для собственного удобства, развлечений, работы. «Уровень проникновения сотовой связи и телефонов очень высок и коррелирует с количеством жителей города, страны, мира, — подчеркивает эксперт. — Именно поэтому большие данные на основе анализа поведения абонентов сотовых сетей — основополагающая технология во всем мире. И все же реальные прорывы в этом направлении появились лишь года три назад, когда и бизнес, и госзаказчики стали активно использовать технологию. Основным источником информации большие данные от сотовых операторов, операторов фискальных данных стали только в последние 2-3 года за счет синергии поставщиков данных и аналитических компаний, таких как Phoenix Lab, внедряющих решения на базе анализа больших данных непосредственным заказчикам, встраивая в существующую экосистему готовые решения».

Руслан Малашин, Phoenix Lab
Руслан Малашин, Phoenix Lab (Фото: Антон Кузнецов/РБК Петербург)

Три кита

Как рассказал менеджер по бизнес-анализу Tele2 Денис Титов, три самых крупных владельца больших данных — это телеком-операторы, банки и соцсети. У каждого из них есть как плюсы, так и минусы. Поэтому и использовать их данные целесообразно в зависимости от того, какая именно цель преследуется.

Денис Титов, Tele2
Денис Титов, Tele2 (Фото: Антон Кузнецов/РБК Петербург)

Так, у сотовых операторов есть обезличенные данные и знания о перемещениях абонентских устройств, поэтому они могут анализировать любую территорию по социально-демографическим характеристикам, по динамике этих характеристик во времени. К плюсам можно отнести и то, что поведение своих абонентов операторы видят в режиме 24х7х365, что дает очень качественную картину после обработки всего массива информации. Оператор обладает данными по перемещениям внутри региона и вне его, может идеально определять место проживания и работы, сферу интересов сегментов абонентов, траты в разрезе географии и многое другое. Все это полезно для решения задач, связанных с определением благосостояния населения, миграцией, туризмом, безопасностью и т.д.

Банки могут составить более точную картину расходов населения и оборотов юридических лиц, но не видят данных клиентов в интернете, плохо определяют перемещения в пространстве. Поэтому банк не видит полной картины по миграциям, проживанию, работе. Конечно, определенную информацию банки могут вычислять по косвенным показателям. Например, в одном из банков, по словам Дениса Титова, в качестве индикатора проживания клиента в определенном районе использовали место покупки туалетной бумаги. Насколько такие показатели точны, большой вопрос.

Соцсети в свою очередь владеют анкетной информацией пользователей: это может быть и плюсом, и минусом, так как многие на своих страницах лукавят, не заполняют все предложенные поля. Зато у соцсетей есть возможность наблюдения детального трафика: если операторы обладают поверхностной информацией в этом разрезе, то соцсети и экосистемы могут видеть, что конкретно человек загружал и смотрел, что вводил в поисковых полях. Однако трат пользователей соцсети не видят совсем и могут только условно определять данную информацию.

Искусство экстраполяции

И хотя, по словам Руслана Малашина, при проникновении сотовой связи в России более чем на 150% для решения конкретных задач достаточно использование части абонентской базы не всех сотовых операторов, эксперты сошлись во мнении, что для максимального качества прогнозирования необходима умная экстраполяция, совмещающая разных сотовых операторов и иные источники данных. Т.е. для перехода от данных одного из поставщиков к полной картине нужно сотрудничество разных владельцев данных, чтобы их можно было интегрировать и валидировать. «Операторские данные при этом могут стать ядром, т.к. понятна доля присутствия компании в регионе, а математические модели позволяют сбалансировать данные по тем, кто одновременно пользуется несколькими SIM-картами», — убежден Денис Титов.

Эксперты заметили, что в рамках реальных кейсов валидация и экстраполяция зачастую может быть весьма непростой задачей и к тому же будет требовать креативного подхода. Руслан Малашин рассказал о том, насколько сложно было, к примеру, определить трафик посетителей ДЛТ: сегментацию аудитории затрудняло расположение торгового центра в зоне, где много туристов, офисов и ресторанов. Без создания сложных математических моделей, описывающих не только посетителей ТЦ, но и проживающих поблизости, туристов или прохожих достичь наивысшего результата было бы невозможно. Можно сказать, что качественный результат при работе с большими данными возможен только лишь при совокупности двух подходов: подробнейшие математические модели поведения жителей и совокупность различных источников данных.

Старший менеджер по внедрению продуктов больших данных Tele2 Татьяна Сазонова отметила схожую сложность в проекте, который реализовывался для курорта Шерегеш. Администрации региона необходимо было знать, какие отели выбирают гости и какая заполняемость по сезонам. Однако, так как в сектор базовой станции могут попадать сразу несколько гостиниц, пришлось искать дополнительные источники данных и усложнять алгоритмы анализа. В этом случае ими, например, стали контактный граф (дозвоны в отель), а также посещение веб-сайта объекта размещения.

Татьяна Сазонова, Tele2
Татьяна Сазонова, Tele2 (Фото: Антон Кузнецов/РБК Петербург)

В другом проекте — с мониторингом наркоактивности в Петербурге — потребовались другие решения: экстраполировались данные МВД, Роспотребназдора (об отравлениях), обращения граждан с жалобами на шумных соседей и геоаналитика сотовых операторов. Это позволило выявить закономерности, которые ранее госорганам были не заметны. Данный проект сам по себе является очень интересным примером по работе с большими данными, когда происходит объединение возможностей власти и бизнеса, что является качественным показателем развития индустрии анализа больших данных, в том числе в перспективе давая возможность России заявить о себе, как о высокотехнологичной стране, имеющей передовые технологии мирового уровня.

Big data в разрезе региона

Об опыте Ленобласти в использовании big data рассказала начальник департамента социально-экономического развития, макроэкономического анализа и прогноза Комитета экономического развития и инвестиционной деятельности Ленинградской области Лина Никифорова. По ее словам, одно из направлений программы «Госуправление 2.0» в регионе было связано как раз с тем, как внедрять эффективные в бизнесе технологии для принятия управленческих решений в регионе. Потребность была обусловлена тем, что статистически данные, получаемые администрацией региона, в силу госпроцедур отставали на 10-45 дней. Тестировались данные операторов сотовой связи, геоплатформ, фискальных данных, банков. В результате были реализованы два проекта.

Лина Никифорова, Правительство Ленинградской области
Лина Никифорова, Правительство Ленинградской области (Фото: Антон Кузнецов/РБК Петербург)

Первым проектом стала классическая оценка динамики перемещения населения и того, где сколько людей проживает и работает.

«Для Ленобласти это важная задача: нужно понять, сколько людей ежедневно двигаются из области в город и обратно, сколько фактически проживает. Например, в районах новой застройки живут те, кто в переписи 2010 года еще не были учтены. С учетом того, что численность в межпереписном периоде оценивается методом расчета, а массовой застройки во Всеволожском или Ломоносовсом районах в момент предыдущей переписи не было в принципе, данные от реальности могли отличаться в разы. Но подтвердить это традиционными способами было сложно. Так как жилье в этих районах в значительной степени покупается под сдачу в аренду, то жителей область не видит в принципе. А это очень важно, так как все бюджетное обеспечение рассчитывается от численности населения», — объяснила Лина Никифорова.

Вторым направлением и реальным проектом стал мониторинг отраслей экономики на основе данных банков в период пиковых закрытий и ограничений из-за пандемии коронавируса. Обнаружили, что в область выехало 2,5-3,5 млн жителей Петербурга, что позволило бизнесу сохранить эффективность. На основе полученных данных были скорректированы меры поддержки тех отраслей, которые не теряли обороты. «Этот проект был ограничен по времени, опоздание данных составляло лишь порядка 2 недель, а результат можно было применить на практике, — говорит Лина Никифорова. — Таким образом, мы обнаружили, что краткосрочные проекты по использованию big data более эффективны для региона, чем масштабные».

Еще одно возможное направление применения аналитики больших данных в работе госорганов — мониторинг уровня бедности. Это один из показателей показатель работы губернаторов, но, что более важно, он свидетельствует о том, насколько успешно развивается регион. Однако те данные, которые есть у государства, регион не устраивают — прежде всего потому, что в основе методики сбора информации — выборочная обследование, да и с получением данных в разрезе регионов есть сложности. Органам власти необходимо видеть реальные доходы, расходы населения, потребительскую корзину, причем в разрезе муниципальных образований и т.д. Но есть и проблема с плотностью данных: например, чем дальше от Петербурга, тем меньше кассовых аппаратов и безналичных расчетов, что усложняет оценку.

По мнению Дениса Титова, команда аналитиков Tele2 в целом хорошо владеет знаниями про благосостояние населения и может использовать эти знания для создания аналитических продуктов совместно с органами исполнительной власти. Компания уже использует в своих моделях различную информацию про динамику общей численности населения на территории, динамику изменения сегментов «дети» и «пенсионеры», динамику изменения дохода и процента работающего населения, объемы трат и закредитованности населения, динамику коллекторской активности, среднего чека и т.д.

Участники дискуссии уверены: опыт Ленобласти и других регионов показывает перспективность использования big data в госуправлении. По мере распространения и отработки технологии и методик на конкретных задачах темпы проникновения больших данных в госсекторе будут увеличиваться.

Компетенция Миграция с зарубежного ПО: риски выжидательной стратегии
Содержание
Закрыть