Управление структурированными и неструктурированными данными с помощью новых технологий и инструментов их обработки – тема, в настоящее время актуальная как на уровне конкретных предприятий, так и на уровне государства. Big Data все чаще обсуждается на различных мероприятиях. Недавно CNews провело в Москве конференцию «Большие данные 2018». На ней обсуждались вопросы, волнующие многих специалистов в области управления бизнес-процессами и ИТ. В частности: как развивается рынок больших данных и каковы перспективы его развития в России и за рубежом? Какие сложности возникают в ходе реализации проектов в этой области? Появились ли на рынке специалисты в области обработки больших данных? В каких отраслях эти технологии наиболее востребованы? Какова роль больших данных в создании цифровой экономики?
Компания IDC прогнозирует рост рынка технологий обработки больших данных и бизнес-аналитики на 11,9% в год до 2020 г. В первую очередь ожидается рост аналитических платформ Big Data, использующих машинное обучение и системы искусственного интеллекта на базе нейронных систем, что востребовано бизнесом для анализа данных о потребителях и прогнозирования их поведения. Кроме того, на рынок оказывает влияние так называемая концепция интернета вещей (Internet of Things, IoT). Еще в 2016 г. крупнейшие объемы мировых инвестиций были направлены в интернет вещей в сфере производства, грузоперевозок, энергосистем, потребительский сегмент. Наиболее стремительный рост интернета вещей ожидается в страховой области, секторе потребления, здравоохранении и розничной торговле.
Международное аналитическое агентство Gartner прогнозирует рост спроса на специалистов в области управления данными и увеличение количества отделов в этой области, так как ожидается, что это приведет к максимизации прибыли. Все более популярной становится должность директора по управлению данными (Chief Data Officers — CDO). Его основной задачей должны стать инициативы в области аналитики, управление данными, разработка стратегических задач и интеграция аналитики и данных в стратегию, а также обеспечение информационной безопасности на предприятии.
Мнимые и реальные опасности Big Data
В последнее время много исследований проводится в области так называемых больших социальных данных. Ряд экспертов рассматривает это направление как отдельную науку. Здесь можно выделить четыре значимые подобласти — социологические вычисления (social computing), наука о больших данных (Big Data science), аналитика данных (data analytics) и вычислительная социология (computational social science, CSS).
Адептом подхода к социологическим большим данным как к науке выступает ученый Хироши Ишикава. Он определяет социальные данные как социальные медиаданные, которые являются одним из видов больших данных с характеристиками четырех V — объем, разнообразие, скорость и неопределенность (volume, variety, velocity, vague). Разнообразие данных в данном контексте подразумевает разрозненность, структурированность или их частичную структурированность. Скорость характеризует развитие данных в динамике, данные постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов. Для полноты картины иногда добавляют и другие V как неотъемлемые характеристики больших данных (veracity — достоверность/правдоподобность данных, value — ценность).
В обиходе уже встречается аббревиатура с английский кальки BDS — наука о больших данных (Big Data science) или SBD, с перестановкой слов, наука о социологических больших данных (Social Big Data). Однако, понятие «большие данные» (BD) более широкое, чем понятие BDS/SBD.
В связи с обработкой социальных данных у пользователей различных ресурсов возникают вполне оправданные опасения относительно использования их данных: где и как они будут храниться, кто и каким образом может получать к ним доступ, насколько долго они будут храниться. Станислав Макаров, модератор конференции «Большие данные 2018», считает, что есть мнимые и реальные опасности, связанные с Big Data. К мнимым, по его мнению, можно отнести влияние на выборы. В качестве примера можно привезти недавний скандал с Cambridge Analytica. Компания получила доступ к анализу данных почти 50 миллионов пользователей соцсети. Сначала небольшой психологический тест проходила небольшая группа пользователей, им за это даже платили. Они давали согласие на обработку полученных данных, таким образом, формально не нарушалась конфиденциальность пользователя. Но потом из их профайлов вытягивали профайлы друзей — а на это явного разрешения уже не было. Данные обрабатывались, и человеку начинали поступать рассчитанные именно на него рекламные ролики о кандидате.
Трудно оценить, насколько опасения, связанные с большими данными и их использованием, могут оказать влияние на выборы, так как здесь играют роль множество факторов. Но теоретическим обоснованием этих опасений могут служить некоторые исследования в этой области.
Так, С. Макаров обратил внимание на исследования известного ученого из Стэнфордской высшей школы бизнеса Михаила Козински. Одно из его исследований посвящено области психометрии — науки на стыке психологии и социологии, позволяющей отнести человека к тому или иному типу поведения и предсказывать его действия на основе социологических данных. За несколько лет М. Козински с коллегами разработал метод, позволяющий при анализе лайков в социальной сети определить с очень большой вероятностью цвет кожи испытуемого, его сексуальную ориентацию, приверженность той или иной партии. Есть мнения, что эту технологию применяла Cambridge Analytica для подготовки персональной политической рекламы во время выборов президента США.
Наверное, вопрос использования тех или иных технологий связан с целями их использования и с тем, в чьи руки они попадают. Здесь можно провести аналогию с атомными разработками: можно «использовать атом» в мирных целях — атомная энергетика, а можно сделать атомную бомбу. Так и технологии обработки и аналитики больших данных могут использоваться для предотвращения нештатных ситуаций и катастроф на транспорте, для сокращения поломок оборудования, выявления предпочтений клиентов, определения потребности в медицинских услугах и т.д. И те же технологии позволяют фильтровать людей для каких-то целей, например для приема на работу. Также к реальным опасностям можно отнести использование больших данных для использования в коммерческих целях, ущемляющих интересы граждан (рейтинг заемщика и т.п.). По мнению С. Макарова, по отношению к большим данным многие испытывают напрасные надежды, их роль слишком преувеличена, например, в области рекламы и продаж. А вот что действительно развивается бурными темпами и имеет все шансы стать одним из основных объектов инвестиций в будущем — это интернет вещей.
Big Data: данные и аналитика, специалисты и инструменты
По мнению консультанта Департамента статистики и управления данных Банка России Валерия Артемьева, существуют четыре важных аспекта применения больших данных: сами данные, аналитика, люди, инструменты. Можно выделить структурированные и неструктурированные данные, и в том и в другом виде данных можно выделить данные, сгенерированные человеком и сгенерированные машиной (компьютерами, датчиками и т.д.) (см. табл. 1). Сейчас подогреваемый интерес сместился к неструктурированным данным.
Виды больших данных (таблица 1)
Структурированные данные |
Неструктурированные данные |
---|---|
Сгенерированные машиной |
|
Данные датчиков и IoT Потоки событий Логи Операционные данные Отчетные данные Реестровые данные |
Данные в формате обмена Изображения со спутника Научные данные Фото и видео Данные радара/сонара |
Сгенерированные человеком |
|
Данные ручного ввода Clickданные Данные игр |
Тексты и офисные документы Социальные медиа Мобильные данные Webконтент |
В. Артемьев отмечает, что существует целый ряд проблем в области больших данных, в частности:
1. Вопрос качества неструктурированных данных. Можно столкнуться с изрядной долей фальсифицированного контента в интернете. Например, имеются люди и программы искусственного интеллекта для написания отзывов как положительных, так и отрицательных.
2. Big Data — это не только неструктурированная информация. Так Банк России, кроме задач анализа обращений граждан, выявления аффилированных лиц в интернете, переходит к сбору и обработке финансовых микроданных и операционных данных от кредитных организаций, что потребует применения технологий Big Data.
3. Неправильно ставить во главу угла сбор как можно большего количества данных, главное — правильно ставить задачи и для их решения искать правильные данные.
Таким образом, необходимо идти не от данных, а от решаемых задач! Сбор данных ради самих данных, увлеченность специалистов новыми технологиями ради самих технологий в отрыве от здравого смысла и реальной практики заводит в тупик.
По мнению В. Артемьева, маятник качнулся от бизнес–аналитики в сторону продвинутой аналитики (машинное обучение, искусственный интеллект, data science), для которой характерно самообслуживание при подготовке данных. Наибольший выигрыш от использования Big Data сулит предсказательная аналитика и операционная аналитика (распределенная обработка данных, потоков и событий). Но продолжает развитие новое направление в бизнес–аналитике data discovery — визуальные методы исследования данных.
Бытует мнение, что исследователь данных (Data scientist) должен обладать знаниями во многих областях, зачастую на стыке разных дисциплин («и швец, и жнец, и на дуде игрец»), описание функций таких компетенций можно увидеть в табл. 2. В действительности, как отмечает В. Артемьев, это слаженная команда, в которой специалисты совмещают по несколько ролей. При этом не нужно забывать о важной роли бизнес–аналитика, без которого все сведется к попытке применить типовые аналитические наработки к вашей предметной области.
Компетенции специалиста по исследованию данных (таблица 2)
Кто он? |
Основные компетенции |
---|---|
Аналитик? — Несомненно! |
Методы и средства бизнесаналитики, datamining и продвинутой аналитики |
Статистик и математик? — Да |
Основы математики и математической статистики |
Лингвист? — Самую малость |
Азы лингвистики и особенности анализа текстов (textmining) |
Спец по интеграции данных? — Да |
Интеграция данных и обеспечение качества данных (ELT, Datafederation, DQA) |
Спец по базам данных? — Конечно! |
Управление базами данных SQL и NoSQL |
Программист? — Без этого никак! |
Среды программирования Python, R, Распределенная обработка данных, потоков и событий |
Системщик? — Приходится |
Распределенная файловая система HDFS. Файловая система и команды Linux |
Бизнесаналитик? — Хотелось бы |
Моделируемые бизнеспроцессы/функции |
Инструменты для Data science и Big Data объединены в экосистемы с огромным разнообразием в основном свободного программного обеспечения, что затрудняет их освоение и внедрение. Нужно отметить, что главные поставщики традиционных решений уже обеспечили SQL-доступ и специальные коннекторы к ресурсам Big Data для упрощения работы с ними.
В. Артемьев советует специалистам, решающим на предприятиях задачи в области аналитики и управления большими данными:
-
повышать осведомленность руководителей и компетенции сотрудников в области Data science и Big Data;
-
идти от поставленных задач, а не от необходимости собирать большие данные и использовать новые технологии Big Data;
-
помнить, что они не хакеры–аналитики, а работают в команде единомышленников (аналитики + бизнес + ИТ);
-
создавать аналитические лаборатории на основе экосистемы Big Data как первый шаг в освоении продвинутой аналитики.
Области применения технологий Big Data
Вполне объяснимо, что повышенный интерес к использованию технологий Big Data проявляют крупные и средние компании из розничной торговли, сферы услуг. Этими технологиями активно пользуются банки, операторы сотовой связи. Кроме того, их используют крупные производственные компании для анализа данных о поломках оборудования и снижения простоев, что позволяет уменьшать издержки. Например, в области управления полетами анализ массивов данных позволяет увеличивать надежность оборудования, и снижать число отказов.
Но сфера применения Big Data гораздо шире.
Например, еще одной из сфер применения технологии Big Data может быть покупка бизнеса, считает Игорь Кукоев, бывший руководитель экономического департамента сети кофеен «Шоколадница». Речь идет о максимально широком охвате различной информации о компании. Это и анализ упорядоченных данных о:
-
физических характеристиках объектов;
-
операционных данных;
-
финансовых данных;
-
материальных ресурсах;
-
юридических данных.
Источниками информации могут быть: файловые таблицы, традиционные СУБД, системы учета. Анализировать необходимо и неупорядоченные данные:
-
отзывы клиентов, результаты проверок;
-
происшествия, заявки на обслуживание;
-
конкурентное окружение;
-
ИТ-инфраструктуру.
Здесь источниками информации могут быть: таблицы, схемы, социальные сети, оценки экспертов и т.п.
Результатом анализа таких данных может стать так называемый паспорт объекта, включающий данные по расположению, площади, этажности, разрешительной документации, инвентаризационным данным, конкурентному окружению, историческим финансовым данным, сезонному фактору продаж и т.д.
Но, как известно, стоимость компании не равна простой сумме стоимости ее материальных активов. Сбор и анализ информации по технологии Big Data позволит оценить стоимость нематериальных активов. К ним можно отнести:
-
трудовые ресурсы, знания и умения;
-
информационные ресурсы, базы;
-
организационную и управленческую структуру;
-
таланты, потенциал работников;
-
бренд;
-
репутацию;
-
разработки;
-
базы клиентов;
-
взаимоотношения с контрагентами.
Big Data и цифровая экономика: вопросы, требующие решения
Основные вопросы и проблемы в области использования больших данных сегодня можно свести к следующему.
Есть путаница в терминологии.
За рубежом уже стало нормой, когда на средних и крупных предприятиях вводится должность Chef Data Officer (директора по управлению данными). Чаще всего он подчиняется непосредственно высшему руководству. Для наших предприятий, даже крупных, такая должность все еще остается большой редкостью.
Существует дефицит специалистов в области управления большими данными и соответствующей аналитики. Университеты в России в принципе таких специалистов практически не готовят. Молодых специалистов из ИТ-сферы приходится доучивать, переучивать, притом что у них зачастую весьма завышены требования по стартовым зарплатам с учетом недостаточной квалификации.
Компании не смотрят на диплом об окончании вуза, а рассматривают претендентов с реализованными успешными проектами по профилю.
Достаточно часто на практике встречается очень низкий уровень знаний у большинства руководителей предприятий в области управления большими данными, соответственно, они не могут сформулировать задачи для специалистов или же вообще не видят необходимости в таких специалистах.
Эти проблемы особенно актуальны в свете госпрограммы «Цифровая экономика», утвержденной Правительством РФ в 2017 г., так как трансформация экономической системы в цифровую в первую очередь связана с эффективным управлением большими данными.
К сведению
Концепция IoT стала формироваться около 20 лет назад. Она подразумевает под собой единую вычислительную сеть физических предметов («вещей»), оснащенных встроенными технологиями для взаимодействия друг с другом или c внешней средой. По сути, в потребительском секторе это можно представить в виде умных гаджетов, объединенных между собой через сеть. Это позволяет человеку определять свою цель (потребность), а система сама в идеале должна анализировать данные и предлагать наилучшее решение для удовлетворения потребности человека. Как комплексное решение в данном контексте можно представить себе так называемый «умный дом».