Статья

«Важнее, чем добыча огня»: без чего не будет работать аналитика данных

Big Data data
мобильная версия
, Текст: Антон Кураш

Вице-президент компании Hitachi Vantara и один из авторов пособия «Интеллектуального управления данными для чайников» Питер Сьоберг, рассказал, как работает аналитика данных, что является важным для создания дата-ориентированной системы производства, и почему искусственный интеллект должен питаться только чистыми данными.

CNews: Какие факторы сдерживают применение искусственного интеллекта при работе с большими данными?

Питер Сьоберг: Мы придаем большое значение достоверности данных. Недостаточно просто иметь много данных, необходимо их понимать и убедиться в их ценности. Алгоритм может быть высокоинтеллектуальным и чрезвычайно сложным, разработка такого алгоритма – нетривиальная задача, но без данных он ничего не стоит.

Как соотносятся искусственный интеллект и большие данные?

Питер Сьоберг: Я расскажу на примере. Чтобы научить автомобиль ездить самостоятельно, без водителя, нужно сначала научить этот автомобиль «видеть», что происходит вокруг, и принимать решения, определяющие дальнейшие действия. Но как научить машину видеть, как научить ее отличать каменный объект от бумажного? Если я задену автомобилем каменный объект, я могу испортить его; если я задену автомобилем бумажный объект, ничего страшного не случится. Машина должна понимать эту разницу. Интеллект определяется данными, и это очень важно: чем больше данных вы предоставите, тем проще компьютеру будет правильно распознать объект.

image001-crop_600-420.jpg
Питер Сьоберг: Через 10, 20, 50 лет сфера интеллектуальных разработок и использования данных станет даже важнее для человечества, чем открытие огня – я верю в это всем сердцем

CNews: Существует ли сейчас проблема стандартизации интернета вещей?

Питер Сьоберг: Да, такая проблема существует. Я рассматриваю ее на уровне данных, с точки зрения необходимости сделать их полезными. Стандартизация технологий интернета вещей означает, что все данные мы получаем в формате, который можем использовать. Уже существуют стандарты и наборы инструментов, которые нормализуют данные и делают их полезными. Данные ведь необходимо хранить, и хранить таким образом, чтобы они были максимально полезными – без необходимости что-то подключать, без необходимости опрашивать миллион устройств за десять минут.

CNews: Каким будет следующий шаг вашей компании в создании инновационных решений для больших данных?

Питер Сьоберг: Один из примеров – управление цифровыми доказательствами. Это решение предназначено для правоохранительных органов: с ним они смогут принимать цифровые доказательства, хранить их и использовать при расследованиях уголовных и гражданских дел.
Несмотря на то, что мы – промышленная компания, мы создаем решения, которые можно применять для самого широкого круга пользователей. Важно решать задачи не только для бизнеса, но и в рамках интереса общества – вот то, к чему мы стремимся. Мы называем это социальной ответственностью.

CNews: Как вы считаете, в разных странах по-разному подходят к пониманию специфики регулирования больших данных? Есть ли какие-то различия между странами?

Питер Сьоберг: Безусловно, между странами есть очень большие различия, в основном связанные с конфиденциальностью и персональной информацией. Например, если бы я захотел провести исследование покупательского поведения среди граждан Евросоюза, мне пришлось бы подходить к вопросам конфиденциальности очень осторожно, в связи с чем в данных могли бы быть разрывы. Я бы не смог узнать пол и возраст человека, я бы знал только то, что он приобрел новый автомобиль, и ассоциация, которая в этой связи есть, была бы разорвана. Таким образом, подход к конфиденциальности во многих странах ограничивает нашу возможность использовать данные для исследований.
В странах, где отношение к конфиденциальности менее строгое, например, в Китае, удастся собрать больше информации и использовать ее более произвольно. Полагаю, такие страны будут развиваться быстрее в областях, связанных с аналитикой данных, если смогут применить ее к конкретным направлениям.

CNews: Вы думаете, регулирование больших данных играет важную роль в развитии этой сферы?

Питер Сьоберг: Да. Если сделать конфиденциальность окончательным критерием, это снизит полезность данных. Одновременно соблюдать конфиденциальность и производить инновации – это очень сложная задача. Мы верим в мир, где необходимо учитывать оба аспекта. Каждой стране предстоит принять свое решение. Через 10, 20, 50 лет сфера интеллектуальных разработок и использования данных станет даже важнее для человечества, чем открытие огня – я верю в это всем сердцем. Но когда, почему и каким образом это произойдет, мы не знаем. Нам еще предстоит это увидеть.

CNews: Расскажите о флагманских программных продуктах Hitachi Vantara, которые вы обычно используете для работы с большими данными.

Питер Сьоберг: Первый из них – это программный пакет Pentaho, второй – платформа для работы с контентом Hitachi Content Intelligence. Это программные инструменты для хранения и анализа данных. Hitachi Content Intelligence используется в самых разных приложениях. Один из наиболее распространенных сценариев – индексация данных из неструктурированных источников, что позволяет выполнять их поиск и чтение при работе с претензиями, проведении расследований и так далее.

CNews: Какая отрасль сейчас использует аналитику больших данных активнее всего?

Питер Сьоберг: Я думаю, это финансовые организации. Они используют аналитику для более полного представления о своих клиентах, удовлетворения потребностей рынка, повышения прибыли. Также в этом направлении активно развиваются медицинские учреждения. Это те области, в которых специалисты должны наиболее бережно и полно использовать исторические данные, чтобы не допустить повторения ошибок, быстрее и эффективнее обслуживать клиентов и оптимизировать свою работу.



Дополнительные материалы