HDS: Hitachi Content Intelligence – это конструктор, из которого бизнес может собрать все, что угодно
Рынок технологий для хранения и обработки данных развивается стремительно: даже поиск информации становится «умным». К таким технологиям можно отнести и Hitachi Content Intelligence – инструмент для интеллектуального структурирования документооборота бизнеса с помощью метаданных. О тонкостях работы с этим решением в интервью CNews рассказал Антон Воронецкий, старший системный консультант Hitachi Data Systems.
CNews: Для начала объясните, пожалуйста, что такое метаданные?
Антон Воронецкий: По сути, метаданные – это информация об информации. Любой цифровой объект состоит из контента и метаданных, где метаданные – основные характеристики этого объекта. Эти характеристики раскрывают сведения о его признаках и свойствах – они были созданы специально для того, чтобы быстро искать нужные данные в больших информационных потоках. Простейшие метаданные можно увидеть, открыв свойства любого документа в формате Microsoft Office: это имя объекта, дата его создания, автор, размер и так далее. С разных файлов можно «снять» разное количество метаданных: так, например, решение Hitachi Content Intelligence (HCI) позволяет выделить порядка 150 строк с метаданными с фотоснимка, сделанного на iPhone, включая информацию о локации, в которой было сделано фото.
CNews: Какую пользу бизнес видит в использовании таких данных?
Антон Воронецкий: В любой компании хранится и ежедневно используется колоссальное количество данных. Структурировать их и понять, какая именно информация является ценной и актуальной – очень сложная задача, которую, конечно, невозможно выполнить вручную. Бизнесу нужна была технология, которая смогла бы не просто быстро осуществлять поиск по метаданным документов, но и менять их, добавлять в них новые поля и упорядочивать файлы согласно имеющимся в них метаданным.
К примеру, компания хранит множество договоров, каждый из которых начинается словами: «Договор номер такой-то, такого-то числа…». И этих договоров – тысячи. Раньше для того, чтобы найти из всего массива памяти конкретный документ, использовался контекстный поиск: система обращалась непосредственно внутрь файла. Решение HCI позволяет автоматически, не тратя время и силы сотрудников компании, переместить нужную информацию из «тела» документа в метаданные, что намного упрощает и ускоряет поиск.
Таким же образом можно отделить нужные данные от ненужных или архивных. Например, за последние 10 лет у какого-нибудь банка накопилась огромная база контрактов, но часть из них, возможно, уже устарела или используется не очень часто. Технология HCI может в буквальном смысле разложить эти файлы по годам и месяцам и отсеять из общей массы те, что можно переместить на архивное (то есть более дешевое) хранение. Иными словами, решение не только разгружает ИТ-инфраструктуру компании от лишних данных, но и экономит затраты на их хранение.
CNews: Какие еще функции есть у технологии Hitachi Content Intelligence?
Антон Воронецкий: Изначально решение разрабатывалось как поисковое, но позже «обросло» более сложным и интересным функционалом. Коротко говоря, решение дает бизнесу возможность подключаться к собственным данным, индексировать их и обогащать метаданными, для того чтобы в дальнейшем изучать их с помощью средств бизнес-аналитики – таких, как Pentaho, например. HCI работает с форматами PDF, Microsoft Office, видео, изображениями, аудио и многими другими.
Важно, что это решение представляет собой не монолитный «камень», а конструктор, из которого заказчик может собрать все, что угодно, по своему вкусу. Например, с его помощью можно обработать архив электронной почты и проанализировать каждый его внутренний элемент. Кроме того, администратор может лично контролировать, как обрабатывается каждый объект, сколько и какие именно объекты будут храниться в полученном индексе и какими наполнятся метаданными.
CNews: В каких сферах бизнеса это решение будет наиболее востребованным?
Антон Воронецкий: Разные функции HCI подойдут самым разным компаниям. К примеру, в госучреждениях, где службы безопасности строго следят за соблюдением внутренних политик, такое решение сможет распознать и переместить в одну папку документы и сообщения, содержащие определенные слова-триггеры (которые также могут быть вынесены в метаданные).
Работая с новыми клиентами, мы часто приводим в пример опыт наших заказчиков из числа банков или страховых компаний – так проще всего продемонстрировать универсальность функций HCI. Представьте: человек заключает страховой договор и приносит в организацию копии своих документов, оплаченные чеки, фотографии – все это в разных форматах. Допустим, этот человек попадает в небольшое ДТП – он, конечно, звонит в свою страховую компанию, его показания записываются на диктофон. Затем на место происшествия приходит полицейский – составляет схему ДТП, протокол, оценщик фотографирует повреждения автомобиля – все эти данные тоже попадают к страховщикам. Если всем этим документам присвоить метаданные по имени или договору заказчика, страховой компании не придется работать с разрозненной информацией и долго искать необходимый для тех или иных действий документ – даже через несколько лет страховой агент легко найдет в базе нужного клиента или конкретное дело по его метаданным.
CNews: А как насчет банков?
Антон Воронецкий: Фактически, к банкам применимо все то же, что и к страховым компаниям. Ни один банк не хочет иметь дело с мошенниками – для этого сотрудники банка тщательно проверяют кредитную историю новых клиентов. Но решения по кредитам должны приниматься быстро, а значит, банк должен иметь быстрый доступ к любой информации, которая имеется по предполагаемому заемщику.
Бывает и так, что один банк поглощает другой: тогда ИТ-директору остается в наследство чужая инфраструктура со своими методами хранения и организации данных. Осуществлять поиск по данным, которые никак не упорядочены, очень неудобно. Технология HCI может проанализировать все документы старого банка и привести их к единому формату, изменив и дополнив строки метаданных. То же самое, кстати, применимо для медицинских организаций: с помощью этого решения врачи могут получить доступ к полной истории болезни пациента, даже если лечение проводилось в разных клиниках.
CNews: Как другому бизнесу – к примеру, розничным магазинам, осознать ценность своих данных?
Антон Воронецкий: Анализируя покупки клиентов, чтобы определить их привычки и потребности. Имея информацию о том, какие продукты, по каким ценам и в какое время приобретает каждый конкретный клиент, супермаркет может делать своим клиентам выгодные маркетинговые предложения. Этот же прием работает и в обратную сторону: видя, сколько товара того или иного производителя имеется, магазин может обсуждать с поставщиками более разумные условия сотрудничества. Для того, чтобы получить такую аналитику, к инструментам, работающим с метаданными, нужно лишь подключить удачно сочетающиеся с ними инструменты бизнес-аналитики.