ТМТ
В последние годы тема использования больших данных стала одной из самых актуальных в технологическом мире. Интернет, телеком, банковская сфера, ритейл, медицина, городская среда — кажется, не осталось области, где данные не собираются и не анализируются. Вопрос «зачем» уже не стоит — интересно «как». Как наилучшим образом собирать, хранить и использовать большие данные?
Всего пару лет назад о данных говорили как о ценном товаре и называли их «новой нефтью». Ведь действительно: чем больше о своём клиенте знает компания, тем лучшее предложение она может сделать, а следовательно, тем эффективнее сумеет продавать свои услуги или товары. Самыми продвинутыми в этом деле стали интернет-компании, и это понятно, ведь именно у них аккумулируются данные миллиардов пользователей.
Google, Amazon, «Яндекс», Mail.ru, Microsoft и прочие технологические гиганты знают о своём пользователе всё: его возраст, пол, доход, семейное положение. Даже недовольство собственной внешностью, проблемы со здоровьем или весом не ускользнут от внимания корпораций. Конечно, всё это хранится и анализируется в обезличенном виде. Но позволяет показывать конкретному человеку, выходящему в сеть с определённого устройства, ту или иную рекламу.
Банки также активно используют аналитику больших данных, например, для предотвращения мошенничеств. Для этого сначала анализируется типичное поведение клиента банка: например, чаще всего он оплачивает картой продукты, обеды в кафе и коммунальные услуги, а часть денег снимает сразу после зарплаты. Если в цепочке вдруг появляется нетипичная операция — скажем, попытка снять все деньги — банк может заподозрить неладное. Конечно, один лишь анализ данных не позволяет однозначно определить, что операция мошенническая. Но у банка появляется повод связаться с клиентом и предотвратить возможную кражу.
С точки зрения банка, большие данные могут быть использованы — и уже используются — по пяти основным направлениям: анализ рисков, идентификация мошенничества, сегментация клиентов, автоматизация разработки индивидуального продукта, роботизация проверки комплаенс.
Не только частные компании, но и целые страны понимают ценность больших данных. Но законодательства мировых держав только начинают адаптироваться к новым реалиям. Государства пытаются определить и прописать, кто и как должен распоряжаться данными. Вопрос непростой: жёсткие ограничения могут тормозить прогресс, но при этом законы должны защищать нашу приватность. Для того чтобы коммерческие компании могли приносить пользу, не вторгаясь в жизнь пользователей, нужно искать баланс.
Примеры, показывающие необходимость правильного использования больших данных, уже есть, в частности технологии анализа данных совместно с машинным обучением дают надежду на спасение многих человеческих жизней. Один из самых ярких кейсов использования анализа больших данных для спасения людей в 2019 году представил российский оператор сотовой связи «Билайн» и поисково-спасательный отряд «Лиза Алерт». Речь об обработке фотографий местности для поиска пропавших людей.
В решении использовались технологии свёрточных нейронных сетей. Был создан специальный самообучающийся алгоритм, который анализирует снимки, сделанные с высоты 40—100 метров в условиях разной освещённости. Этот алгоритм находит на фото малейшие признаки присутствия людей: свежие следы, оставленные вещи и прочее. Программа, обрабатывающая огромное количество изображений, в 2,5 раза сокращает время сортировки снимков во время поиска пропавших людей. В случае, если человек потерялся в лесу в холодное время года, такое повышение скорости становится решающим.
в 2,5 раза
сокращается время сортировки снимков во время поиска пропавших людей благодаря технологии свёрточных нейронных сетей
Ещё один пример жизненно важной работы с данными — обработка медицинских изображений. В этом году анонсированы несколько решений для анализа фотографий и предварительной диагностики. Например, в Google нейросеть обучили диагностировать кожные заболевания человека с точностью 80—92%. Алгоритм использует не только фото проблемных участков кожи, но и данные об общем состоянии пациента. Учитывает пол, возраст и другие факторы. Затем собранная информация сопоставляется с базой данных, которая содержит более 50 тысяч изображений с подтверждёнными диагнозами. Скорость и точность диагностики кардинально повышаются, что может оказаться решающим фактором для спасения пациента.
точность диагностики кожных заболеваний с помощью нейросети Google
В целом большие данные — перспективная область, которая предоставляет новые возможности, порождает новые профессии, открывает закрытые ранее двери. Такой ресурс можно и нужно использовать во благо людей, компаний и целых государств, главное — научиться с ним бережно обращаться.
Автор: Марина Эфендиева / BusinessFM