Есть такой пример: люди, которые покупают хлеб и масло, с высокой вероятностью купят и сыр. Чтобы убедиться в этом наверняка, следует проанализировать поведение большого количества покупателей. Знание этой закономерности позволяет мерчендайзерам в супермаркетах класть такие продукты недалеко друг от друга. Это очевидный пример, но существует и множество других, не столь очевидных закономерностей, которые можно выделить, анализируя данные.
Мы живём в мире колоссальных объёмов информации, и для её анализа используются специализированные алгоритмы, например, алгоритмы машинного обучения. Машинное обучение — это специальная область информатики, которая изучает методы автоматического извлечения новых, ранее неизвестных закономерностей из известных данных.
Сегодня технологии машинного обучения и обработки больших данных используются во многих сферах нашей жизни, а в будущем могут стать основным средством автоматизации всех рутинных задач и незаменимыми помощниками в принятии решений.
Специалист по анализу данных и машинному обучению занимается обработкой огромного количества информации, и, как правило, его рабочее место — это не один компьютер, а целый кластер из серверов.
Петабайт (ПБ, ПБайт) — единица измерения количества информации, равная 1015 байт (1024 терабайт). Это намного больше, чем память компьютеров, с которыми мы имеем дело в повседневной жизни.
Data Science — это прикладная область науки, в которой требуется хорошее знание математики, начиная от математического анализа и аналитической геометрии и заканчивая теорией вероятностей и статистикой.
Чтобы стать специалистом в этой области, нужно уметь хорошо программировать, знать современные языки, для которых уже существует множество специализированных научных библиотек и компонентов для работы с Big Data.
Всегда важно и глубокое знание предметной области (domain knowledge), в которой производятся исследования. Если ты занимаешься анализом медицинских данных, ты обязан разбираться еще и в медицине.
В этой профессии также нужны хорошие коммуникационные навыки, чтобы общаться с заказчиками, переводить язык данных на нормальный человеческий язык и уметь просто объяснять сложные вещи.
Без знания английского языка тоже практически невозможно войти в эту профессию. Большинство книг и документации написаны на английском и на русский не переводились.
В Data Science нужно идти людям, которые не чувствуют в себе сил или интереса заниматься фундаментальной теоретической наукой, но при этом хотят заниматься научными программированиями и практической околонаучной работой, которая приносит пользу людям и деньги — бизнесу.
Образование в области Data Science в России можно получить во многих ведущих университетах, а также в рамках программ дополнительного образования, которые организуют компании, занимающиеся исследованиями в этой области.
Кроме этого, на факультете ВМК МГУ имени М.В. Ломоносова открыта специальная образовательная программа Mail.Ru Group «Техносфера», где студенты изучают способы интеллектуального анализа большого объема данных, программирование на С++, многопоточное программирование и технологии построения систем информационного поиска.
Здесь доступно объясняются основы обработки данных. Большой плюс книги — практические примеры с использованием реальных данных из таких веб-приложений как Facebook, Audioscobbler и других.
Книга и одноименный онлайн-курс на Coursera от авторов из Стэнфорского университета. Основной упор делается на техники, которые работают наиболее эффективно и хорошо масштабируются.