Введение в большие данные

Автор: Кузнецова Ксения Сергеевна
Должность: преподаватель
Учебное заведение: ГАПОУ РСЯ ЮЯТК
Населённый пункт: Нерюнгри
Наименование материала: Машинное обучение и большие данные
Тема: Введение в большие данные
Раздел: среднее профессиональное

Введение в Машинное обучение

Большие данные. Этим термином определяют массивы информации,

которые

невозможно

обработать

или

проанализировать

при

помощи

традиционных методов с использованием человеческого труда и настольных

компьютеров.

Сегодня во многих отраслях внедряют машинное обучение для

автоматизации бизнес-процессов и модернизации экономической сферы.

Машинное обучение относят к методам искусственного интеллекта, так

как оно не решает задачу напрямую, а обучается применять решение. Они

учат

систему

на основе

открытых

данных

или

полученного

опыта.

Со временем такое приложение способно прогнозировать развитие событий

без явного программирования человеком и часов потраченных на написание

кода.

Машинное

обучение

применяется

беспилотных

аппаратах

(автомобилях, роботах и летательных аппаратах), в системах распознавания

речи, эффективных поисковых системах и т.д.

Построение систем машинного обучения является на сегодняшний день

одной

из

самых

популярных,

актуальных

современных

областей

человеческой

деятельности

на

стыке

информационных

технологий,

математического анализа и статистики.

Примеры задач из современной реальной жизни

Пример 1. Диагностика заболеваний

Пример 2. Поиск мест залегания полезных ископаемых

Пример 3. Оценка надёжности и платёжеспособности кандидатов на

получение кредитов

Big data: какие данные считаются большими

Благодаря экспоненциальному росту возможностей вычислительной

техники, объем данных не может являться точным критерием того, являются

ли они большими. Например, сегодня большие данные измеряются в

терабайтах, а завтра – в петабайтах. Поэтому главной характеристикой Big

Data является степень их структурированности и вариантов представления.

5V – главные характеристики Big Data

Яркая иллюстрация больших данных – это непрерывно поступающая

информация с датчиков или устройств аудио- и видеорегистрации, потоки

сообщений из соцсетей, метеорологические данные, координаты геолокации

абонентов сотовой связи и т.п.

Таким образом, источниками больших данных могут быть:



интернет —

соцсети,

блоги,

СМИ,

форумы,

сайты, интернет

вещей (Internet of Things, IoT);



корпоративная информация – транзакции, архивы, базы данных и

файловые хранилища;



показания приборов — датчиков, сенсоров, регистраторов и пр.

Этапы работы с big data

Чтобы

получить

рабочую

гипотезу

причинах

возникновения

конкретных ситуаций, в частности, как связаны отказы оборудования с

условиями подачи напряжения, или спрогнозировать будущее, например,

вероятность своевременного возврата кредита частным заемщиком, анализ

больших объемов структурированной и неструктурированной информации

выполняется в несколько этапов:



чистка данных (data cleaning) – поиск и исправление ошибок в

первичном наборе информации, например, ошибки ручного ввода (опечатки),

некорректные значения с измерительных приборов из-за кратковременных

сбоев и т.д.;



генерация

предикторов

(feature

engineering)

–

переменных

для

построения аналитических моделей, например, образование, стаж работы,

пол и возраст потенциального заемщика;



построение и обучение аналитической модели (model selection) для

предсказания целевой (таргетной) переменной. Так проверяются гипотезы о

зависимости таргетной переменной от предикторов. Например, сколько дней

составляет просрочка по кредиту для заемщика со средним образованием и

стажем работы менее 3-х месяцев.

Методы и средства работы с big data

К основным методам сбора и анализа больших данных относят

следующие:



Data

Mining –

обучение

ассоциативным

правилам, классификация, кластерный и регрессионный анализ;



краудсорсинг — категоризация и обогащение данных народными

силами, т.е. с добровольной помощью сторонних лиц;



смешение и интеграция разнородных данных, таких как, цифровая

обработка сигналов и обработка естественного языка;



машинное

обучение (Machine

Learning),

включая

искусственные

нейронные

сети, сетевой

анализ, методы

оптимизации

генетические

алгоритмы;



распознавание образов;



прогнозная аналитика;



имитационное моделирование;



пространственный и статистический анализ;



визуализация аналитических данных — рисунки, графики, диаграммы,

таблицы.

Определяющими характеристиками для больших данных являются,

помимо их физического объёма, и другие, подчеркивающие сложность

задачи обработки и анализа этих данных. Набор признаков VVV (volume,

velocity, variety — физический объём, скорость прироста данных и

необходимости

их

быстрой

обработки,

возможность

одновременно

обрабатывать данные различных типов) был выработан компанией Meta

Group в 2001 году с целью указать на равную значимость управления

данными по всем трём аспектам.

В дальнейшем появились интерпретации с четырьмя V (добавлялась

veracity — достоверность), пятью V (viability — жизнеспособность и value —

ценность), семью V (variability — переменчивость и visualization —

визуализация).

Но компания IDC,

например,

интерпретирует

именно

четвёртое

как

value

(ценность),

подчеркивая

экономическую

целесообразность обработки больших объёмов данных в соответствующих

условиях.

Исходя

из

вышеприведенных

определений,

основные

принципы

работы с большими данными таковы:

Горизонтальная

масштабируемость.

Это

—

базовый

принцип

обработки больших данных. Как уже говорилось, больших данных с каждым

днем становится все больше. Соответственно, необходимо увеличивать

количество вычислительных узлов, по которым распределяются эти данные,

причем обработка должна происходить без ухудшения производительности.

Отказоустойчивость.

Этот

принцип

вытекает

из

предыдущего.

Поскольку вычислительных узлов в кластере может быть много (иногда

десятки тысяч) и их количество, не исключено, будет увеличиваться,

возрастает и вероятность выхода машин из строя. Методы работы с

большими данными должны учитывать возможность таких ситуаций и

предусматривать превентивные меры.

Локальность данных.

Так как данные распределены по большому

количеству вычислительных узлов, то, если они физически находятся на

одном сервере, а обрабатываются на другом, расходы на передачу данных

могут стать неоправданно большими. Поэтому обработку данных желательно

проводить на той же машине, на которой они хранятся.

Эти

принципы

отличаются

от

тех,

которые

характерны

для

традиционных, централизованных, вертикальных моделей хранения хорошо

структурированных данных. Соответственно, для работы с большими

данными разрабатывают новые подходы и технологии.

В раздел образования

Журнал Педагог

Введение в большие данные