Cybernetics Wiki
Advertisement

Обучение без учителя (англ. Unsupervised learning ) — способ постановки эксперимента, в ходе которого испытуемая система спонтанно обучается выполнять поставленную задачу, без вмешательства со стороны экспериментатора. Как правило, это пригодно только для задач, в которых известны описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.

Обучение без учителя часто противопоставляется обучению с учителем, когда для каждого обучающего объекта принудительно задаётся «правильный ответ», и требуется найти зависимость между стимулами и реакциями системы.

Типология задач обучения без учителя[]

Типы входных данных[]

  • Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
  • Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

Задачи кластеризации[]

Выборка объектов разбивается на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Исходная информация представляется в виде матрицы расстояний.

Методы решения
  • Графовые алгоритмы кластеризации
  • Статистические алгоритмы кластеризации
  • Иерархическая кластеризация или таксономия
  • Нейронная сеть Кохонена
  • k-means

Кластеризация может играть вспомогательную роль при решении задач классификации и регрессии (относящихся к категории обучения с учителем). Идея заключается в том, чтобы сначала разбить выборку на кластеры, затем к каждому кластеру применить какой-нибудь совсем простой метод, например, приблизить целевую зависимость константой.

Методы решения
  • Нейронная сеть встречного распространения
  • Метод радиальных базисных функций

Задачи поиска правил ассоциации[]

Исходная информация представляется в виде признаковых описаний. Задача состоит в том, чтобы найти такие наборы признаков, и такие значения этих признаков, которые особенно часто (неслучайно часто) встречаются в признаковых описаниях объектов.

Методы решения
  • Анализ рыночных корзин

Задача восполнения пропущенных данных[]

Исходная информация представляется в виде признаковых описаний. Значения некоторых признаков для некоторых объектов могут отсутствовать. Такие случаи часто возникают на практике. Например, экпериментатор может не записать результат наблюдения; респондент может отказаться отвечать на вопрос анкеты; пациент может не пройти данный вид обследования; и т. д. Однако многие методы анализа данных требуют, чтобы входная матрица признаковых описаний была заполнена полностью. Для заполнения отсутствующих значений часто применяют следующий подход. Считая данный признак целевым, строят алгоритм, прогнозирующий его значение в зависимости от других признаков. Пропущенные значения заполняют прогнозами. Эта операция проделывается со всеми признаками, имеющими пропущенные значения. Данная задача решается методами обучения с учителем: если признак количественный, применяются методы восстановления регрессии; если признак качественный (номинальный), приеняются методы классификации.

Задачи сокращения размерности[]

Исходная информация представляется в виде признаковых описаний, причём число признаков может быть достаточно большим. Задача состоит в том, чтобы представить эти данные в пространстве меньшей размерности, по возможности, минимизировав потери информации.

Методы решения

Задачи визуализации данных[]

Некоторые методы кластеризации и снижения размерности строят представления выборки в пространстве размерности два. Это позволяет отображать многомерные данные в виде плоских графиков и анализировать их визуально, что способствует лучшему пониманию данных и самой сути решаемой задачи.

Методы решения

Некоторые приложения[]

  • Социологические исследования: формирование представительных подвыборок при организации социологических опросов.
  • Маркетинговые исследования: разбиение множества всех клиентов на кластеры для выявления типичных предпочтений.
  • Анализ рыночных корзин: выявление сочетаний товаров, часто встречающихся вместе в покупках клиентов.

Ссылки[]

  • www.MachineLearning.ru — профессиональный вики-ресурс, посвященный машинному обучению и интеллектуальному анализу данных
  • EM-алгоритм

Литература[]

  1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
  2. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
  3. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  4. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  5. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  6. Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
  7. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
  8. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.




Категории[]

Advertisement