Cybernetics Wiki
Advertisement

Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий основываясь на содержании документа.

Использует методы информационного поиска и машинного обучения.

Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Постановка задачи[]

Имеется множество категорий .

Имеется множество документов .

Неизвестная целевая функция .

Необходимо построить классификатор , максимально близкий к .

Имеется некоторая начальная коллекция документов, для которой известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ или степень подобия .

Этапы обработки[]

Индексация документов 
Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
Построение и обучение классификатора 
Могут использоваться различные методы: решающие деревья, фильтр Байеса, нейронные сети, метод опорных векторов и др.
Оценка качества классификации 
Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.

Применение[]

  • фильтрация спама
  • составление интернет-каталогов
  • подбор контекстной рекламы
  • в системах документооборота
  • автоматическое реферирование (составление аннотаций)
  • снятие неоднозначности при автоматическом переводе текстов

См. также[]

Ссылки[]

Advertisement