→ Пошук по сайту       Увійти / Зареєструватися

Text Mining

Text Mining — это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации.

Основные задачи Text Mining

Как и большинство когнитивных технологий, Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных.

Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций.

Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов.

Основные элементы Text Mining

В соответствии с уже сформированной методологии к основным элементам Text Mining относятся:

  • классификация (classification)
    При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. Задача классификации - это классическая задачу распознавания, где по некоторой контрольной выборке система относит новый объект к той или другой категории.
    Особенность систем Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большой, поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации.
    В существующих сегодня системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам.
  • кластеризация (clustering)
    Кластеризация базируется на признаках документов, которые использует лингвистические и математические методы без использования определенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных.
    Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную
    Кластеризация применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.
  • построение семантических сетей
    Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации.
  • извлечение фактов, понятий (feature extraction), Извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации.
  • суммаризация (summarization),
  • ответ на запросы (question answering),
  • тематическое индексирование (thematic indexing),
  • поиск по ключевым словам (keyword searching).

Также в некоторых случаях набор дополняют средства поддержки и создание таксономии (oftaxonomies) и тезаурусов (thesauri).

По материалам сайта:
sites.google.com/site/upravlenieznaniami

загрузка...
Сторінки, близькі за змістом