Автоматический анализ текста
Автоматический анализ текста
(АА), операция, которая заключается в
том, что из данного текста на естественном
языке извлекается содержащаяся в этом
тексте грамматическая и семантическая
информация, выполняемая по некоторому
алгоритму в соответствии с заранее
разработанным описанием данного языка.
Обратная операция называется автоматическим
синтезом текста.
АА подразделяется на
три этапа:
1 ) лексико-морфологический
— переход от отдельной словоформы к её
лексико-грамматической характеристике;
2)
синтаксический — переход от цепочки
лексико-грамматических характеристик,
представляющих фразу, к её синтаксической
структуре;
3) семантический — переход
от синтаксически проанализированной
фразы к её смысловой записи. В алгоритме
АА обычно различают сведения о языке
(«грамматика») и сведения о самом процессе
анализа («механизм», или собственно
алгоритм АА). АА является необходимым
этапом в разных видах автоматической
обработки текстов: автоматического
перевода, автоматического реферирования,
информационного поиска и т. п. АА следует
отличать от автоматического исследования
текстов, при котором полностью (или
почти полностью) отсутствуют сведения
о языке текста и текст обрабатывается
алгоритмом именно с целью построения
описания языка.