печатные платы

разработка бизнес-планов

бизнес-системы, базы данных, CRM, CMS, АРМ

инновационные проекты, искусственный интеллект, базы знаний, анализ текстов

Статьи

Статьи



		Интернет - 5
		Искусственный интеллект и самоорганизующиеся системы - 14 / 5
		Прикладные системы - 2
		Разное - 2 / 2
		Управление знаниями - 3
		Философские, логические и антропологические исследования мышления - 6 / 5
		Новое - 12 материалов



	РАСПРОДАЖА ДОМЕНОВ Продаем домены, не нашедшие реализации в наших Интернет-проектах: Интернет и IT Напитки Продукты питания Кулинария Автотовары, вело-, мототовары Для здоровья и красоты Техника и оборудование Одежда и обувь Спорттовары Разные товары Ювелирные По вопросам приобретения пишите: noolab@yandex.ru


	НАШИ ПАРТНЕРЫ REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ. Подробнее об услугах регистрации доменов

	КОНТАКТЫ e-mail: noolab@yandex.ru Телефон сообщается по запросу Все контакты и реквизиты


	ОБЪЯВЛЕНИЯ

ГЛАВНАЯ

Статьи

Система автоматизированного извлечения знаний из текстов на естественном языке

Нечипоренко Александр , 12.08.2008

Труды международной научно-технической конференции
"Информационные системы и технологии - 2003"
НГТУ, Новосибирск, 2003г.

Доклад от компании НооЛаб
/ см.также тезисы к докладу /

Содержание

Аннотация
Постановка задачи
Общее описание технологии извлечения знаний из текстов
Язык структурно-лингвистического анализа текстов
Конструктивные модели содержания текстов
Заключение

Аннотация

Авторами предложена концептуальная модель построения автоматизированной (программной) системы, способной на основе поданных на вход текстов на естественном языке (в стиле "деловая проза") осуществить реконструкцию содержания и выделить изложенные в тексте знания, которые могут быть представлены пользователю или направлены в базу знаний, являющуюся элементом масштабной интеллектуальной системы.

Новацией предложенной и экспериментально проверенной модели является метод выделения из текста содержательно-значащих единиц, их отвлечение от грамматической формы и переход к моделям содержания. Метод реализуется за счет взгляда на текст через призму модельных представлений двух типов: А) правила, традиции и феномены выражения мыслей в текстах на русском языке; Б) ограниченный набор типов знаний (категорий), инвариантный к языку, которым пользуется человек при выражении подавляющего большинства знаний о мире (объектах, субъектах, процессах, явлениях, отношениях и т.п.).

Приводится принципиальная блок-схема системы, реализующей данную модель.

Постановка задачи

В Интернете и корпоративных сетях содержится огромное количество информации в виде неформализованных текстов на естественном языке. Но при существующих сегодня инструментах (программно-аппаратных средствах) человеку приходится тратить огромное количество времени и усилий для того, чтобы добыть знания, необходимые для решения практических задач. Парадоксальность ситуации в том, что чем больше информации предоставляет человеку компьютеризированный мир, тем более недоступными становятся знания.

Для решения данной проблемы нужно иметь технологии извлечения знаний из массивов текстовой информации. Знания - всегда знания о некотором объекте. Поэтому знаниевые технологии должны в первую очередь реконструировать описанные в тексте объекты, то есть - обеспечивать обработку текстов по содержанию.

Автор текста сообщает о некотором реальном предмете, явлении, ситуации и т.п., выражая при этом свою точку зрения, освещая ситуацию с определенной стороны. Читателю важны знания о том, что описано в тексте, поэтому он восстанавливает в мысли и понимании то, что "стоит за словами" - объективное содержание текста, устройство самого предмета, явления, ситуации. Кроме того, читателю бывает важно знать об источнике сведений и вносить в картину ситуации поправку на точку зрения автора.

При отсутствии адекватных и эффективных инструментов по извлечению знаний из текстов - пользователь вынужден более или менее внимательно прочитывать тексты. При работе с большим массивом текстов - это затруднительно и пользователь обращается к инструментам, позволяющим сократить массив документов за счет исключения мало информативных, повторяющихся, неактуальных и т.п., - выполняет фильтрацию. При осуществлении фильтрации средствами "дознаниевых" технологий (поиск и отбор по ключевым словам, другим формальным признакам) - задача решается слабо, а при ужесточении формальных критериев - резко возрастает риск отбраковки полезных, информативных или даже ключевых документов.

Задачей автоматизированной системы, призванной помогать пользователю в получении знаний из больших массивов текстовых документов - является: в упрощенном варианте - выполнять эффективную фильтрацию документов с низким риском отбраковки содержательно-значимых материалов; в развитом варианте - представлять пользователю обобщенные знания об интересующем предмете (явлении, ситуации и т.п.) в готовом виде (схемы, компактные отчеты, рефераты), с возможностью обратиться к первоисточникам, из которых эти знания выделены.

Общее описание технологии извлечения знаний из текстов

Основная сложность в автоматическом анализе и понимании текста состоит в том, что в письменной речи отпечатано множество принципиально различных структур: формы грамматики языка, коммуникативная окраска высказывания, логическая культура автора, устройство описываемого в тексте объекта. Эта сложность текста проявляется в том, что одну и ту же мысль можно выразить в совершенно разной форме.

Технология, решающая данную задачу, строится на основе последовательного анализа текста, в процессе которого осуществляется выделение содержательно-значащих единиц, отвлечение этих единиц от их грамматической формы и переход к моделям содержания.

На этом пути с помощью словаря идентифицируются и характеризуются слова текста, выделяются предложения, вплоть до простых переложений в составе сложных. Проводится синтаксический анализ, в частности определяются падежи слов (при этом разрешаются сложные случаи омонимии), выделяются главные члены предложения и др.

Итогом лингвистического анализа является перевод простых предложений (и др. лингвистических единиц) в единую "каноническую" форму Е-5 структуры. Е-5 структура содержит в себе пять элементов (тематические объект и предикат, связку, рематические объект и предикат) и играет роль обобщенной пропозициональной модели.

Полученный результат можно назвать "лингвистическим портретом" содержания. Этот портрет - оптимум того, что нужно узнать о тексте, используя только формально-грамматические и синтаксические признаки, и не привлекая знаний о семантических значениях слов.

В "канонической" пропозициональной модели оказываются отвлеченными многие особенности формы выражения, что и создает возможность перехода к собственно объективному содержанию. Основой реконструкции содержания является категориальный аппарат: именно категории задают тип объектов, описанных в тексте. Для каждой лингвистической единицы строятся модели возможных объектов содержания.

Синтез отдельных объектов в единую систему осуществляется за счет конструктивных моделей. Эти модели - с одной стороны могут быть заданы экспертами, настраивающими систему под прикладные задачи конкретных пользователей (групп пользователей); с другой стороны - самими пользователями через особые возможности интерфейса (семантико-схематический запрос) и в ходе диалога с системой (доуточнение запросов, ответы на наводящие вопросы системы и т.п.).

Извлеченные из текста сведения или реконструированные модели передаются на хранение в базу данных (базу знаний), где они являются доступными для отображения пользователю в виде различных схем, отчетов, рефератов; для последующей формальной обработки; для содержательного анализа другими модулями масштабной интеллектуальной системы и т.д.

Блок-схема реализации данной технологии приведена на рис.1.

Рис. 1.

Язык структурно-лингвистического анализа текстов

Описанные выше механизмы получения "лингвистического портрета содержания текста" реализуются в прикладных подпрограммах, написанных на языке высокого уровня tExp. Этот язык специально создан для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие в составе технологии собственного языка программирования, ориентированного на задачи обработки лингвистической информации, обеспечивает высокую гибкость и возможность быстрой настойки на конкретные особенности практических задач.

В подпрограммах на языке tExp реализуется обработка текста с учетом правил, традиций и феноменов выражения содержания на естественном (русском) языке. Наиболее объемная информация (как, например, база слов языка и их атрибутов - падежей, склонений и т.п) - хранится в специальной базе данных (словарях), к которым имеют доступ подпрограммы на языке tExp.

В экспериментальных реализациях технологии создан ограниченный набор подпрограмм на языке tExp, который позволяет проверить и отладить общий технологический цикл. Для качественного и эффективного решения практических задач - набор подпрограмм пополняется, корректируется и оптимизируется.

Наличие языка tExp позволяет не только гибко подстраивать систему под особенности выражения содержания в отдельных прикладных областях (например, техническая литература, Интернет-публицистика, юридическая документация), но также модифицировать систему в ходе естественного развития и видоизменения языка (появление новых слов, типических выражений, устоявшихся фразеологических оборотов и пр.).

Конструктивные модели содержания текстов

Значительный эффект в полном и адекватном извлечении знаний из текстов достигается за счет создания конструктивных моделей содержания.

В технологии различаются: первичные (абстрактные) модели, исследуемые (интересующие пользователя) модели и модели, восстановленные из текста.

Первичные или абстрактные модели - задаются разработчиками технологии или экспертами, выполнившими адаптацию системы под конкретные нужды пользователя. Эти модели описывают подавляющее большинство типов знаний, которые могут встречаться в обрабатываемых текстах. При этом, чем более точно задан жанр и предмет текстов - тем более тщательно эти модели могут быть проработаны. Без какой-либо привязки к конкретному жанру/предмету в системе существуют лишь довольно абстрактные категории (объект, субъект, знание, процесс, структура, деятельность, коммуникация) и набор моделей, являющихся наиболее распространенными комбинациями этих категорий.

Исследуемые, интересующие пользователя модели - задаются в процессе работы с системой. Пользователь составляет модель ситуации (предмета, процесса), знания о которой он желает получить. Система исследует тексты через призму построенной модели и, находя соответствия, эффективно извлекает знания, либо достраивает (уточняет) модель. Для составления модели пользователю предлагается специальный схематический язык, владение которым позволяет предельно эффективно использовать систему. Если пользователь не владеет этим языком (не имеет времени/желания на его изучение) - система пытается сама предположить модель интересов пользователя на основании последовательно вводимых им текстовых запросов (в рамках единой сессии извлечения знаний), а также вовлекая пользователя в диалоговый режим путем выдачи наводящих вопросов, гипотез, уточнений.

Восстановленные по тексту модели содержания - являются одновременно результатом работы системы и материалом для дальнейшего, более точного (глубокого) извлечения знаний. Полученные в результате обработки текстов модели могут быть критически оценены пользователем (экспертом), в случае расхождений с реальным содержанием текста (или при расхождении с требуемыми результатами) - могут быть поправлены или опровергнуты, что является хорошим материалом для самообучения системы. Кроме этого, полученные модели могут использоваться в качестве исследуемых (интересующих) моделей на других множествах текстов. Потенциально, полученные в результате анализа модели также могут быть использованы в качестве первичных (абстрактных) для постоянного использования в системе, однако данный механизм пока не был исследован.

Наибольшая практическая ценность в ходе исследований показана механизмом составления исследуемых (интересующих пользователя) моделей. Даже в простой, экспериментальной реализации, данный механизм показал значительную эффективность и вызывал у пользователей, выполнявших тестирование, ощущение "работы со знаниями". Подобный эффект возникает в результате того, что пользователь, формулируя системе свой вопрос, исходно выкладывает значительную часть знаний, видит перед собой формулировку вопроса, а системе остается лишь найти в текстах нужные, согласующиеся с постановкой вопроса, дополнения. Которые, будучи получены, достраивают для пользователя общую картинку ситуации (процесса, знаний о предмете и т.п.) и представляют собой содержательно полные знания, которые требовалось получить. Для автоматизированной системы - производить достраивание базы знаний, которая уже частично заполнена экспертами и пользователем - значительно проще, нежели осуществлять полный анализ текста и восстанавливать "все возможное содержание", которое имел в виду или подразумевал автор.

Заключение

В докладе рассмотрена технология автоматизированного извлечения знаний из текстов на естественном языке, приведена принципиальная блок-схема системы, построенной по данной технологии, а также описаны ключевые моменты, позволяющие достигать эффективного решения поставленной задачи. Наиболее важными элементами технологии являются: выделение из текста содержательно-значащих единиц, их отвлечение от грамматической формы и переход к моделям содержания; язык структурно-лингвистического анализа текстов; механизм формирования пользователем интересующих моделей содержания.

Принципиальные этапы технологического цикла, описанного в докладе, были реализованы и экспериментально проверены. Дальнейшее развитие технологии и создание прикладных систем заключается в развитии отдельных элементов, обучении системы, создании адаптаций и оптимизации по скорости обработки текстов.

Нечипоренко Александр , 12.08.2008