Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

Общее описание ConExT

Аннотация

Задача автоматизации извлечения знаний из текстов

Общее описание ConExT

Настройка ConExT для приложений

Области использования ConExT

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


Наша фирма предлагает заказ цветов по низкой цене.

www.of-md.com

ГЛАВНАЯ

ИССЛЕДОВАНИЯ

CONEXT

ОБЩЕЕ ОПИСАНИЕ CONEXT

Общее описание ConExT

Основная проблема автоматического анализа и понимания текста состоит в том, что в письменной речи отпечатано множество принципиально различных структур: формы грамматики языка, коммуникативная окраска высказывания, логическая культура автора, устройство описываемого в тексте объекта.

Эта сложность текста проявляется в том, что одну и ту же мысль можно выразить в совершенно разной форме. Например, про одно и то же отношение между партнерами на рынке может быть написано по-разному:

  • "Завод Х поставляет продукцию компании У"
  • "Крупные поставки оборудования осуществляются заводом Х. В числе его покупателей - компания У"
  • "А я и не знал, что фирма У делает закупки у завода Х!"

Технология должна быть способна отвлечь форму выражения и реконструировать собственно содержание: связь закупки/поставки между Х и У.

Технология ConExT (Content Extracting Technology) обладает именно такой способностью. Она реализует автоматическую интерпретацию текстов по их содержанию и извлечение из текстов знаний об объектах, связях между ними и т.д..

Ядро ConExT включает в себя:

  • декларативный язык программирования высокого уровня tExp, специально предназначенный для создания программ синтаксической и семантической обработки текстов на естественном языке;
  • словарь русского языка Ru-Dict (на основе синтаксического словаря Зализняка);
  • прикладные программы синтаксического анализа текста и перевода его в нормативные лингвистические Е5-структуры;
  • прикладные программы категориального анализа, реконструирующие содержание -объекты, описанные в тексте;
  • принципы и методики спецификации прикладных программ под конкретные приложения;

Общая схема ConExT приведена на рисунке:


В целом, технология может быть охарактеризована как последовательный анализ текста, выделяющий содержательно-значащие единицы, отвлечение этих единиц от их грамматической формы и переход к моделям содержания.

На этом пути с помощью словаря идентифицируются и характеризуются слова текста, выделяются предложения, вплоть до простых переложений в составе сложных. Проводится синтаксический анализ, в частности определяются падежи слов (при этом разрешаются сложные случаи омонимии), выделяются главные члены предложения и др.

Итогом лингвистического анализа является перевод простых предложений (и др. лингвистических единиц) в единую "каноническую" форму Е-5 структуры. Е-5 структура содержит в себе пять элементов (тематические объект и предикат, связка, рематические объект и предикат) и играет роль обобщенной пропозициональной модели.

Полученный результат можно назвать "лингвистическим портретом" содержания. Этот портрет - оптимум того, что нужно узнать о тексте, используя только формально-грамматические и синтаксические признаки, и не привлекая знаний о семантических значениях слов.

В "канонической" пропозициональной модели оказываются отвлеченными многие особенности формы выражения, что и создает возможность перехода к собственно объективному содержанию. Основой реконструкции содержания является категориальный аппарат: именно категории задают тип объектов, описанных в тексте. Для каждой лингвистической единицы строятся модели возможных объектов содержания.

Синтез отдельных объектов в единую систему осуществляется за счет конструктивных моделей, таких, например, как "акт коммуникации", "досье субъекта рынка", "отраслевая цепочка", "событие", "технология публичной политики", "передел собственности" и др.

Извлеченные из текста сведения (или реконструированные модели) передаются на хранение в базу данных (базу знаний), где они являются доступными для последующей формальной обработки, аналитики и т.д.

Описанные выше механизмы реализуются в прикладных программах, написанных на языке высокого уровня tExp. Этот язык специально создан для решения задач структурного анализа неформализованных текстов на естественном языке. Наличие в составе технологии собственного языка программирования обеспечивает высокую гибкость технологии, возможность быстрой настойки на новые приложения.