печатные платы

разработка бизнес-планов

бизнес-системы, базы данных, CRM, CMS, АРМ

инновационные проекты, искусственный интеллект, базы знаний, анализ текстов

Детализированные описания ConExT



		Описание языка tExp
		Детализированное описание ConExT



	РАСПРОДАЖА ДОМЕНОВ Продаем домены, не нашедшие реализации в наших Интернет-проектах: Интернет и IT Напитки Продукты питания Кулинария Автотовары, вело-, мототовары Для здоровья и красоты Техника и оборудование Одежда и обувь Спорттовары Разные товары Ювелирные По вопросам приобретения пишите: noolab@yandex.ru


	НАШИ ПАРТНЕРЫ REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ. Подробнее об услугах регистрации доменов

	КОНТАКТЫ e-mail: noolab@yandex.ru Телефон сообщается по запросу Все контакты и реквизиты


	ОБЪЯВЛЕНИЯ

ГЛАВНАЯ

Исследования

CONEXT

Детализированные описания CONEXT

Детализированное описание ConExT

ВВЕДЕНИЕ

CONEXT (Content Extracting Technology) реализует автоматическую интерпретацию текстов по их содержанию.

CONEXT предназначена для извлечения данных и знаний из массивов естественных текстов и передачу их в базы данных/знаний, создания естественно-языковых интерфейсов, разработки информационно-поисковых систем, интеллектуальных систем поддержки принятия управленческих решений и др. приложений.

Основу технологии составляют:

формализация моделей знания и знака, разработанных в СМД-методологии;
оригинальный подход Е3-Е5 к моделированию знаний и интеллектуальных операций в системах искусственного интеллекта;
разработка декларативного языка программирования tExp;
разработка реализованных на tExp оригинальных моделей лингвистического и категориального анализа текстов;
принципы, модели и методики создания приложений с использованием tExp.

ФУНКЦИИ CONEXT

CONEXT обеспечивает переработку неформализованных слабо структурированных текстов (жанра деловой прозы) в данные и знания.

Данные:

структуры Е5 (тематические объект и предикат, связка, рематические объект и предикат);
данные о датах и географических характеристиках;
данные о компаниях и персонах, извлеченные из текстов;
данные о связях между компаниями, персонами;
данные о мнениях и высказываниях различных субъектов, персон об определенных предметах;

Системы знаний:

знаниями считаются структуры связанных между собой знаковой формы и объективного содержания; под знаковой формой понимаются тексты или фрагменты текстов (упорядоченные по дате, источнику, автору), а под содержанием - модели объектов, описанных в тексте (компании, персоны, связи между ними, события и др.) и характеристики ракурса, с которого автор текста описывает объекты.

Переработка текстов в данные и знания может быть специфицирована запросами пользователя:

за счет введения запроса в виде ключевых слов или развернутого текста на естественном языке;
за счет настроек - подключения специализированных словарей, категориальных и понятийных шаблонов, являющихся компонентами CONEXT

ОПИСАНИЕ АРХИТЕКТУРЫ CONEXT

Схема функциональной структуры CONEXT представлена ниже на рис.1.

Рис. 1.

На рисунке сплошными линями показаны те элементы CONEXT, которые прошли опытную эксплуатацию, пунктиром - те, модели которых находятся в реализации.

Ниже приводится описание главных функциональных элементов CONEXT.

1. Предсинтаксический анализ текста

Предсинтаксический анализ текста основан на встроенных шаблонах интерпретатора tExp, которые обеспечивают разделение текста на предложения, выделение слов, знаков препинания, особых символов и т.д.. С помощью словаря RuDict каждое из слов предложения распознается, определяются его грамматические атрибуты - часть речи, род, число, падеж и др.

2. Выделение и анализ метатекста

С помощью специализированного словаря метатекстовых выражений, из текста выделяются все метатекстовые компоненты. За счет этого, с одной стороны, создается основа для учета позиции автора при дальнейшем семантическом анализе, а с другой - появляется возможность отвлечься от метатекста в дальнейшем синтаксическом анализе.

крупнее »

3. Извлечение из текста данных с помощью простых шаблонов

В тексте, за счет встроенных шаблонов интерпретатора tExp, выделяются особые языковые единицы: даты, номера телефонов, электронные адреса, аббревиатуры и т.п. С помощью простых шаблонов, таких, как "Название компании", "Имя персоны" и т.д. они группируются в синтаксические целостности.

крупнее »

4. Выделение основных лексических единиц: простых предложений, причастных и деепричастных оборотов.

Основой выделения лексических единиц является метод факторизации, обеспечивающий отвлечение второстепенных членов предложения и проявляющий "синтаксический скелет" сложных высказываний. В результате выделяются лексические единицы, каждая из которых выступает простым тезисом - заключает в себе одну простую мысль.

5. Факторизация предложения

С использованием грамматических моделей управления между словами и синтаксических характеристик слов производится факторизация предложения. На нескольких этапах факторизации отвлекаются определенные слова, словосочетания и синтаксические обороты. Результатом является проявленная синтаксическая основа предложения: подлежащее, сказуемое, дополнения.

крупнее »

Подобный подход позволяет эффективно решить две связанных задачи: с одной стороны, справиться со всеми формами осложненных предложений, когда, например, сказуемое или подлежащее может быть выражено целой группой слов и т.п., а с другой стороны, фактически свести синтаксический разбор к случаю простого нераспространенного предложения.

6. Определение синтаксического типа предложения

Для каждого из факторизованных предложений производится отнесение его к определенному грамматическому типу предложений.

крупнее »

7. Синтаксический Е5-анализ предложений

Факторизованное предложение переформатируется в каноническую Е5-форму (тематические объект и предикат, связка, рематические объект и предикат). Эта процедура производится с учетом типа предложения и с использованием моделей синтаксических целостностей (отдельных слов и слов, связанных грамматическими связями управления). Результатом является приведение всех предложений к одному нормативному виду. Е5-структура выступает в функции универсальной пропозициональной модели.

крупнее »

8. Дефакторизация предложения

В ходе факторизации вся информация о словах предложения и связях управления между ними, сохраняется. Это позволяет провести обратное действие: развернуть предложение в его исходный целостный сложный вид.

Результатом является приведение любого предложения к единой Е5-форме.

Примечание:

Использование Е5 -формы - особого инварианта пропозициональных грамматических моделей, - является одним из важнейших "ноу-хау" технологии CONEXT, существенно отличающих наш подход от имеющихся аналогов и прототипов. В большинстве технологий компьютерной лингвистики синтаксическому анализу придают самостоятельное значение. Но ведь полный синтаксический разбор предложения вырабатывался в языкознании в рамках определенных научно-исследовательских и педагогических задач, а вовсе не с целью автоматизации анализа текстов по содержанию. Научив машину делать полный синтаксический анализ, разработчики встают перед вопросом: как теперь утилизовать полученные результаты? В чем-то они избыточны, а в чем-то недостаточны для того, чтобы эффективно реконструировать объективное содержание, стоящее за текстом.

Наш подход иной. Мы с самого начала ориентированы на решение задачи восстановления содержания текста, и, исходя этой задачи, ориентируемся на оптимум - необходимые и достаточные требования к результатам грамматического анализа.

9. Определение групп подлежащего и сказуемого

На основе проделанного лингвистического анализа могут быть выделены подлежащие и сказуемое простых предложений, даже в таких случаях, когда они выражены группами слов.

крупнее »

10. Анализ модального содержания

За счет специализированного словаря слов и выражений, имеющих модальную окраску, определяются основные модальности предложения и слов, такие, как, например, утверждение и отрицание, определенность и неопределенность и др.

11. Категориальный анализ

В разработке CONEXT категории рассматриваются не как общие понятия, задающие вершины родо-видовых деревьев, а как фундаментальные мыслительные образования, определяющие организацию мысли. Для содержательного анализа текстов существенным является то, что категории, с одной стороны, детерминируют тип мысленного объекта, а с другой - определяют языковые формы, в которых этот объект "схватывается" мыслью. В категориальном аппарате CONEXT реализуются модели семи базовых категориальных групп: "субъект", "знание", "коммуникация", "деятельность", "вещь", "структура", "процесс". Эти модели выступают элементарными единицами, из которых конструктивно могут собираться модели сложных, системно-устроенных объектов.

Каждой из категориальных групп соответствует специализированные словари, обеспечивающие учет значений слов, участвующих в выражении данного объектного содержания.

Примечание:

Например, к категориальной группе "вещь" относится категориальная оппозиция "целое/части". В речи слово "отделённый" играет определенную роль, указывая на отношения в структуре "целое - операция разделения - часть". В специальном словаре категориальной группы, в которую входит слово "отделённый", учитываются функциональная роль слова, что позволяет переходить к собственно объектному содержанию.

12. Анализ коммуникативного содержания

За счет работы специального модуля анализа коммуникативных структур, в тексте выделяются и отвлекаются все коммуникативные формы и обороты. Это позволяет, с одной стороны, учитывать коммуникативную компоненту содержания, а с другой, выделить для дальнейшего анализа фрагменты текста, относящиеся, собственно, к предмету коммуникации.

крупнее »

13. Понятийный синтез и извлечение из текста знаний

На основе конструктивных элементов, заданных категориями, строятся онтологические модели различных объектов, таких, как, например, "отраслевая цепочка стоимости", "событие передела собственности", "технология публичной политики" и др.

В CONEXT по особым правилам осуществляются взаимные отображения Е5-структур текста на модели категорий и на понятийные модели.

крупнее »

Результаты отображений являются основанием для предположений о содержании текста.

14. Отличие от аналогов - принцип диспараллелизма формы и содержания, реализованный в CONEXT

Технологии автоматической реконструкции содержания текстов находятся на переднем крае сегодняшних разработок в IT, аналогов CONEXT в России очень мало.

Ближайшим аналогом CONEXT является технология RCO компании Гарант-Парк-Метрикс. На основе открытой информации можно заключить, что в RCO реализуется традиционный для формальной логики и семиотики принцип параллелизма формы и содержания знаний. Это выражается в том, что в технологии-аналоге текст (после синтаксического разбора) за счет т.н. пропозициональных моделей непосредственно отображается на содержание, при этом содержание оказывается как бы "параллельным форме", удваивает ее.

Принцип параллелизма был подвергнут фундаментальной критике в работах по основаниям логики (Г.П.Щедровицкий, Н.Г.Алексеев).

Пока реконструируемое содержание достаточно просто, конструктивные недостатки подхода, основанного на принципе параллелизма, могут не проявляться. Но при реконструкции сложного системного содержания (например "передел собственности", "отраслевая цепочка стоимости" и т.п.) можно ожидать, что ограничения, накладываемые этим подходом, станут принципиальными.

В CONEXT реализована идея диспараллелизма, лежащая в основе содержательно-генетической логики (Г.П.Щедровицикий, Н.Г.Алексеев, И.С.Ладенко). Это является принципиальным "ноу-хау" технологии, открывающим широкие возможности для восстановления по рассеянной текстовой информации реальных сложных системных объектов.

15. tExp

Модели и алгоритмы CONEXT реализованы на специально созданном языке программирования tExp.