Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

История разработки
Проектная группа

История разработок компании НооЛаб в области извлечения знаний из текстов

Группа разработки ConExT

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


ГЛАВНАЯ

Исследования

CONEXT

История разработки
Проектная группа

История разработок компании НооЛаб в области извлечения знаний из текстов

В основе интеллектуальных разработок компании НооЛаб лежат оригинальные идеи В.Н.Елашкина в области моделирования мышления в системах искусственного интеллекта (подход Е5), модели знания содержательно-генетической эпистемологии Г.П.Щедровицкого, собственные лингвистические, логические и программистские разработки.

Идея содержательной обработки текстов возникла и начала прорабатываться компанией "НооЛаб" в проекте The Ones в 1998-99 г.г. (Елашкин В.Н., Елашкина А.В., Русин А.О.). Предполагалось создать электронный органайзер, в котором функции поиска и классификации заметок основаны на выделении с помощью структурных шаблонов тех объектов, которые описаны в текстах. В ходе работы по проекту была создана оригинальная СУБД ESF.

В 1999 г. была осуществлена предпроектная подготовка, а в 2000 г. был начат проект TWINS (Русин А.О., Елашкина А.В.) - разработка семантической поисковой системы нового типа. В отличие от известных поисковых систем "Яндекс", "Рамблер", система TWINS должна была отбирать тексты не по ключевым словам, а по смыслу. Смысл текстов должен был моделироваться в специальной базе знаний, реализующей идеи Е5. В ходе разработки была спроектирована оригинальная архитектура программной системы, создан ряд программных модулей поиска информации в интернет.

В 2000 г. была поставлена задача создания специального языка моделирования содержания текстов, построенного на логике базовых категорий. Были разработаны принципы лингвистического и категориального анализа, позволяющие выделять и моделировать то, о чем говорится в текстах: ситуации взаимодействия персон, события, связи и отношения между организациями и т.д.

К январю 2001 г. был готов демонстрационный макет поисково-аналитической системы нового типа - РАСПАС - Российская Система Позиционного Анализа Ситуации (Нечипоренко А.В., Разумов А.М., Русин А.О., Елашкина А.В.). Макет демонстрировал новые возможности извлечения знаний из текстов, организации понимания и креативного мышления управленца и аналитика, поддержки принятия управленческих решений. Демонстрационный макет РАСПАС был показан в аналитическом отделе Совета Федерации РФ, в Счетной палате, в ряде финансовых компаний и всюду получил высокую оценку.

Весной 2001 г. описание функций и постановка задач на разработку системы РАСПАС были опубликованы в интернете на одном из сайтов компании www.nlgroup.ru.

В период 2001-2002 г. в компании велись инициативные технологические разработки.

Летом 2001 г. была поставлена задача создания специального инструментального языка высокого уровня, поддерживающего алгоритмы обработки текстов по содержанию. Были осуществлены первые эксперименты с моделями лингвистического и категориального анализа неформализованных текстов на естественном языке.

Летом и осенью 2002 г. было разработано ядро ConExT.

В результате были созданы:

  • словарь русского языка RuDict ,
  • язык высокого уровня tExp для создания прикладных программ обработки текстов,
  • прикладные программы, обеспечивающие синтаксический разбор предложений текста,
  • прикладные программы, обеспечивающие извлечение из текстов знаний о физических и юридических лицах, о мнениях и высказываниях персон по определенным предметам, о коммерческих отношениях между производителями, дилерами и потребителями продукции.
  • Модели лингвистического и категориального анализа текстов и понятийного синтеза содержания, принципы и методики создания специализированных приложений технологии.

К началу 2003 г. в целом закончен первый этап разработки ConExT: ядро технологии позволяет моделировать содержание неформализованных текстов на естественном языке и извлекать из текстов различные знания.

В перспективе ближайших разработок:

  • Реализация на базе технологии ConExT различных приложений, как для собственных разработок компании НооЛаб, так и заказных;
  • Наращивание функциональных возможностей: создание программ аннотирования текстов, определения жанров текстов, реконструкция системного устройства содержания текста в целом и т.д.
  • Создание специализированной библиотеки классов UML для моделирования содержания текстов при решении задач аналитики и поддержки принятия управленческих решений.
  • Расширение возможностей языка tExp (создание генератора текстов, наращивание скорости обработки).
  • Создание механизмов самоорганизации и самообучения в системах ConExT.
  • Создание базы знаний на основе Е5 сетей, реализующей идеи различных прикладных логик: "субъективной", "темпоральной", "содержательно-генетической" и др.).