Лаборатория информационных технологий
НооЛаб - создание сайтов, программное обеспечение, инновационные проекты
на главную поиск карта сайта
создание сайтов, порталов, веб-систем бизнес-системы, базы данных, CRM, CMS, АРМ инновационные проекты, искусственный интеллект, базы знаний, анализ текстов
web-development software development AI (artificial intelligence)
Создание сайтов и другие веб-услуги Программное обеспечение Исследования, НИОКР

ГОТОВЫЕ ПРОДУКТЫ

RCOUNTER

СЛОВАРИ RU.DICT

СУБД ESF

РАСПРОДАЖА ДОМЕНОВ

Продаем домены, не нашедшие реализации в наших Интернет-проектах:

По вопросам приобретения пишите: noolab@yandex.ru

НАШИ ПАРТНЕРЫ

REG.RU - партнер по регистрации доменов в зонах .RU, .SU и .РФ.

Подробнее об услугах регистрации доменов

КОНТАКТЫ

e-mail: noolab@yandex.ru

Телефон сообщается по запросу

Все контакты и реквизиты

ОБЪЯВЛЕНИЯ


ГЛАВНАЯ

Программное обеспечение

ГОТОВЫЕ ПРОДУКТЫ

СЛОВАРИ RU.DICT

Общее описание системы


Аннотация

RU.DICT – комплект лингвистических баз данных, сервисов для программного доступа к базам из прикладных систем, а также разнообразного инструментария для редактирования, пополнения, перекомпиляции баз данных.
Основное назначение словарей – предоставить прикладным программам информацию о словах. Информация может быть очень общей, либо очень детальной, более или менее точной и достоверной – все это зависит от содержимого лингвистических баз данных.

Принципиально система «RU.DICT» может хранить информацию о произвольных словах любого языка с произвольной подробностью.
Версия 2 системы комплектуется только базами, наполненными информацией о словах русского языка. Подробность, объем словарей и то, какая информация о словах присутствует в поставляемых базах – детально описано в Приложении № 1.

Метод использования баз RU.DICT

Система RU.DICT предназначена для предоставления лингвистической информации прикладным программам. Основные механизмы работы со словарями ориентированы на это. В пакет также входят утилиты для визуального просмотра словарей, которые позволяют выполнять ряд операций пользователем непосредственно, но это имеет смысл преимущественно в демонстрационных целях или при отладке программ. Также на сайте www.rudict.noolab.ru существует раздел, в котором можно получить доступ к словарям непосредственно с сайта и выполнять некоторые операции по просмотру данных.

Базы данных RU.DICT представляют собой набор файлов высокого объема, которые могут быть расположены на сервере, либо рядом с использующим их приложением.

В версии 2 системы предусмотрены следующие возможности по доступу к базам из прикладных систем:

  • В среде Win32 - использование интерфейсов COM/DCOM. Для этого необходимо в системе Windows установить (зарегистрировать) интересующий вариант COM-сервиса системы RU.DICT, после чего лингвистические базы данных становятся доступны для любых языков и сред разработки, которые поддерживают работу с COM/DCOM (OLE).

    Существуют следующие версии COM-модулей системы RU.DICT:
    1) Inoroc-сервер (DLL), предпочтителен для приложений, которые удобнее распространять и инсталлировать вместе со словарями.
    2) Outproc-сервер (EXE), предпочтителен для систем, в которых множество приложений обращается к словарям, либо словари имеет смысл инсталлировать на выделенный сервер.

  • В среде UNIX – в настоящее время использование словарей возможно только для приложений, разрабатывающихся на Kylix, см. ниже.
  • В средах разработки Delphi/Kylix (системы Win32 или UNIX соответственно) - использование внутренних интерфейсов среды. Для этого в среде разработки программисту необходимо подключить к ведущемуся проекту соответствующие библиотеки (DCU) доступа к словарям RU.DICT. В этих библиотеках содержится полный код ядра СУБД, работающего со словарными базами (так называемый вариант “embedded DBMS”). Данный подход удобен тем, что разрабатываемая программа после успешной компиляции не нуждается ни в каких дополнительных действиях для доступа к словарям – установка каких-либо компонент или сервисов в системе не требуется.

Основные виды лингвистических данных, предоставляемых базами RU.DICT

Основные базы данных системы RU.DICT содержат следующую информацию о словах:

  • Морфологические данные слов:
    • Часть речи
    • Род
    • Число
    • Падеж
    • Вид
    • Время
    • Лицо
    • Форма (полная / краткая)
    • Одушевленность
    • Инфинитивность
    • Переходность
    • Возвратность
    • Номинация (собственное, нарицательное)
    • Структура (простое, сложное, несоставное, составное, первичное, производное).
    • Степень сравнения.
  • Семантические данные (знания о словах): для ряда слов определено, имеет ли слово какое-либо подмножество из следующих семантик:время, пространство, принадлежность, причина, следствие, уточнение, детерминант, количество, цель, противопоставление, отрицание, совместность, объект, мысль, речь.
  • Специальные атрибуты слов:
    • Знак (фамилия, имя, отчество)
    • Метатекст
    • Анафора
    • Фазовый глагол
    • Модальный глагол
    • Модальность вопроса
    • Модальность начала содержания
    • Модальность отрицания

    Перечисленные виды характеристик слов не означают, что в словарях записана только эта информация. Также это не означает, что для каждого слова в словаре записаны все перечисленные характеристики. Для различных словарей в системе могут задаваться разные списки параметров (атрибутов), которые известны о словах.

    Перечень параметров слов (словарных атрибутов) – это тоже элемент словаря, каждый словарь имеет собственный набор таких атрибутов.

    Подробнее о том, какие словари входят в стандартную поставку, какова их полнота и какие атрибуты слов записаны в них – см. Приложение № 1.

    Словообразование

    Важной функцией словарей является возможность найти для каждого слова его нормальную форму, либо наоборот – основываясь на любой форме слова создать любую другую. Таким образом, RU.DICT позволяет решать задачи словообразования. При этом, образование слов реализуется не заменой частей слова на наиболее вероятные из подходящих, а именно методом поиска истинно правильной формы (даже если дело идет с исключениями). Ошибки и неточности могут возникать только по причине неточностей в наполнении словарных баз данных.

    Рекомендуемые применения системы RU.DICT

    RU.DICT для анализаторов текстов и интеллектуальных систем

    Это основное применение, на которое первоначально была ориентирована система словарей. По этой причине в словарях предусмотрена очень подробная морфологическая информация о словах, а также некоторая семантическая информация, важная при решении задач анализа текстов на естественном языке.
    Полнота русского словаря и множество морфологических и семантических атрибутов слов позволяют строить анализаторы текстов, системы реферирования, системы машинного перевода, экспертные, информационно-поисковые системы.

    RU.DICT для Интернет-систем

    Лингвистические базы RU.DICT могут использоваться в Интернет-системах (веб-разработках), возможно использование словарей под различными платформами.
    Веб-сервер MS IIS на платформе Win32 – словари доступны как OLE-объекты, либо может быть создано специальное CGI/ISAPI-приложение, работающее со словарями.
    Веб-сервера на платформе UNIX – в настоящее время могут использовать словари только при создании специального CGI-приложения или демона компилируемого в среде Kylix. В будущем будет расширен спектр возможностей по использованию RU.DICT на серверах под управлением UNIX.
    Примером возможности использования словарей в Интернет-системах может служить сервис на сайте www.rudict.noolab.ru, который позволяет получать различную информацию о словах непосредственно через веб-страницу.

    RU.DICT для систем, поставляемых на CD-ROM
    Интересной особенностью системы RU.DICT является возможность работать с лингвистическими базами данных без предварительной инсталляции сервера, либо даже без регистрации простых DLL.

    Прикладная система может быть скомпилирована с ядром «RU.DICT», которое будет обращаться к словарям без их предварительной инсталляции.
    Это позволяет создавать системы, которые работают непосредственно с CD-ROM – дисков и не требуют инсталляции на компьютер. Такими системами могут быть словари, переводчики, либо тестовые и игровые программы со сложными диалогами, требующими решения задач словообразования и анализа вводимых пользователем фраз.