(http://www.cir.ru) создана Научно-исследовательским вычислительным центром МГУ им. М. В. Ломоносова и автономной некоммерческой организацией - Центром информационных исследований. Эта система функционирует в рамках Российского, университетского информационно-исследовательского консорциума по социальным и гуманитарным наукам. Она бесплатна для университетов Российской Федерации, и при подключении к ней нужно соблюсти лишь некоторые формальности.
В базе данных системы официальные публикации государственных органов РФ и СНГ, аналитические материалы российских и международных научных центров, данные опросов общественного мнения, некоторые научные издания и средства массовой информации, предметно-ориентированные базы данных, учебные материалы и монографии преподавателей. В системе реализована весьма любопытная технология предварительной автоматизированной лингвистической обработки входящих документов при формировании баз данных. Система производит автоматическую обработку поступающих на вход информационных потоков. В это время выполняются морфологический и терминологический анализы, рубрицирование и аннотирование входных доку ментов. Ежедневно таким образом обрабатывается весьма значительный объем информационных потоков.
Определение главных тем документа позволяет выделить те фрагменты текста, из которых впоследствии формируется аннотация в вид связного текста, значительно облегчающего восприятие информации Также системой создается структурная тематическая аннотация представляющая содержание текста в виде совокупностей концептуально связанных терминов.
Структурная аннотация дает возможность зрительно оценить содержание текста с первого взгляда. Терминологический анализ производится с помощью тезауруса по общественно-политической тематика На его базе осуществляется автоматическое концептуальное индексирование входящего потока текстов - создается список понятий, упомянутых в тексте, и выполняется процедура разрешения многозначных терминов, что принципиально при поиске по многозначны словам, обозначающим разные понятия в разных контекстах.
Каждое понятие в тексте получает свою оценку степени релевантности к содержанию документа (в зависимости от того, элементом какого тематического узла оно является).
Максимальный вес полу, чают центры основных тематических узлов, минимальный - упоминавшиеся термины. Понятия с определенной таким образом оценкой релевантности образуют терминологический поисковый образ доку! мента или тематическое представление содержания документа, которое является основой для рубрицирования и аннотирования. Работая с системой, необходимо указать базы данных для проведения поиска и ввести запрос. |