Проблемы структурирования и унификации информации в социально-экономических и производственных приложениях.

Рейнгольд Л.А., Аракелян С.М. (д.ф.-м.н., профессор)

тел. (0922) 33-10-14 E-maillar2@mail.ru г.Владимир, Владимирский государственный университет 

 

В настоящее время происходят фундаментальные изменения в технологиях информационного взаимодействия на различных уровнях жизни общества. Одной из проблем, возникающих в этом процессе, являются формы и способы представления информации в различных задачах производственного и социально-экономического характера, обеспечение информационной совместимости различных технологических решений, упорядочение и стандартизация информационного наполнения автоматизированных систем.

Важное значение имеет также образовательный аспект проблемы – возможность быстрого и качественного изучения специалистами предметной области с целью проектирования информационных систем, многократного использования удачных программно-методических решений.

Традиционно средства автоматизации разрабатываются  применительно к запросам одной организации, пусть даже и достаточно большой при этом обычно декларируется возможная тиражируемость программного обеспечения в будущем, но, как правило, до этого дело не доходит. Причиной во многих случаях является недостаточная проработка вопросов, связанных с обеспечением информационной совместимости в процессе информационного обмена между различными организационными структурами. Проблемой часто являются различия в структурировании и последующем наполнении подобных по смыслу данных в  различных информационных системах.

Выпускники ВУЗов, приходящие в сферу информационных технологий, оказываются не на пустом месте, а вынуждены отталкиваться в своей работе от имеющихся в организации методических и программно-технических наработок, где все чаще возникают задачи, требующие учета особенностей унаследованных разработок, а также необходимость в  решениях по интеграции информационных ресурсов связанных организаций.

Информационная интеграция в современном обществе возрастает и все организации, осуществляющие информационный обмен между собой, нуждаются в технологиях, обеспечивающих информационную совместимость.

В настоящее время складывается ситуация, когда автоматизированные системы во все большей степени перерастают в новое качество. Автоматизация отдельных подразделений и обособленных организаций становится недостаточной, востребованными становятся подходы, позволяющие обмениваться совместимыми данными без посредничества человека-управленца в процессе сопоставления и анализа данных.

Такие изменения требуют нового уровня интеграции данных и приложений, которые их используют. Существующие средства проектирования  автоматизированных систем в значительной степени ориентированы на то, что каждая организация имеет собственную, специфическую и уникальную структуру информационных потребностей и разрабатывает собственные средства автоматизации или «с нуля» или с использованием в качестве основы одной из предлагаемых на рынке систем автоматизации, развивает систему обработки информации путем эволюционного изменения имеющейся автоматизированной системы.

Однако во многих случаях необходима, организационно и экономически целесообразна более глубокая интеграция данных взаимосвязанных организационных структур. Особенно это критично для информации министерств,  ведомств и их подразделений, муниципальных и региональных органов управления, территориально распределенных предприятий, холдингов.

Потребность в интеграции данных, унификации методов их обработки в определенной степени вступает в противоречие с необходимостью обеспечить специфические потребности организаций, возможности использования данных унаследованных, имеющихся автоматизированных систем. Есть тенденция пускать этот процесс «на самотек».  Поэтому адекватному решению проблем унификации необходимо уделять достаточное внимание.

В связи с вышеизложенным, представляется важной разработка технологий, обеспечивающих совместимость и возможность обмена структурированной информацией между различными организационными структурами даже при наличии изначальной информационной несовместимости между ними.

Одно из основных направлений решения этой проблемы - унификация справочников. Существует определенная стандартизация содержания документов, закрепленная, в соответствующих нормативных документах, см. например [1]. Однако такого рода решения,  как правило, недостаточно последовательны и конкретны как в смысле общеметодологического обеспечения, так и в плане решения вопросов их унифицированной автоматизированной обработки. Ведь содержание документа не ограничивается лишь описанием того, как он выглядит и общими рекомендациями по его применению. Необходимо подробное представление документа как потенциального элемента системы автоматизации организационной структуры. То есть должна быть определена некоторая дополнительная информация, которая явно не следует из внешнего вида документа и состава его реквизитов.

Такая  информация должна позволять использовать документ единым образом в автоматизированных системах различных организаций.

В связи с изложенным выше, представляется необходимой и важной разработка методологии обеспечивающей совместимость информации на различных уровнях в автоматизированном режиме.

Попытаемся очертить круг основных понятий, которые  используются нами в процессе построения методологии, обеспечивающей унификацию обмена информацией. Более подробно они рассмотрены в работе [2].

Любой традиционный документ может быть представлен в виде некоторого в той или иной мере формализованного набора показателей. Каждый показатель имеет определенную методику получения его значения и регламент для предоставления его значения потребителю внутри или вне организации. Это значимая для организационной структуры информация об управляемом объекте, организации или подразделении. Показатель - минимальный в рассматриваемом контексте элемент данных, подлежащий учету в процессе информационного моделирования объекта.

Показатель может быть числом, формализованным текстом или текстом в свободной форме, а также результатом работы некоторого программного модуля.  Для каждого показателя в системе должны быть  определены регулярность получения, формат, а также, при необходимости,  методика получения в той или иной форме (в том числе в виде алгоритма и даже программного модуля).

Регламентатор информационного обмена определяет состав показателей и перечень организационных структур, которые вводят данные по данному показателю в информационную систему. Он является объектом информационной системы, который реализует ценностное начало, оценивает значимость, практическую ценность и пути использования возможной информации об объекте.

Следует отметить такое принципиальное положение – каждый показатель в общем случае имеет историю значений и множественность источников возникновения этих значений. Значение каждого показателя  характеризует свойства некоторого объекта в некоторый момент времени. Значения изменяются во времени и обычно регистрируются в автоматизированной системе с некоторой периодичностью (определяемой требованиями задачи). Характерные временные характеристики каждого значения показателя: момент, в который значение характеризует объект и момент времени, в который источник данных сформировал данное значение (значение обычно возникает с некоторым запаздыванием). Значения одних и тех же показателей, характеризующие конкретный объект в некоторый момент времени, могут поступать от различных объектов-источников данных, поэтому каждое значение показателя характеризуется также источником значения.

Источник данных, в принципе может изменить значение показателя, характеризующего некоторый объект в некоторый момент времени,  у него должно быть право уточнить информацию. Однако пересмотр предоставленного значения – это тоже информация об объекте и этот факт в отдельных случаях может регистрироваться. Это требует также учета возможной множественности значений, полученных от одного поставщика данных.

Наличие истории данных может потребовать также наличия в том или ином виде возможности управлять «забыванием информации» в такой системе. Критериями настройки такого забывания могут быть значимость информации, технические ограничения и пр.

Другими словами, показатели - унифицированные по семантике, формату, единице измерения и условиям получения элементы описания данных, по которым имеется возможность методически согласованного получения и  сохранения истории их значений в пределах, определяемых уровнем доступности репозитария.

В дальнейшем рассмотрении мы сосредоточимся на особенностях информационного обмена между управленческими организационными структурами, хотя предлагаемый подход имеет более общий характер.

Каждый документ, возникающий в процессе информационного обмена, касается некоторого объекта (объекта отчетности), информация о котором интересует регламентатора обмена. Объект - поставщик данных располагает информацией об интересующем объекте и может предоставить ее в той или иной форме. Поставщиков данных об одном объекте, относительно которого собирается информация - объекте отчетности может быть несколько, что дает возможность сопоставлять предоставленную из различных источников информацию.

В частном случае объект отчетности и объект – поставщик данных могут совпадать (если объект отчетности представляет данные о себе).

Поскольку обычно информация об объекте собирается не в произвольной форме, а должна быть определенным образом формализована и структурирована, в информационной системе всегда имеется некоторый объект, который определяет перечень показателей, характеризующих объект отчетности, перечень организационных структур или их подразделений, предоставляющих отчетность, а также какая организационная структура какую отчетность и по какому регламенту предоставляет. Мы называем этот управляющий информационными потоками объект регламентатором обмена данными.

Организационная структура, которой предписывается отчетность перед потребителем данных (поставщик данных), располагает некоторым подмножеством информации, позволяющим ему вводить значения информационных показателей, характеризующих объект в форме унифицированной в той или иной степени. В традиционном информационном обмене это различного рода бланки, стандарты, методики подготовки информации. Является удобным такое построение информационной системы, когда в процессе ее работы состав показателей и регламент их предоставления сможет изменяться в автоматическом режиме в соответствии с изменениями в структуре информации, требуемыми регламентатором обмена.

Обычно используется информация не об одном свойстве объекта, а о группе свойств, объединенная некоторой общей логикой и смысловой направленностью, общим регламентом и методикой получения. Совместно формируется совокупность взаимосвязанных сведений об объекте (объектах) отчетности. Традиционное название подобного агрегата данных – документ. Он состоит из значений показателей, сгруппированных с целью обеспечения удобства их формирования, распространения и анализа.

Документ обычно подспудно подразумевает наличие некоторой модели объекта, которого он касается, эта модель иногда частично входит в документ, но в большей степени находится вне его, образуя его контекст в виде некоторой нормативной, распорядительной и неформальной базы, определяющей содержание документа.

При этом принципиальный вопрос – кому и зачем реально нужен документ, каков алгоритм его воздействия на функционирование объекта. Нужно также учитывать, что, документ может иметь и нетрадиционную форму: информационного массива, не имеющего выражения на бумаге, мультимедиа данных.

В информационном взаимодействии всегда присутствует сторона, для которой информация об объекте (в первичном и аналитически измененном виде) является значимой и заинтересованная в получении сведений об объекте с тем, чтобы учитывать эти сведения в своей деятельности. Это потребитель данных. Потребитель данных не обязательно задумывается о том, почему он использует информацию тем или иным образом. Он может делать это в соответствии с некоторыми традициями и предписаниями, полученными от регламентатора обмена.

Если значение показателя есть выбор из некоторого конечного  списка возможных значений, то в автоматизированной системе, как правило, в той или иной форме создается справочник возможных значений показателя.  То есть справочник – набор типовых значений показателя. Обычно он включает в себя полный набор возможных значений некоторого свойства объектов данного типа применительно к некоторому кругу ситуаций.

В целях сокращения объема  ввода, уменьшения объема хранимых данных, в автоматизированной системе, типовые значения кодируются (чаще всего просто нумеруются). Обычно эти коды формируются отдельно в автоматизированной системе каждой организации, хотя смысловое наполнение справочников во многих случаях пересекается.

Еще одно важное назначение справочников – связывание информации, возможность объединения информации, имеющей общие свойства, выраженные в том, что разные объекты имеют одинаковые значения кодов справочников.

Следует выделить два существенно различающихся типа справочников – справочники, содержащие возможные значения тех или иных свойств объектов и справочники – списки, каталоги объектов. Первые обычно имеют  небольшие размеры и относительно малоизменчивы, вторые могут быть достаточно велики, изменчивы, в размещении их может применяться секционирование.

Для обеспечения совместимости информации различных автоматизированных систем должен выполняться ряд требований к совместимому ведению  справочников в них.

В практике разработки информационных систем справочники являются одним из наиболее проблемных элементов на различных этапов жизненного цикла.

Сложности, связанные с использованием справочников могут быть классифицированы следующим образом:

-       проблема наличия справочника (осознание необходимости появления и методической значимости того или иного справочника);

-       проблема учета в процессе объединения и анализа информации различных имеющихся вариантов структурирования одних и тех же характеристик предметной области в действующих системах (унаследованных и эксплуатирующихся в связанных организациях);

-       первоначальное совместное наполнение и согласование имеющихся значений справочника;

-       сопровождение справочника (согласованное изменение справочника во взаимосвязанных автоматизированных информационных системах), не всегда имеющих развитые возможности по синхронизации данных.

Наличие справочника предполагает не просто его однократное определение, а и присутствие некоторого механизма, обеспечивающего его поддержание и развитие. Иначе стандартный справочник перестает быть стандартным за короткое время, поскольку возникнут собственные его расширения в каждом месте, где он используется.

При более подробном рассмотрении, цели формирования справочника следующие:

-       унификация представления конкретных данных в различных автоматизированных системах;

-       обеспечение однозначного восприятия информации разными людьми и в отличающихся контекстах;

-       если показатель, описываемый справочником, отражает некоторые существенные свойства объекта, то это способ многоязычного и многоотраслевого представления структурированных данных;

-       традиционно способ структурирования описания объекта, используемый в целях нормализации данных, уменьшения размеров ссылочных ключей таблиц, уменьшения вероятности возникновения коллизий  при обновлении данных в системах обработки транзакций.

Рассмотрим основные предпосылки для создания унифицированной программной среды для автоматизированного ведения, совместимого и непротиворечивого представления справочной информации.

Сложность построения унифицированной среды для обработки информации во взаимосвязанных организационных структурах в том, что места использования справочников являются территориально распределенными. При этом, если требуется новое значение справочника – оно необходимо сразу. Требуется объединить две не вполне совместимые вещи: наличие общего справочника с унифицированными значениями и возможность его дополнения в процессе использования в любом месте, где он применяется.

Другая связанная с рассмотренной выше проблема связана с тем, что при наличии типичного набора объектов, описываемого унифицированным набором справочников, логично было бы иметь возможность создавать стандартный интерфейс и в целом программную среду для ведения этой информации.

Третья актуальная проблема – учет в системе автоматизации того  факта, что в общем случае значения каждого показателя для каждого объекта в каждый момент времени могут быть получены от нескольких поставщиков данных, а также то, что поставщик данных должен иметь возможность уточнять предоставленные им значения.

Основные направления унификации информационной среды – это построение автоматизированных информационных систем, которые могли бы выстраивать интерфейсы между собой и средства взаимодействия с пользователем в автоматическом или полуавтоматическом режиме.

Для решения подобной задачи унификация представления данных может рассматриваться на нескольких уровнях:

-       унификация представления объектов в целом в сопрягаемых системах;

-       стандартизация показателей, являющихся элементами модели объектов;

-       унификация структур данных, используемых для моделирования структуры и поведения объектов;

-       типовые варианты интерфейсов для ввода, сопровождения и анализа данных (не подразумевается обязательно один вариант интерфейса – а возможны альтернативные реализации).

Можно предложить некоторые типовые подходы к реализации среды для унифицированного обмена информацией.

Например, возможна самостоятельная программная среда, реализующая методологию автоматизированного обмена информацией между взаимосвязанными организационными структурами с использованием рассмотренных выше принципов. В подобной системе можно выделить следующие основные этапы работы с информацией:

-   Определение иерархического списка  поставщиков данных. На этом этапе определяются источники информации об объекте, компетентные с точки зрения регламентатора обмена.

-   Создание иерархического перечня типовых показателей, применимых для некоторой предметной области.

-   Формирование типовых описаний объектов (документов) из стандартизованных показателей.

-   Назначение отчетности по объектам для поставщиков данных (через назначение отчетности по документам).

-   Автоматическое тиражирование подмножества информации системы на компьютеры поставщиков данных с использованием сетевой инфраструктуры в случае отсутствия непосредственного доступа к базе данных потребителя информации.

-   Получение информации от поставщиков данных с автоматическим контролем ее полноты и своевременности предоставления.

-   Встроенный анализ и выгрузка информации в аналитические подсистемы.

Взаимосвязь между перечисленными этапами отражена на Рис.1. Каждый изображенный на схеме элемент может быть реализован отдельным программным модулем в программной системе, которая использует описываемую методологию.

Конкретное содержание создаваемого массива данных, а также регламент его формирования задается регламентатором информационного обмена.

 

 

 


Рис.1 Общая схема функционирования системы.

 

Кроме описанных выше основных принципов построения системы получения информации от взаимосвязанных организационных структур, возможна также разработка системы унифицированного описания объектов и методов работы с ними для использования в совершенно независимых автоматизированных системах. Подобная система могла бы служить внешним репозитарием, на использование которого через посредство Internet может опираться любая программная система, использующая структуры данных, для которых возможна формализация.

Сейчас повсеместно распространена методология унифицированного распространения текстовой информации через Web-сервисы. Широкое распространение получает язык XML, позволяющий формировать различные отображения одной и той же текстовой информации, эффективно структурировать текстовые документы.

Нет принципиальных препятствий для создания подобной унифицированной методологии для работы со структурированной информацией, хранящейся в базах данных с учетом ее семантики, смыслового содержания.

Подобный сервис должен поддерживать репозитарий структур объектов и составляющих их показателей, характеризующих объект со всех значимых точек зрения. Таких точек зрения на часто используемые объекты на самом деле не так много. Показатели, описывающие подобные модели объектов могут быть унифицированы по всем необходимым для практического использования свойствам. Возможные типовые значения показателей потребители вполне могут получать с использованием имеющейся сетевой инфраструктуры.

При возникновении новых значений справочников, возможно использование специального регламента, демпфирующего потребность реальных приложений в новых значениях. Пользователь сможет самостоятельно ввести собственное значение справочника, использовать его, а затем «легализовать» его в репозитарии в соответствии с некоторой процедурой.

Наличие репозитария - сильный стимул к семантической и функциональной стандартизации описаний окружающей нас среды. Дополнительный смысл репозитария во многом - отчуждение информации от источника этой информации. Источник данных не сможет произвольно менять структуру описания метаданных и данные, полученные с их помощью с потерей информации и совместимости с предыдущими версиями данных. Для некоторых приложений это важно.

При детальном рассмотрении оказывается, что получение данных по регламенту и принятие обоснованных решений на их основе – основной предмет деятельности большинства организационных структур.  Автоматизация такого рода деятельности может получить существенную поддержку в случае наличия механизмов, обеспечивающих совместимость, непротиворечивость  и доставку управленческой информации в автоматизированном режиме.

В перспективе необходим подход «от информации» а не от «организационной структуры». То есть необходимо считать информацию «первичной», а чиновника, который с ней работает «вторичным».

В рамках предложенного подхода одна из основных функций государства в перспективе – депонирование данных  о входящих в его компетенцию объектах и предоставление доступа к ним гражданам и организациям с учетом установленного нормативными документами разграничения доступа и других факторов. К выполнению подобных функций могут быть сведены многие различные, на первый взгляд, управленческие и контрольные функции.

Как следствие, любое изменение функционирования действующей организационной структуры должно сопровождаться предварительной проработкой всего комплекса вопросов, связанных с информационными обеспечением. Сейчас же информационное обеспечение разрабатывается, как правило, «вдогонку» принимаемым нормативным и организационным решениям.

В заключение еще раз подчеркнем, что в современных условиях имеются программно-технические, инфраструктурные, организационные предпосылки для внедрения технологий, обеспечивающих унификацию работы с данными на различных уровнях.

Они позволят существенно увеличить возможности интеграции программно-технических решений, применяемых во взаимосвязанных организационных структурах, способны наложить существенный отпечаток на технологии проектирования программного обеспечения.

Сложность существенных сторон окружающего нас мира конечна, поэтому конечна и сложность системы показателей, которая необходима для его описания. Важно иметь средства для адекватного и компактного описания этого мира.

Предложенный в статье методологический подход имеет, по мнению автора, чрезвычайно важное методическое и дидактическое значение в процессе изучения информационных технологий.

Он акцентирует внимание специалиста на выявление структурных и семантических общностей в моделируемой системами автоматизации объектной среде, позволяет рассмотреть за частными  методами проектирования описаний данных и конкретными технологиями создания приложений общие закономерности автоматизируемой предметной области.

 

1.   Общероссийский классификатор управленческой документации. ОК 011-93. Утвержден Постановлением Госстандарта РФ от 30 декабря 1993 г. N 299. Дата введения 7 января 1994 года.

2.   Рейнгольд Л.А. За пределами CASE-технологий, или о семантической стандартизации метаданных. Компьютерра. - 2000. - №13-15. 

Hosted by uCoz