Аналитический центр презентовал методику оценки и повышения качества данных
Дата публикации: 02.08.2019
Метки:

Источник: информация из открытых интернет-источников

Аналитический центр презентовал методику оценки и повышения качества данных

2019-08-02-47.jpg

Она является частью методологии НСУД и разработана в рамках нацпрограммы «Цифровая экономика»

Аналитический центр при Правительстве Российской Федерации представил на экспертное обсуждение проект методологии оценки и повышения качества данных. Документ является частью методологии Национальной системы управления данными (НСУД) и разработан в рамках реализации федерального проекта «Государственное цифровое управление» национальной программы «Цифровая экономика».

«Цель Национальной системы управления данными как таковой в обеспечении единого процесса повышения качества данных. Разработка этого документа и ряда других документов ведется в рамках дорожной карты по созданию национальной системы управления данными на 2019-2021 годы», – пояснил начальник Управления методологического сопровождения работы с данными Аналитического центра при Правительстве Российской Федерации Александр Малахов.

Он особо отметил, что речь об оценке именно качества данных, которые находятся в информационном ресурсе – методика не ставит своей целью оценить качество информационной системы как таковой. Кроме того, из нее исключен такой параметр, как безопасность, поскольку он применим не столько к данным самим по себе, сколько в целом к информационной системе, в которой данные ведутся.

По словам начальника Управления методологического сопровождения работы с данными, разработчиков методики интересуют данные, которые «уходят наружу», то есть имеют межведомственную значимость. Для межведомственного обмена методика применяется в обязательном порядке, а к остальным данным внутри систем – в рекомендательном.

«Это рекомендации, но не требования к внутренней работе информационных систем ведомства, которые они ведут для себя. Управление качеством, измерение и его повышение – процесс постоянный», – подчеркнул Малахов.

Таким образом, авторы документа выделили 14 параметров, касающихся качества данных. Из них семь могут иметь измеримые значения: покрытие, полнота, точность, своевременность, согласованность, целостность, уникальность.

«К различным информационным ресурсам эти параметры применимы с различной степенью значимости. Для какого-то информационного ресурса более важным является точность и полнота, нежели своевременность, например та же самая статистика. Есть и информационные ресурсы, ситуации, когда намного важнее скорость и своевременность. Например, в случае произошедшей чрезвычайной ситуации», – указал Малахов.

Он также подчеркнул, что методика – это только часть документов, которая разрабатывается. «Здесь все вопросы критериев качества, оценки и повышения качества данных, сосредоточены на оценке одного информационного ресурса. Соответственно, не рассматриваются вопросы, которые возникают, когда в целом в системе госуправления существует множество информационных ресурсов, несогласованных между собой», – обратил внимание начальник Управления методологического сопровождения работы с данными.

По его словам, сейчас в документе перечислены четыре базовых шага по оценке качества. Первый – это оценка информационного ресурса (делается на базе анализа нормативно-правовых актов). Второй – камеральное исследование. Третий – получение массива данных (на данном этапе уже можно говорить о проверке параметров качества, которые связаны с точностью, целостностью, уникальностью, своевременностью и согласованностью, и проводить анализ инцидентов: обращений граждан и юридических лиц). Четвертый – выгрузка ошибок (в рамках полной выгрузки отчета и его проверки на параметры).

«В итоге мы получаем отчет по текущему состоянию данных. Опять же я хочу напомнить, что вопрос оценки качества данных – это вопрос постоянной деятельности», – заметил Малахов, добавив, что к каждому информационному ресурсу выделенные параметры могут по-разному применяться и складываться в разную итоговую оценку.

Комментируя документ, заместитель директора Департамента статистики и управления данными – директор Центра управления данными Банка России Ирина Пантина предложила выделить две фазы оценки качества.

«Когда качество оценивается на фазе подключения информационного ресурса к НСУД (и это будут «одни проверки, одни метрики, одни методики, одно взаимодействие с источниками») и когда качество оценивается в регулярном режиме. Это те метрики, критерии, показатели, которые будут оцениваться в регулярном режиме. Что-то при этом будет пересекаться, что-то будет уникальным», – рассказала она.

Пантина добавила, что обязательно нужно ограничить методику привязкой к пользователю и сформулировать оценку качества как процесс оценки на соответствие данных согласованным требованиям пользователя.

Представитель Банка России указала, что в документе не хватает участия методики в процессе принятия решений, ввиду чего не ясно, кто вовлечен в процессы при ситуации, когда не достигнуты пороговые, эталонные значения.

Она также напомнила, что ранее у некоторых представителей федеральных органов исполнительной власти были вопросы к разработчику документа, в том числе о том, будет ли создана какая-то база знаний, которая позволит устранять однотипные проблемы.

Малахов ответил, что такая база создаваться будет, но указал, что называть конкретные сроки пока рано.

Еще один вопрос касался ситуации, когда, например, данные по одному критерию были оценены в 95%, а по другому критерию – в 110%.

Начальник Управления методологического сопровождения работы с данными отметил, что все решается кейсом использования, и именно уровень значимости этих данных является важным.

Директор Департамента информационных технологий и обеспечения проектной деятельности Министерства труда и социальной защиты Российской Федерации Ярослав Омелай в свою очередь в представленной методике не увидел характеристику данных, которая бы свидетельствовала о том, что это данные первичные или производные. «Важно оценивать ресурс, с точки зрения того, первичные ли это данные и участвуют ли данные в реальных процессах. Если данные не применяются, то они никогда не будут полными и качественными», – пояснил он.

Научный консультант управления Спецсвязи Федеральной службы охраны Российской Федерации Константин Рюмшин указал на то, что из методики непонятно, как между собой согласуются семь параметров качества: они равноценны между собой, но при этом для некоторых систем это не так. «Непонятно, как должны вводиться эти критерии и кто их будет вводить. Это большой пробел», – указал он.

Представитель Ассоциации больших данных Максим Емец попросил разработчиков методологии рассмотреть вопрос качества метаданных, то есть информации об информации (откуда была взята информация, в какое время, какая информация может быть использована).

«Полезно помнить, что при оценке качества данных важен целостный подход, и в зависимости от ожидаемого, практического использования могут быть важны те или иные критерии качества», – добавил заместитель генерального директора по развитию бизнеса IBM Science&Technology Сenter Александр Гаврилов.

По его словам, в ряде случаев надо различать первичные и производные данные. Кроме того, необходимо обратить внимание на корректность и достоверность данных, отслеживать не только своевременность, но в ряде случаев и актуальность данных на какую-то дату. Важна также непротиворечивость данных. «И с учетом этого следует по-другому взглянуть на избыточность: она может быть не только риском для хранения непротиворечивых данных, но также показателем возможной недостоверности данных из того или иного источника», – отметил Гаврилов.

Отдельной темой для обсуждения, по его мнению, должна стать смысловая нагрузка, в том числе расширение критерия согласованности. «Тут надо учитывать возможности интерпретации данных, в том числе машинной», – заключил он.

-------------------------------------------------------------------

Хотите оперативно узнавать о выходе других полезных материалов на сайте "ГИС-Профи"?
Подписывайтесь на нашу страницу в Facebook
.
Ставьте отметку "Нравится", и актуальная информация о важнейших событиях в энергетике России и мира появится в Вашей личной новостной ленте в социальной сети.