Мы в Telegram
Добавить новость
Январь 2010 Февраль 2010 Март 2010 Апрель 2010 Май 2010
Июнь 2010
Июль 2010 Август 2010 Сентябрь 2010
Октябрь 2010
Ноябрь 2010 Декабрь 2010 Январь 2011 Февраль 2011 Март 2011 Апрель 2011 Май 2011 Июнь 2011 Июль 2011 Август 2011 Сентябрь 2011 Октябрь 2011 Ноябрь 2011 Декабрь 2011 Январь 2012 Февраль 2012 Март 2012 Апрель 2012 Май 2012 Июнь 2012 Июль 2012 Август 2012 Сентябрь 2012 Октябрь 2012 Ноябрь 2012 Декабрь 2012 Январь 2013 Февраль 2013 Март 2013 Апрель 2013 Май 2013 Июнь 2013 Июль 2013 Август 2013 Сентябрь 2013 Октябрь 2013 Ноябрь 2013 Декабрь 2013 Январь 2014 Февраль 2014 Март 2014 Апрель 2014 Май 2014 Июнь 2014 Июль 2014 Август 2014 Сентябрь 2014 Октябрь 2014 Ноябрь 2014 Декабрь 2014 Январь 2015 Февраль 2015 Март 2015 Апрель 2015 Май 2015 Июнь 2015 Июль 2015 Август 2015 Сентябрь 2015 Октябрь 2015 Ноябрь 2015 Декабрь 2015 Январь 2016 Февраль 2016 Март 2016 Апрель 2016 Май 2016 Июнь 2016 Июль 2016 Август 2016 Сентябрь 2016 Октябрь 2016 Ноябрь 2016 Декабрь 2016 Январь 2017 Февраль 2017 Март 2017 Апрель 2017
Май 2017
Июнь 2017
Июль 2017
Август 2017 Сентябрь 2017 Октябрь 2017 Ноябрь 2017 Декабрь 2017 Январь 2018 Февраль 2018 Март 2018 Апрель 2018 Май 2018 Июнь 2018 Июль 2018 Август 2018 Сентябрь 2018 Октябрь 2018 Ноябрь 2018 Декабрь 2018 Январь 2019 Февраль 2019 Март 2019 Апрель 2019 Май 2019 Июнь 2019 Июль 2019 Август 2019 Сентябрь 2019 Октябрь 2019 Ноябрь 2019 Декабрь 2019 Январь 2020 Февраль 2020 Март 2020 Апрель 2020 Май 2020 Июнь 2020 Июль 2020 Август 2020 Сентябрь 2020 Октябрь 2020 Ноябрь 2020 Декабрь 2020 Январь 2021 Февраль 2021 Март 2021 Апрель 2021 Май 2021 Июнь 2021 Июль 2021 Август 2021 Сентябрь 2021 Октябрь 2021 Ноябрь 2021 Декабрь 2021 Январь 2022 Февраль 2022 Март 2022 Апрель 2022 Май 2022 Июнь 2022 Июль 2022 Август 2022 Сентябрь 2022 Октябрь 2022 Ноябрь 2022 Декабрь 2022 Январь 2023 Февраль 2023 Март 2023 Апрель 2023 Май 2023 Июнь 2023 Июль 2023 Август 2023 Сентябрь 2023 Октябрь 2023 Ноябрь 2023 Декабрь 2023 Январь 2024 Февраль 2024 Март 2024 Апрель 2024 Май 2024
1 2 3 4 5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Интернет |

Качество данных: как перестать его повышать и начать им управлять?

Качество данных: как перестать его повышать и начать им управлять?
На конференции «Качество данных 2020» Алексей Незнанов рассмотрит типичные ошибки в области управления качеством данных. «Грязные» данные грозят похоронить любой проект, основанный на аналитике. Но в подавляющем большинстве проектов управлению качеством данных сегодня уделяется катастрофически мало внимания. На конференции «Качество данных 2020», которую издательство «Открытые системы» проведет 5 февраля, недостаток знаний в этой области восполнит, в частности, Алексей Незнанов, доцент департамента анализа данных и искусственного интеллекта НИУ ВШЭ. - Что такое качество данных? Это комплексная характеристика, которую присваивают наборам и источникам данных, чтобы более-менее адекватно их сравнивать и использовать для конкретных целей. Это область серьезных исследований, где наработан глоссарий, тезаурусы и, главное, для типичных применений в бизнесе есть готовые метрики и популярные инструменты. Качество всегда контекстно зависимо и целезависимо. Характеристики качества для наборов данных и источников, откуда можно черпать новые данные, сильно разнятся. - Какие существуют градации качества? Существует только градация отдельных показателей, так как различные показатели могут быть противоречивыми. В большинстве моделей качества данных основными аспектами являются полнота, непротиворечивость (целостность) и актуальность. В каждом аспекте выделяют до 20 параметров. Например, для полноты примером параметра является объем данных, для актуальности — дата последнего обновления, для непротиворечивости — процент доказанных ошибок оператора. - При каких условиях возможна очистка данных? Условия зависят от уровня агрегирования и этапа анализа. На уровне первичных данных достаточно нормальных систем ввода (с проверкой и контролем ошибок) и аудита первичного ввода. Но аудит желателен двухэтапный — сначала выборочная проверка отдельных записей, а потом «аудит аудита». Дальше начинаются проблемы. Нужен доступ ко всем элементам данных, значит, возникает вопрос о правах доступа к персональным данным, ноу-хау и другим «секретам». Особенно печальна ситуация с персональными данными, потому что повсеместное применение защищенных хранилищ персональных данных, к которым несколько организаций имеют доступ и возможность автоматически восстанавливать привязку данных, в России пока остается только мечтой. На следующем уровне проблема связана с правильностью вычисления агрегирующих функций — среднего, медианы, экстремумов, перцентилей, квантилей. В ходе каждой из попыток что-то вычислить нужно контролировать, что происходит с характеристиками качества, особенно с точки зрения учета выбросов. Отсюда растущая популярность робастной статистики, методы которой менее чувствительны к выбросам и ошибкам. И это при том, что мы еще не касаемся временных рядов, цензурирования данных и т.п. Наконец, при гармонизации нескольких наборов данных возможность очистка зависит от наличия и качества справочников, достаточности метаданных, качества схем. - Каковы основные методы повышения качества данных? Самый главный способ повышения качества — постоянный контроль за данными. Нужно, чтобы отслеживание мельчайших характеристик качества данных происходило через маленькие промежутки времени между проверками. Но это сложно и дорого, поэтому обычно чем-то пренебрегают и начинают по отдельности оценивать достаточность, непротиворечивость и корректность, причем только в ключевых точках. При этом обычно предпочитают аудит данных и выборочные проверки. В юридических документах, особенно в судебных решениях, где цена ошибки очень высока, приходится проводить специальный аудит и кросс-проверку по результатам. Некоторые компании следят за качеством своих юридических документов, пытаются связывать их с мастер-данными и оценивать качество этих связей. А другие просто их накапливают, и непонятно, насколько они корректны. Сотрудникам нужна мотивация для того чтобы обеспечивать повышение качества данных. У нас же во многих областях мотивация со знаком минус: выгодно делать данные плохого качества. Например, в медицинских записях о манипуляциях с пациентами около 30% ошибок — это ошибки намеренные, поэтому качество большинства наших клинических данных, по мнению экспертного сообщества, никуда не годится. - Можно ли сказать, что какой-то из методов эффективнее других? Нет. Иногда нужен контроль ввода, иногда многоступенчатый аудит, поскольку аудиторы первого уровня сами готовы внести неправильные данные. В некоторых случаях очень хорошо работают методы автоматического аудита, потому что есть метаданные, онтологии, глоссарии. А иногда ничего этого нет. Поэтому надо обязательно смотреть сначала на то, какова цель, а потом на контекст. Люди, принимающие решения о разработке аналитической системы, должны сформулировать требования к качеству данных. Затем качество реальных данных проверяют на соответствие корпоративной политике качества данных и определяют, что необходимо сделать, чтобы достичь удовлетворительного качества. - А насколько в российских компаниях распространена политика качества данных? Обычно такая политика, а также управление качеством данных появляются сразу после того, как проваливается первый проект по внедрению сквозной аналитики. Поняв, что аналитика не работает из-за плохих данных, начинают в авральном порядке работать с их качеством. Через пару лет в хороших организациях организуются соответствующие службы и начинают управлять качеством — в первую очередь мастер-данных. Ну а в плохих организациях добиваются решения частной задачи и снова «проваливаются» с качеством в целом. - На какие «грабли» в этой области наступают регулярно? Список «граблей» начинается с нежелания изучать первоисточники. В ГОСТах (начиная с ГОСТ 56214 и 56215) есть вменяемая терминология и вполне рабочая методология, и именно ее применяют основные поставщики решений для работы с качеством данных. Разное понимание терминов, используемых в работе с данными, приводит к тому, что на верхнем уровне принятия решений начинается сумбур. Следующая стандартная ошибка — несоответствие уровня качества данных конкретным задачам. Очень часто либо задают слишком высокий уровень и не достигают его, либо, наоборот, устанавливают чересчур низкий уровень, и тогда не работают системы аналитики. Яркий пример — сочетание друг с другом наборов данных с разными характеристиками качества, так что после гармонизации вообще невозможно ничего сказать о качестве полученного набора данных. Причем в этот момент ему очень часто присваивают характеристики качества наобум. Чтобы оценить изменение качества при слиянии данных и выстраивании иерархических связей, следует использовать специальные методы и привлекать экспертов. - Эксперт по качеству данных — кто это? Есть три вида экспертов. Первый — специалисты по статистике, второй — эксперты в конкретной предметной области, работающие с данными в этой области. И третий — специалисты по методологии анализа и обработки данных, таких экспертов приходится привлекать, если нужна проверка своих действий, либо если штатный специалист не справляется со сложными проблемами. Для крупной организации грех не иметь своего специалиста по настройке системы управления качеством данных. Адекватный директор по данным в первую очередь добьется принятия политик: сначала по управлению данными, а потом по управлению качеством данных — как ее части. - На что следует опираться при разработке политики управления качеством данных? На цели бизнеса, текущие задачи и контекст существования организации. В основе методологии лежат стандарты, где указано, как вычисляют характеристики, какие есть метрики. Но этого мало, необходимо определиться, зачем сейчас нужны данные в организации. Может, и не нужны. - То есть политику нельзя просто «списать» у тех, кто этот путь уже прошёл? Списать — плохой вариант. Разве что, у кого-то работающего в той же области и с такими же бизнес-целями. Такое возможно: уже есть достаточно хорошие платные каталоги политик управления качеством. Например, при организации сети Open Knowledge Foundation сделали руководства по управлению качеством, по оценке качества и отраслевой стандарт оценки качества источников открытых данных. Даже делаются каталоги, в которых обозначены уровни качества источников данных. - Какие проблемы управления качеством данных еще не решены? Главный вопрос — анализ качества больших данных. Когда из-за недостатка времени и вычислительной мощности использовать сложные методы нереально, встает вопрос, как это сделать приближенно и насколько пострадает при этом качество. Здесь много чего предложено, но стандартных решений пока нет. Перманентно актуальная область — работа с неструктурированными данными и с текстами на естественном языке. Генерировать тексты на абсолютно любые темы стало так просто и дешево, что скоро мы будем завалены фейками — погуглите веселый сайт TalkToTransformer. - О чем вы расскажете участникам конференции? Моя задача показать, что качество данных — не просто серьезная область, но в ней уже многое наработано и имеются готовые решения: инструменты, которые оценивают качество данных по куче метрик, помогают аудиторам, оценивают возможные последствия гармонизации данных. Эти инструменты надо использовать, чтобы не попасть впросак с управлением данными и знаниями.
Ria.city

Читайте также

Блоги |

Заповеди Марии Монтессори для родителей

Интернет |

Компании в погоне за «золотой ИИ-лихорадкой» забыли о благополучии сотрудников

Интернет |

Разработчик LiDAR-датчиков для беспилотных автомобилей уволил 20% сотрудников

Новости России

Продвижение новых песен с высоким результатом

Форум Доноров представил результаты первой лаборатории проекта «Музеи и меценаты»

Источник 360.ru: в ДТП с 3 иномарками в Таганском районе Москвы пострадали двое

Презентация новых Apple iPad пройдёт в удобное для европейцев и китайцев время

Все города от А до Я

Россия и Дети: театр кукол Ульгэр в Бурятии покажет концерт-представление "Вальс Победы"

Мужчина расстрелял двух человек на севере Москвы

Магнитная буря 2 мая может спровоцировать северное сияние в Москве

Продвижение новых песен с высоким результатом

Moscow.media

News24.pro и Life24.pro — таблоиды популярных новостей за 24 часа, сформированных по темам с ежеминутным обновлением. Все самостоятельные публикации на наших ресурсах бесплатны для авторов Ньюс24.про и Ньюс-Лайф.ру.

Разместить свою новость локально в любом городе по любой тематике (и даже, на любом языке мира) можно ежесекундно с мгновенной публикацией самостоятельно — здесь.

Персональные новости

Музыкальные новости
Филипп Киркоров

Кудрявцева про Киркорова: «Его ягодицы обсуждают больше, чем мое лицо»

Авто в России и мире

«Из России с загадкой»: зачем Карлсон на самом деле взял интервью у Дугина

Решившая прописать в своей квартире мигрантов москвичка попала под суд

Власти Финляндии обвинили Россию в сбоях работы GPS в Финском заливе

Мужчина расстрелял двух человек на севере Москвы

Экология в России и мире

Спорт в России и мире

Новости тенниса
Ига Свёнтек

«Ну и кто сказал, что женский теннис — это скучно?» Свёнтек — после матча с Соболенко



'Our fielding has let us down', says GT skipper Gill

Sci-Fi Short Film Urbance - DUST Throwback Thursday

T20 cricket is here to stay, will take the game forward: Ganguly

Two Skinny Pitties Reunite A Year After Rescue - The Dodo