Тёмные данные

Тёмные данные — данные, которые автоматически собираются в ходе рутинных действий в компьютерных сетях, но никоим образом не используются для получения информации или принятия решений[1][2]. Способность организации собирать данные может превышать пропускную способность, с которой она может анализировать данные. В некоторых случаях организация может даже не знать, что данные собираются[3]. По оценкам IBM, примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразователями, никогда не используются[4].

В промышленном контексте тёмные данные могут включать информацию, собранную датчиками и телематикой[5].

Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1 % своих данных[6]. Причинами хранения неиспользуемых данных может быть необходимость соблюдения нормативных требований[7] и ведения архивов[1]. Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики[3]. Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой более высокие расходы, чем потенциальная прибыль.

Профессор Дэвид Хэнд из Имперского колледжа Лондона использует термин «тёмные данные» для обозначения отсутствующих данных: «тёмные данные — это данные, которых у вас нет»[8][a].

Многие тёмные данные неструктурированы, что означает, что информация представлена в форматах, которые может быть трудно классифицировать, прочитать компьютером и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои тёмные данные, заключается в количестве ресурсов, которые ему потребуются, и сложности анализа этих данных. По данным журнала Computer Weekly[англ.], 60 % организаций считают, что их собственные возможности бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом»[10].

Актуальность

[править | править код]

В категорию тёмных данных могут попадать и полезные данные, потерявшие актуальность со временем. Это происходит из-за недостаточной скорости обработки данных. Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов собираемых данных сразу теряют свою ценность[4].

По данным New York Times, 90 % энергии, используемой центрами обработки данных, тратится впустую[11]. Отказ от хранения избыточных данных позволил бы сэкономить на расходах на электроэнергию. Кроме того, существуют издержки, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. Согласно Datamation, «данные, которые хранятся в организациях-членах EMEA, на 54 % состоят из тёмных данных, 32 % — избыточные, устаревшие и тривиальные данные, и лишь 14 % представляют какую-то ценность». По состоянию на 2020 год хранение избыточных данных обходится примерно в 900 млрд долл. США[12].

Постоянное хранение тёмных данных может подвергнуть организацию риску, особенно если эти данные являются конфиденциальными. Утечка данных может привести к серьезным последствиям: финансовым, юридическими и репутационным. Например, утечка личных данных клиентов может привести к массированной краже личных данных . Другим примером может быть утечка собственной конфиденциальной информации компании, например, относящейся к исследованиям и разработкам . Эти риски можно уменьшить, оценив и проверив необходимость данных для организации, а также используя надежное шифрование и другие меры безопасности[13]. Удаление ненужных данных следует делать таким образом, чтобы их невозможно было восстановить[14].

Принято считать, что по мере создания более совершенных вычислительных систем, ценность тёмных данных будет возрастать. Существует мнение, что данные и их анализ станут основой новой промышленной революции[5]. В число потенциально полезных данных входят и те, которые в настоящее время считаются «тёмными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребности потребителей. Особенно большую пользу от обработки неиспользуемых данных могут в будущем получить организации здравоохранения и образования, которые имеют дело с большими объемами данных[15].

Примечания

[править | править код]
  1. Хэндс насчитывает 15 различных типов тёмных данных, в зависимости от природы последних[9]
  1. 1 2 Dark Data. Gartner. Дата обращения: 27 апреля 2021. Архивировано 31 марта 2019 года.
  2. Tittel. The Dangers of Dark Data and How to Minimize Your Exposure. CIO (24 сентября 2014). Дата обращения: 27 апреля 2021. Архивировано 15 января 2019 года.
  3. 1 2 Brantley. The API Briefing: the Challenge of Government's Dark Data. Digitalgov.gov (17 июня 2015). Дата обращения: 27 апреля 2021. Архивировано 16 января 2018 года.
  4. 1 2 Johnson. Digging up dark data: What puts IBM at the forefront of insight economy (амер. англ.). SiliconANGLE (30 октября 2015). Дата обращения: 3 ноября 2015. Архивировано 11 июля 2018 года.
  5. 1 2 Dennies. TeradataVoice: Factories Of The Future: The Value Of Dark Data. Forbes (19 февраля 2015). Архивировано 22 февраля 2015 года.
  6. Shahzad. The big data challenge of transformation for the manufacturing industry. IBM Big Data & Analytics Hub (3 января 2017). Дата обращения: 27 апреля 2021. Архивировано 6 марта 2018 года.
  7. Are you using your dark data effectively. Дата обращения: 27 апреля 2021. Архивировано из оригинала 16 января 2017 года.
  8. David Hand. 10-Minute Talks: Dark data. The British Academy. The British Academy (18 ноября 2020). Дата обращения: 2 марта 2021. Архивировано 27 апреля 2021 года.
  9. Хэнд, 2021, с. 17.
  10. Miles. Dark data could halt big data's path to success. ComputerWeekly (27 декабря 2013). Дата обращения: 3 ноября 2015. Архивировано 10 апреля 2019 года.
  11. Glanz, James (2012-09-22). "Data Centers Waste Vast Amounts of Energy, Belying Industry Image". The New York Times. Архивировано 16 мая 2019. Дата обращения: 2 ноября 2015.
  12. Hernandez. Enterprises are Hoarding 'Dark' Data: Veritas. Datamation (30 октября 2015). Дата обращения: 4 ноября 2015. Архивировано 4 октября 2017 года.
  13. "DarkShield Uses Machine Learning to Find and Mask PII". IRI. Архивировано 15 января 2019. Дата обращения: 14 января 2019.
  14. Tittel. The Dangers of Dark Data and How to Minimize Your Exposure. CIO (24 сентября 2014). Дата обращения: 2 ноября 2015. Архивировано 15 января 2019 года.
  15. Prag. Leveraging Dark Data: Q&A with Melissa McCormack (амер. англ.). The Machine Learning Times (30 сентября 2014). Дата обращения: 4 ноября 2015. Архивировано 14 апреля 2019 года.

Литература

[править | править код]
  • Дэвид Хэнд. Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных = David J. Hand. Dark Data Why What We Don’t Know Is Even More Important Than What We Do. — М.: Альпина Паблишер, 2021. — 366 с. — ISBN 978-5-9614-4143-7.