رانش ( علوم داده)
در علم داده ( data science) و حوزههای مرتبط، رانش ( Drift ) به معنای تکامل دادهها است که مدل داده (data model) را باطل میکند.از زمینه های پر کاربردی که شناسایی و تشخیص جابجایی داده ها در آن مهم و با اهمیت است می توان از یادگیری ماشین(machine learning ) و داده کاوی (data mining) و همچنین نگهداری سیستم های نرم افزاری بزرگ نام برد. تشخیص و تطبیق رانش در زمینههایی که شامل تغییر پویا در دادهها و مدلهای داده است، از اهمیت بالایی برخوردار است.
فروپاشی مدل پیش گویانه
[ویرایش]در یادگیری ماشین و تحلیل پیشگویانه(predictive analytics)، پدیده ی رانش، مفهوم رانش نامیده میشود. در یادگیری ماشین، یک عنصر مشترک از یک مدل داده، ویژگی های آماری است، مانند احتمال توزیع داده های واقعی. اگر آنها از ویژگی های آماری مجموعه داده های آموزشی منحرف شوند و رانش مورد توجه قرار نگیرد، ممکن است پیش بینی های آموخته شده نامعتبر شوند . [۱] [۲]
خرابی پیکربندی داده ها
[ویرایش]یکی دیگر از حوزههای مهم مهندسی نرمافزار است که در آن سه نوع رانش دادهای که بر یکپارچگی دادهها(data fidelity) تأثیر میگذارد ممکن است شناسایی شود. تغییرات در محیط نرم افزار ("انحراف زیرساخت") ممکن است پیکربندی زیرساخت نرم افزار را باطل کند. "انحراف ساختاری" زمانی اتفاق میافتد که طرح داده تغییر کند، که ممکن است پایگاههای داده را باطل کند. "رانش معنایی" تغییر در معنای داده ها است در حالی که ساختار تغییر نمی کند. این خرابی ها در بسیاری از موارد این ممکن است دراپلیکیشن های پیچیده اتفاق بیفتد، به عنوان مثال زمانی که توسعه دهندگان مستقل بدون آگاهی مناسب از تأثیر تغییرات خود، تغییری در سایر بخش های سیستم نرم افزاری ایجاد کنند. [۳] [۴]
برای بسیاری از اپلیکیشن های سیستمی، ماهیت دادههایی که روی آنها کار میکنند، به دلایل مختلفی ممکن است دچار تغییراتی شوند، بهعنوان مثال، به دلیل تغییر در مدل کسبوکار، بهروزرسانیهای سیستم، یا تغییر دستگاهی که سیستم بر روی آن کار میکند. [۴]
در مورد رایانش ابری(cloud computing) ، رانش زیرساختی که ممکن است بر اپلیکیشن های در حال اجرا در فضای ابری تأثیر بگذارد، ممکن است ناشی از بهروزرسانی نرمافزار ابری باشد. [۳]
انواع مختلفی از اثرات مضر رانش داده ها بر یکپارچگی داده ها وجود دارد. فساد تدریجی داده ها، داده های رانش شده را بدون شناسایی به سیستم منتقل می کند. از دست دادن داده زمانی رخ می دهد که داده های معتبر به دلیل عدم انطباق با طرح اعمال شده نادیده گرفته شوند. اسراف پدیده ای است که فیلدهای داده جدید در بالادست خط لوله پردازش داده معرفی می شوند، اما در جایی پایین دست، فیلدهای داده وجود ندارند. [۴]
داده های متناقض
[ویرایش]"رانش داده" ممکن است به پدیده ای اشاره داشته باشد که رکوردهای پایگاه داده به دلیل تغییر در داده ها در طول زمان با داده های دنیای واقعی مطابقت نداشته باشند. این یک مشکل رایج در پایگاههای داده است که شامل زیادی مانند مشتریان، کارمندان، شهروندان، ساکنان و غیره می شود. جابجایی داده های انسانی ممکن است به دلیل تغییرات ثبت نشده در داده های شخصی، مانند محل سکونت یا نام، و همچنین به دلیل اشتباهات در هنگام ورود داده ها ایجاد شود. [۵]
"رانش داده" ممکن است به ناسازگاری عناصر داده در چندین نسخه از یک پایگاه داده اشاره داشته باشد. شناسایی دلایل ممکن است دشوار باشد. یک راه ساده برای تشخیص رانش، اجرای منظم checksum است. با این حال تصحیح و عیب یابی ممکن است چندان آسان نباشد. [۶]
منابع
[ویرایش]- ↑ Widmer, Gerhard; Kubat, Miroslav (1996). "Learning in the presence of concept drift and hidden contexts". Machine Learning. 23: 69–101. doi:10.1007/BF00116900.
- ↑ Lu, Jie; Liu, Anjin; Dong, Fan; Gu, Feng; Gama, Joao; Zhang, Guangquan (2018). "Learning under Concept Drift: A Review". IEEE Transactions on Knowledge and Data Engineering: 1. arXiv:2004.05785. doi:10.1109/TKDE.2018.2876857.
- ↑ ۳٫۰ ۳٫۱ "Driftctl and Terraform, they're two of a kind!"
- ↑ ۴٫۰ ۴٫۱ ۴٫۲ Girish Pancha, Big Data's Hidden Scourge: Data Drift, CMSWire, April 8, 2016
- ↑ Matthew Magne, "Data Drift Happens: 7 Pesky Problems with People Data", InformationWeek, July 19, 2017
- ↑ Daniel Nichter, Efficient MySQL Performance, 2021, شابک ۱۰۹۸۱۰۵۰۶۰, p. 299