رانش ( علوم داده)

در علم داده ( data science) و حوزه‌های مرتبط، رانش ( Drift ) به معنای تکامل داده‌ها است که مدل داده (data model) را باطل می‌کند.از زمینه های پر کاربردی که شناسایی و تشخیص جابجایی داده ها در آن مهم و با اهمیت است می توان از یادگیری ماشین(machine learning ) و داده کاوی (data mining) و همچنین نگهداری سیستم های نرم افزاری بزرگ نام برد. تشخیص و تطبیق رانش در زمینه‌هایی که شامل تغییر پویا در داده‌ها و مدل‌های داده است، از اهمیت بالایی برخوردار است.

فروپاشی مدل پیش گویانه

[ویرایش]

در یادگیری ماشین و تحلیل پیش‌گویانه(predictive analytics)، پدیده ی رانش، مفهوم رانش نامیده می‌شود. در یادگیری ماشین، یک عنصر مشترک از یک مدل داده، ویژگی های آماری است، مانند احتمال توزیع داده های واقعی. اگر آنها از ویژگی های آماری مجموعه داده های آموزشی منحرف شوند و رانش مورد توجه قرار نگیرد، ممکن است پیش بینی های آموخته شده نامعتبر شوند . [۱] [۲]

خرابی پیکربندی داده ها

[ویرایش]

یکی دیگر از حوزه‌های مهم مهندسی نرم‌افزار است که در آن سه نوع رانش داده‌ای که بر یکپارچگی داده‌ها(data fidelity) تأثیر می‌گذارد ممکن است شناسایی شود. تغییرات در محیط نرم افزار ("انحراف زیرساخت") ممکن است پیکربندی زیرساخت نرم افزار را باطل کند. "انحراف ساختاری" زمانی اتفاق می‌افتد که طرح داده تغییر کند، که ممکن است پایگاه‌های داده را باطل کند. "رانش معنایی" تغییر در معنای داده ها است در حالی که ساختار تغییر نمی کند. این خرابی ها در بسیاری از موارد این ممکن است دراپلیکیشن های پیچیده اتفاق بیفتد، به عنوان مثال زمانی که توسعه دهندگان مستقل بدون آگاهی مناسب از تأثیر تغییرات خود، تغییری در سایر بخش های سیستم نرم افزاری ایجاد کنند. [۳] [۴]

برای بسیاری از اپلیکیشن های سیستمی، ماهیت داده‌هایی که روی آن‌ها کار می‌کنند، به دلایل مختلفی ممکن است دچار تغییراتی شوند، به‌عنوان مثال، به دلیل تغییر در مدل کسب‌وکار، به‌روزرسانی‌های سیستم، یا تغییر دستگاهی که سیستم بر روی آن کار می‌کند. [۴]

در مورد رایانش ابری(cloud computing) ، رانش زیرساختی که ممکن است بر اپلیکیشن های در حال اجرا در فضای ابری تأثیر بگذارد، ممکن است ناشی از به‌روزرسانی نرم‌افزار ابری باشد. [۳]

انواع مختلفی از اثرات مضر رانش داده ها بر یکپارچگی داده ها وجود دارد. فساد تدریجی داده ها، داده های رانش شده را بدون شناسایی به سیستم منتقل می کند. از دست دادن داده زمانی رخ می دهد که داده های معتبر به دلیل عدم انطباق با طرح اعمال شده نادیده گرفته شوند. اسراف پدیده ای است که فیلدهای داده جدید در بالادست خط لوله پردازش داده معرفی می شوند، اما در جایی پایین دست، فیلدهای داده وجود ندارند. [۴]

داده های متناقض

[ویرایش]

"رانش داده" ممکن است به پدیده ای اشاره داشته باشد که رکوردهای پایگاه داده به دلیل تغییر در داده ها در طول زمان با داده های دنیای واقعی مطابقت نداشته باشند. این یک مشکل رایج در پایگاه‌های داده است که شامل زیادی مانند مشتریان، کارمندان، شهروندان، ساکنان و غیره می شود. جابجایی داده های انسانی ممکن است به دلیل تغییرات ثبت نشده در داده های شخصی، مانند محل سکونت یا نام، و همچنین به دلیل اشتباهات در هنگام ورود داده ها ایجاد شود. [۵]

"رانش داده" ممکن است به ناسازگاری عناصر داده در چندین نسخه از یک پایگاه داده اشاره داشته باشد. شناسایی دلایل ممکن است دشوار باشد. یک راه ساده برای تشخیص رانش، اجرای منظم checksum است. با این حال تصحیح و عیب یابی ممکن است چندان آسان نباشد. [۶]

منابع

[ویرایش]
  1. Widmer, Gerhard; Kubat, Miroslav (1996). "Learning in the presence of concept drift and hidden contexts". Machine Learning. 23: 69–101. doi:10.1007/BF00116900.
  2. Lu, Jie; Liu, Anjin; Dong, Fan; Gu, Feng; Gama, Joao; Zhang, Guangquan (2018). "Learning under Concept Drift: A Review". IEEE Transactions on Knowledge and Data Engineering: 1. arXiv:2004.05785. doi:10.1109/TKDE.2018.2876857.
  3. ۳٫۰ ۳٫۱ "Driftctl and Terraform, they're two of a kind!"
  4. ۴٫۰ ۴٫۱ ۴٫۲ Girish Pancha, Big Data's Hidden Scourge: Data Drift, CMSWire, April 8, 2016
  5. Matthew Magne, "Data Drift Happens: 7 Pesky Problems with People Data", InformationWeek, July 19, 2017
  6. Daniel Nichter, Efficient MySQL Performance, 2021, شابک ‎۱۰۹۸۱۰۵۰۶۰, p. 299