مهمتر از خود بحث دادهها آن مفهومی که بهنوعی نباید رهاشده بماند، بحث برسر«حاکمیت» دادههاست؛ موضوعی که حتی به لحاظ قانونگذاری هم خلأهای مهمی را پیش روی خود دارد، اما اساسا حاکمیت داده چیست و چگونه رهاشدگی در این حوزه میتواند زندگی ما را دچار تغییر کند؟ علوم داده مجموعهای از دانش، مهارت، ابزار و روش برای استخراج الگوهای ناآشکار و مفید از دادههاست. این مجموعه با وجود ظاهر پیچیده و پرطمطراقش ماهیتی بسیار ساده دارد و معمولا برای دستیافتن به اهدافی همچون درک درست از وضعیت کنونی، پیبردن به عوامل رخدادها و رفتارها و البته پیشبینی اوضاع آینده به کار گرفته میشود.
فهم دادهها
علوم داده اگرچه به پیشقراولان پروژههای تجاری و پژوهشی کمکهای شایانی میکند، اما معمولا خودش پیشتاز آن پروژهها نیست، چون نمیتواند برای تعریف آنها خودش یکتنه پا پیش بگذارد. علوم داده در تعامل با دیگر تخصصها امکان بروز موثر قابلیتهایش را پیدا میکند. به همین دلیل، شناخت موضوع و توانایی تحلیل اثرگذاری اجزای آن بر یکدیگر، همیشه یک رکن اصلی در پروژههای علوم داده است. فهم دادهها در تعریف و توسعه پروژههای علوم داده از بیشترین اولویت برخوردار است. کسی که نقش فرد آشنا به موضوع را در تیمهای علوم داده ایفا میکند، باید علاوه بر آشنایی با فوت و فن پردازش و تحلیل داده، شناخت مناسبی از کسبوکار یا هر زمینه دیگری که در آن مشغول به فعالیت است، داشته باشد تا بتواند پرسشهایی اساسی و سودمند در آن محدوده مطرح کند؛ پرسشهایی که با استفاده از قابلیتهای تحلیلی و پردازشی وبا اتکا به دادهها باید به آنها پاسخ داد. کنجکاوی، جستوجوگری، داشتن نگاه انتقادی،علاقه به مطالعه و تحقیق از ویژگیهای کسانی است که با این عنوان زیر چتر علوم داده فعالیت میکنند و به ایفای نقشهایی مانند تحلیل کسبوکار و تعریف مسائل تحلیل داده در زمینه خود گرایش دارند. کسی که در این حوزه فعالیت میکند با تفکر سیستمی آشناست وتوانایی طراحی مدلهای مفهومی مناسب برای ارائه صورتبندی کارآمد وراهگشااز مسائل را دارد. بهعنوان نمونه، در یک کسبوکار،یک متخصص آشنا به موضوع باید مسأله تحلیل دادهای تعریف کند که بیشترین تاثیر را در کسبوکار داشته باشد و در عین حال به کار بستن نتایج آن با توجه به قابلیتهای موجود در آن کسبوکار، امکانپذیر باشد.
دادهها به چه دردی میخورد؟
پاسخ به این پرسش ما را به موضوع تحلیل دادهها میکشاند. کار تحلیلگر داده معمولا وقتی آغاز میشود که مسأله تعریف و دادهها فراهم شود.دراینجا عبارت«تحلیل داده» رابه وسیعترین معنای آن استفاده میکنیم؛بهصورتی که مصورسازی دادهها، تحلیل اکتشافی، استنتاج آماری، دادهکاوی، یادگیری ماشین،بهینهسازی وسایرروشهای کمی رادربر بگیرد.خروجی تحلیل داده میتواند شامل دادههای پالایششده و گزارههای ارزشمندی باشد که معمولا با مجموعهای از محاسبات، جداول، نمودارها و توضیحات پشتیبانی میشوند، یا ممکن است شامل برنامههای کامپیوتری و الگوریتمها باشد.هرچه حضورِ «الگوریتم» و «برنامهسازی کامپیوتری» در خروجیها پررنگتر باشد، بهترتیب استفاده از ادبیات «دادهکاوی» و «یادگیری ماشین» موضوعیت بیشتری برای توصیف آن پیدا میکند. البته واژگان دیگری مانند «یادگیری آماری» نیز برای انجام عملیات مشابه پیشنهاد شده است. آنچه بیش از هرچیز،دادهکاوی ویادگیری ماشین را دردستورکارقرارمیدهد،وجود انگیزه برای کاهش نقش عامل انسانی درتحلیل و خودکارسازی تحلیل است.
چرا علوم داده؟
اگر «تحلیل داده» میتواند معنایی تا این اندازه وسیع اختیار کند و دادهکاوی و یادگیری ماشین را دربر بگیرد، دیگر چه نیازی وجود دارد که بحث جدیدی به نام «علوم داده» مطرح شود؟ شمارش در آمار نقشی محوری بر عهده دارد. در میانه قرن ۲۰ محاسبات کامپیوتری پا به عرصه وجود گذاشت. چند سال پس از پیدایش این شمارشگر برتر، آمار نیز دستخوش تحولی عمیق شد، روشهای محاسباتی جانی تازه گرفتند و تعدادی از آماردانان عنوان «تحلیل داده» را برای اشاره به حوزهای نوظهور پیشنهاد دادند. این پیشنهاد مورد توجه جوامع علمی نیزواقع شد، اماهیچگاه مانند «علوم داده»در اوایل قرن ۲۱ با استقبال گسترده مواجه نشد. آنچه در این نیمقرن بهکلی تغییر کرده بود، رشد چشمگیر توان پردازش کامپیوتر، استفاده گسترده و فراگیر از آن و حضور پررنگ دادههای دیجیتال در زندگی بشر بود. «علوم داده» تنها زمانی مقبولیت یافت که آمار و تحلیل داده در کنار توان بالای ذخیرهسازی و پردازش الکترونیکی دادهها قرار گرفت. به همین دلیل، چندان بیراه نخواهد بود اگر علوم داده را بیش ازهر چیز فرزند آمار و علوم کامپیوتر میدانند. بهعنوان نمونه دیگری از تاثیر پیشرفت پردازش الکترونیکی بر تحولات علوم داده، میتوان به روش «شبکههای عصبی مصنوعی» اشاره کرد. این روش از محبوبترین روشهای یادگیری ماشین و علوم داده است که برای نخستینبار در میانه قرن بیستم معرفی شد، اما استفاده از آن تنها زمانی محبوبیت یافت که توان پردازش کامپیوتر افزایش یافت و امکان پیادهسازی آن روی دادههای بزرگ فراهم شد. تاثیر افزایش قدرت پردازش در شبکههای عصبی آنچنان عمیق بود که خود به انقلابی در این روش بدل شد و آن را با اسم و رسم جدید «یادگیری عمیق» روانه بازار کرد.اینکه علوم داده چقدر موجودیتی متمایز دارد، نیازمند گذر بیشتر زمان است. آنچه در حال حاضر میتوان بااطمینان گفت، این است که هویت متمایزی از مجموعهای علوم و فنون که با هدف بهرهبرداری تحلیلی از دادهها به کار گرفته میشود، قابل شناسایی است. به همین دلیل، شاید بهتر باشد برای نامگذاری آن در زبان فارسی از اسم جمع «علوم داده» استفاده شود تا اسم مفرد «علم داده»؛ همچنان که در زبان فارسی از مجموعهای از علوم و فنون که با موضوع کامپیوتر سروکار دارند با عنوان «علوم کامپیوتر» یاد میشود، نه «علم کامپیوتر».
حاکمیت داده چیست؟
ایده حاکمیت بر داده در یک سازمان به مجموعهدستوراتی گفته میشود که حکم میکند چه کسی چگونه به دادهها دسترسی داشته باشد تا یکپارچگی و امنیت آنها بر اساس استانداردهای کلی سازمان حفظ شود. حاکمیت دادهها؛ پایداری دادهها و قابل اعتماد بودن آنها را تضمین میکند. این مسأله بسیار حائز اهمیت است، چون در صورت عدم کارایی دادهها، تناقضهای موجود در سیستمهای مختلف سازمان بهدرستی شناسایی و رفع نمیشوند. این امر میتواند تلاشها برای یکپارچهسازی دادهها را پیچیده و زمانبر کرده یا مشکلاتی در یکپارچهسازی داده ایجاد کند که بر دقت گزارشدهی سامانههای هوش تجاری اثر بگذارد. علاوه بر این ناسازگاری دادهها ممکن است شناسایی و رفع نشوند و به این ترتیب دقت تجزیهوتحلیل و قابل اتکا بودن دادهها زیر سؤال برود.
اجزای حاکمیت دادهها
در سالهای اخیر به سبب توسعه فناوری و پیشرفت حوزه علوم داده، اهمیت استفاده از دادهها و تصمیمگیری مبتنی بر پردازش و تحلیل دادهها در کسبوکارها بیش از پیش شده است. این امر موجب شده که کسبوکارها برای افزایش هماهنگی و پایبندی به استانداردها، چه در درون سازمان و چه فراتر ازآن، نوعی حاکمیت را برای حفظ کارآمدی، کیفیت و امنیت دادهها در تمامی مراحل چرخه حیات خود در نظر بگیرند.به تعبیر دیگر حاکمیت بر داده ساختاری نظاممند و شفاف را برای تولید، ذخیرهسازی و تحلیل دادهها در سازمان ایجاد میکندودرکارکردی دوسویه هم بر فرهنگ داده وسواد داده درسازمان تاثیرمیگذاردوهم ازآنها اثر میپذیرد. چهارچوب حاکمیت بر داده ترکیبی از قوانین، رویهها، ساختارهای سازمانی و فناوریهایی است که بهعنوان بخشی از یک برنامه حاکمیتی ایجاد میشوند. اجزای حاکمیت بر داده شامل موارد متعددی است.از جمله استراتژیای که تعیینکننده رویکرد و روند استفاده و مدیریت دادههاست. این استراتژی باید به گونهای طراحی شود که با اطمینان از حفظ ارزشمندی داده بهعنوان یک دارایی برای سازمان، بهصورت مؤثر و مفید،ازدادههابرای حل مشکلات کسبوکارودستیابی به اهداف تجاری استفاده شود. همچنین سیاستها و استانداردها، به اسنادی اشاره دارند که اصول مدیریت داده راتعیین میکنند.اجزای دیگر حاکمیت دادهها هم شامل روندها و فناوری، همکاری و هماهنگی، نظارت بر روند پیشرفت و ارتباطات سازمان و البته سواد و فرهنگ داده سازمانی است.