يافتن سوزن در انبار كاه: چگونه دادههاي بدون ساختار را مديريت كنيم
دنياي ديجيتال امروزي حجم بسيار بالايي از داده توليد ميكند. با رشد سريع رسانههاي مبتني بر اينترنت و كسبوكارهايي كه به سمت عملكرد آنلاين پيش ميروند جاي تعجب ندارد كه آمريكا به تنهايي در هر دقيقه بيش از ۲.۵ ميليون گيگابايت داده توليد ميكند. تمام اين اطلاعات بايد در جايي ذخيره شوند. بيشتر اينها حدود ۱۴۵۰ اگزابايت ظرفيت مراكز دادهي جهان را اشغال كردهاند. سازمانهايي كه توانايي مديريت موثر دادههايشان را دارند ميتوانند بينشهاي ارزشمندي كسب كنند و برنامههاي تجاريشان را بر اين اساس تطبيق دهند.
مديريت ضعيف دادهها موجب هزينههاي قابل توجهي نه تنها براي ذخيرهي اطلاعات بلكه به دليل از دست دادن فرصتها ميشود. برخورداري از بهترين اطلاعات دنيا با داشتن اطلاعات زيادي كه نميتوان از آنها استفاده كرد، برابر نيست. اين شبيه يك پيشنهاد ساده به نظر ميرسد ولي متاسفانه اطلاعات چيزي نيست كه شكلدهي و مديريت آن به اين سادگي باشد. يكي از بزرگترين چالشهايي كه سازمانها در سودمندسازي اطلاعاتشان با آن روبهرو هستند، مواجهه با دادههاي بدون ساختار است.
دادهي بدون ساختار چيست؟
درك تفاوت بين دادهي «بدون ساختار» و دادهي «ساختار يافته» به درك اينكه چگونه شكلهاي اوليهي داده در اواسط قرن بيستم به فرم ديجيتال تبديل شدند، كمك ميكند. سوابق حسابداري و موجوديها به عمدهي دادههاي اوليهي كامپيوتر شكل ميدادند. از آنجا كه اين اطلاعات از قبل در ساختارهايي مشخص دستهبندي شده بودند، فرم ديجيتال آنها نيز سطحي از يكنواختي را حفظ كرده بود. فيلدهاي داده در طولهايي از پيش تعريف شده و ويژگيهاي فيلد مانند متن در مقابل رقم، با فيلدهاي خاصي كه در مكانهاي ثابت در هر ركورد ظاهر ميشوند، تنظيم شده بودند. اين شكلهاي دقيق طبقهبندي شده، امكان خواندن، جستجو و درك دادههاي ساختار يافته را به آساني مهيا ميكرد. ولي دادهي بدون ساختار فرمت خاصي ندارد. اين دادهها ميتوانند در هر اندازه، قالب يا فرمي باشند كه مديريت و تجزيه و تحليلشان را به طرز باورنكردني سخت ميكند.
محدوديت دادههاي ساختار يافته به گونهاي است كه تنها شامل نوع و مقدار خاصي از اطلاعات در زمينههاي تعريف شدهي مربوط به آن ميشود ولي دادههاي بدون ساختار چنين محدوديتي ندارند. دادههاي ساختار يافته از الگوريتمهاي پايهاي استفاده ميكنند كه به راحتي قابليت جستجو دارند ولي دادههاي بدون ساختار از هيچ الگوي قابل پيشبيني كه قابليت پردازش توسط يك الگوريتم ساده را داشته باشد، استفاده نميكنند.
دادههاي بدون ساختار ميتوانند از هر جايي نشأت بگيرند ولي بيشتر آنها به صورت مدرك، تصوير، ايميل، ويديو، فايل صوتي، صفحات وب يا خبرنامههاي شبكههاي اجتماعي وجود دارند. همچنين به اين دليل كه سازمانهاي بيشتري استراتژيهاي عصر كامپيوتر را اتخاذ كردهاند، دستگاههاي اينترنت اشيا در حال تبديل شدن به منبع اصلي دادههاي بدون ساختار هستند.
مديريت دادههاي بدون ساختار
محققات تخمين زدهاند كه حدود ٪۸۰ دادههاي توليد شده، بدون ساختارند. با وجود اينكه اين دادهها حاوي اطلاعاتي هستند كه ميتوانند ارزشي باورنكردني به سازمانها اعطا كنند، ولي بررسي و گزينش از ميان آنها فوقالعاده سخت است. بيرون كشيدن بينشهاي مدفون در مدارك، ايميلها يا انواع مختلف فايلهاي رسانهاي براي يك الگوريتم ساده كه جهت جستجوي نمونههاي فيلد طراحي شده، كار بسيار پيچيدهاي است. متاسفانه دادههاي بدون ساختار در چنين مقياس قابل توجهي وجود دارند كه تجزيه و تحليل آنها فراتر از ظرفيت انساني هر سازماني است.
فناوري شناختي و مبتني بر هوش مصنوعي يكي از موثرترين ابزارها براي استخراج اطلاعات ارزشمند از دادههاي بدون ساختار است. اين برنامهها از قابليت تفسير، ارزيابي، برقراري ارتباط و نتيجهگيري از اين دادهها برخوردارند كه مديريت و استفاده از آنها را آسانتر ميكند. بدون اين نوع تجزيه و تحليل، حتي دانستن اينكه احتمالاً چه اطلاعات ارزشمندي در دادههاي بدون ساختار نهفته است، سخت ميباشد. در برخي موارد، اين دادهها ميتوانند مطرح كنندهي يك خطر امنيتي قابل توجه باشند.
شركت عظيم نرمافزار ارتباط با مشتري Salesforce به روش بيرحمانهاي متوجه اين خطر امنيتي شد؛ زماني كه در سال ۲۰۱۶ ايميل هك شدهي يكي از اعضاي هيئت مديره، اهداف دستيابي به ليست پيوست و استراتژيهاي بازار را صورت عمومي منتشر كرد.
متاسفانه تجزيه و تحليل دادههاي بدون ساختار فوقالعاده پرتنش است. اين كار به ميزان قابل توجهي از منابع محاسباتي نياز دارد كه فراتر از توان زيرساختي اكثر شركتهاست. حتي مديريت ذخيرهسازي و دسترسي براي دادههاي بدون ساختار در وهلهي اول يك مانع اصلي به حساب ميآيد. به اين دليل كه روزانه دادههاي بدون ساختار بيشتري ايجاد ميشوند، نيازهاي ذخيرهسازي و محاسبه به سرعت تغيير ميكنند. راهحلهاي امروزي زيرساخت IT احتمالاً توانايي سازگاري با نيازهاي آتي يك شركت را ندارند، بخصوص اگر اين نيازها به سرعت در حال رشد باشند.
چگونه يك مركز داده ميتواند كمككننده باشد
مراكز دادهي امروزي به شركتهايي كه به دنبال روشهاي بهتري براي مديريت دادههاي بدون ساختارشان هستند، راهحالهاي قابل قياس مختلفي پيشنهاد ميكنند. مراكز داده با استفاده از زيرساخت مبتني بر فضاي ابري ميتوانند سياستهاي دقيقي را به منظور كنترل نحوهي دريافت، جابهجايي، ذخيره، دستيابي و تجزيه و تحليل دادهها تنظيم كنند. توانايي بالا بردن قدرت محاسباتي و فضاي ذخيرهسازي، اين را براي شركتها ممكن ميسازد تا از دادههايي كه جمعآوري كردهاند بيشترين بهره را ببرند.
براي شركتهايي كه به دنبال گسترش رايانش مرزي هستند، يافتن يك مركز داده كه توانايي مديريت نيازهاي اطلاعاتي دستگاههاي اينترنت اشيا را دارد، حياتي است. اكثر ساختارهاي رايانش مرزي دادهها را در مكانهاي مختلفي كه بر اساس مجموعهي دقيقي از پروتكلهاست، ذخيره ميكنند. برخي از دادهها در مرز خود دستگاهها يا در مرز مراكز داده باقي ميمانند، ولي برخي از آنها براي تجزيه و تحليل به يك سرور مركزي بازگردانده ميشوند. شبكه براي اينكه بداند اين دادههاي بدون ساختار را به كجا ارسال كند، بايد از مورد جستجو و آنچه در اولويت است، آگاه باشد.
همزمان كه سازمانها اطلاعات گردآوري شده و توانايي ذخيرهسازيشان را گسترش ميدهند، دادههاي بدون ساختار چالشهاي عظيمي را در برابر آنها قرار ميدهند. اگر آنها راهحلي پايدار براي مديريت و تجزيه و تحليل اين دادهها كه بتواند بينشهاي ارزشمندي را استخراج كند، نيابند، براي موفق شدن در محيطي رقابتي كه از سرعت بالاي پيشرفت برخوردار است، تقلا خواهند كرد. خوشبختانه يك مركز دادهي قابل اعتماد ميتواند براي شركتها نيروي ذخيرهسازي و محاسباتي كه براي ساخت آيندهشان نياز دارند را تدارك ببيند.
برچسب: ،