علم داده و داده کاوی
تکنولوژی

علم داده چیست؛‌ تاریخچه، روش کار و کاربردهای آن


علم داده چیست؟ درباره‌اش چیزی شنیده‌اید؟ علم داده رشته‌ای از ریاضیات مناسب و آمار می‌باشد که اطلاعات مفیدی را در اختیارمان می‌گذارد. این اطلاعات برحسب حجم وسیعی از اطلاعات پیچیده یا اطلاعات بزرگ (big data) به دست می‌آیند. علم داده ها یا داده‌محور ابعاد گوناگون رشته‌های گوناگون را توسط محاسبات با هم آمیختگی می‌کند تا تصمیم‌گیری با توجه به اطلاعات موجود ساده‌تر شود. در ادامه، از این شاخه علمی جذاب بیشتر برایتان خواهیم گفت.

نکات کلیدی:

  • علم داده از راه‌هایی مثل یادگیری ماشینی (machine learning) و هوش مصنوعی (artificial intelligence) برای استخراج اطلاعات معنادار و پیش‌بینی الگوها و رفتارهای آینده استفاده می‌کند.
  • پیشرفت‌های فناوری، اینترنت، شبکه‌های اجتماعی و بهره‌مندی گسترده از فناوری، دسترسی به اطلاعات بزرگ را آسان‌تر کرده و پیشرفت داده‌ است.
  • رشته و شرایط علم اطلاعات با توسعه‌های فناوری در حال رشد است. جمع‌آوری اطلاعات بزرگ و روش‌های تحلیل هم مستمر پیچیده‌تر می‌شوند.

علم داده چیست؟

اطلاعات از منابع گوناگونی به دست می‌آیند، مثلا:

  • تلفن‌های همراه؛
  • شبکه‌های اجتماعی؛
  • وب‌سایت‌های تکنونی؛
  • نظرسنجی‌های نظام سلامت؛
  • جست‌وجوهایی که در موتورهای جست‌وجویی مثل گوگل انجام می‌شوند.

افزایش اطلاعات موجود دری تازه از مطالعات را برحسب اطلاعات بزرگ به رویِمان گشوده است. غرض از اطلاعات بزرگ مجموعه‌ای از اطلاعات حجیم و گسترده می‌باشد که امکان تولید ابزارهای عملیاتی بهتر را برای ما فراهم می‌کنند.

دسترسی به اطلاعات هم به دلیل پیشرفت‌های فناوری و روش‌های جمع‌آوری داده بیشتر و بیشتر شده است. افراد ساده می‌توانند با خرید اطلاعاتی درباره رفتارها و الگوها، تصمیمات بهتری برای کسب‌وکارشان بگیرند. در بخش کسب‌وکار، استفاده از اطلاعات و تحلیل و پیش‌بینی رفتار مشتریان و اقتصاد رفتاری به‌شدت کاربرد دارد.

مسلما رشد فزاینده اطلاعات نیاز به ساختارهایی دارد که استفاده از آنها را ممکن و کاربردشان برای تصمیم‌گیری بهتر را مقدور می‌کند. چنین پروسهی (ساختارمندکردن اطلاعات) برای شرکت‌ها پیچیده و زمان‌بر است، پس علم داده به میان آمده تا این وظیفه مهم را به عهده بگیرد.

خلاصه‌ای از تاریخ علم داده کاوی

استفاده از اصطلاح «علم داده» از اوایل دهه ۱۹۶۰ میلادی شروع شد. در آن روزها، این اصطلاح را مترادف علم رایانه می‌دانستند. بعدها، تعریف کامل‌تری مطرح شد که می‌گفت علم داده ها یعنی بررسی روش‌های پردازش داده که در طیف گسترده‌ای از شرایط‌ها کاربرد دارد.

در سال ۲۰۰۱ میلادی، ویلیام کلیولند (William S. Cleveland) نخستین‌ بار از اصطلاح علم داده به‌عنوان عبارت و اصطلاحی مستقل و مشخص استفاده کرد که تعریفش را گفتیم. مجله کسب‌وکار هاروارد هم در سال ۲۰۱۲ مقاله‌ای منتشر و به این نکته اشاره کرد که شغل تحلیل اطلاعات یکی از جذاب‌ترین شغل‌ها در قرن ۲۱ است.

چگونه از دیتا ساینس استفاده می‌گردد.

دیتا ساینس (Data Science) یا همان علم داده ها ابزارهایی از رشته‌های علمی گوناگون را با هم ترکیب می‌کند. هدفش هم جمع‌آوری مجموعه‌ای از اطلاعات، پروسهها و دریافت اطلاعات و رسیدن به بینشی مناسب از مجموعه اطلاعاتست. استخراج اطلاعات و رسیدن به اطلاعات ارزشمند و معنادار از آنها سبب می‌گردد.که تصمیم‌گیری در شرایط‌های گوناگون آسان‌تر شود.

رشته‌ها و شرایط‌هایی که علم داده را می‌سازند عبارت‌اند از:

  • استخراج اطلاعات (mining) و آمار؛
  • یادگیری ماشینی؛
  • تجزیه‌وتحلیل آماری؛
  • برنامه‌نویسی.

۱. استخراج اطلاعات و آمار

استخراج اطلاعات یعنی با کمک‌گرفتن از الگوریتم‌های گوناگون، الگوهای موجود روی هم‌رفتهه اطلاعات پیچیده را شناسایی کنیم و از آنها اطلاعاتی بامعنی و مفید به دست بیاوریم. اقدامات آماری یا تحلیل‌های پیش‌بینی‌کننده از این اطلاعات برای سنجش رویدادهایی استفاده می‌کنند که احتمال وقوعشان در آینده وجود دارد. در اصل برحسب آنچه اطلاعات درباره گذشته بیان می‌کنند، امکان پیش‌بینی آینده به وجود می‌آید.

۲. یادگیری ماشینی

یادگیری ماشینی ابزاری در بخش هوش مصنوعی می‌باشد که مقادیر انبوهی از اطلاعات را پردازش می‌کند. انسان‌ها هرگز نمی‌توانند چنین حجم وسیعی از اطلاعات را پردازش و بررسی کنند. یادگیری ماشینی مدل‌هایی از تصمیم‌گیری را کامل می‌کند که برحسب تجزیه‌وتحلیل‌های پیش‌بینی‌کننده ارائه شده‌اند. این کار توسط تطبیق احتمال رخدادی در زمان حال با رخدادی انجام می‌گردد.که در گذشته رخ داده است.

۳. تجزیه‌وتحلیل آماری و برنامه‌نویسی

تحلیلگران با تجزیه‌وتحلیل آماری، اطلاعاتی ساختاریافته را توسط یادگیری ماشینی و با استفاده از الگوریتم‌های گوناگون جمع‌آوری و پردازش می‌کنند. متخصصان این حوزه اطلاعات را به زبانی منسجم و قابل‌درک برای گروه‌ها تصمیم‌گیری تفسیر و خلاصه می‌کنند.

علم داده در هر شرایط‌ای کاربرد دارد، همچون معماری، مهندسی و مدیریت اطلاعات. آشکار می‌باشد که در پیشبرد تمام این پروسهها استفاده از علم برنامه‌نویسی هم لازم می‌گردد.

برحسب پیش‌بینی‌ها، تقاضا برای جذب متخصصان حوزه علم اطلاعات از سال ۲۰۱۹ تا ۲۰۲۹ افزایشی ۱۵درصدی خواهد داشت. این رشد سریع‌تر از هر رشته دیگری است.

– مرکز آمار کار ایالت متحده آمریکا

متخصصان علم داده چه می‌کنند؟

متخصصان این رشته حجم زیادی از اطلاعات را جمع‌آوری، تجزیه‌وتحلیل و تفسیر می‌کنند. متخصصان حرفه‌ای این حوزه در توسعه کارکرد شرکت‌های گوناگون نقش دارند و با عرضه مدل‌هایی امکان تجزیه‌وتحلیل اطلاعات، شناسایی الگوها و جریانها و بررسی روابط روی هم‌رفتهه‌های داده را فراهم می‌کنند.

اطلاعات متخصصان علم داده مزایای زیادی دارد، همچون:

  • پیش‌بینی رفتار مشتریان؛
  • شرح وضعیت کسب‌وکارها؛
  • بررسی خطرات عملیات پروژه‌های گوناگون.

این افراد با عرضه اطلاعات مناسبی که از اطلاعات مناسب به دست آمده به تصمیم‌گیرندگان کسب‌وکارهای گوناگون کمک می‌کنند تصمیمات بهتری بگیرند و در جهت حل مسائل گامی مهم بردارند.

کاربرد علم اطلاعات در شرایط‌های گوناگون

تقریبا تمام شرایط‌های علمی از اطلاعات بهره می‌برند. آنچه سبب تمایز علم داده کاوی می‌گردد. استفاده از روش‌های محاسباتی پیچیده‌ و یادگیری ماشینی می‌باشد که می‌توانند از مجموعه اطلاعات خیلیبزرگ برای تحلیل استفاده کنند. گاهی اطلاعات بررسی‌شده در بخش داده‌کاوی آن‌قدر بزرگ و پیچیده‌اند که امکان استفاده از روش‌های سنتی برای تحلیلشان وجود ندارد.

علم اطلاعات می‌تواند الگوهایی برای تصمیم‌گیری بهتر تعریف و وقوع رخدادهای آینده را پیش‌بینی کند. همه اینها را هم با بررسی اطلاعاتی پیش می‌برد که در نخست ساختارنیافته و حتی گاهی به‌ظاهر بی‌ربط هستند. کسب‌وکارهایی که به علم داده کاوی اعتقاد دارند با دریافت اطلاعات خیلیمفید می‌توانند پروژه‌های گوناگون پرسودی را اجرا کنند.

مثال‌هایی از کاربرد علم داده

امروزه مقدار زیادی داده از کانال‌ها و شبکه‌های گوناگون به دست می‌آیند. خیال کنید که هر کسب‌وکار برای تحلیل وضعیت خود و مشتریانش با چه حجمی از اطلاعات ساختارنیافته و پیچیده روبه‌روست.

در چنین وضعیتی، دیگر ابزارهای سنتی تحلیل به کارمان نمی‌آیند و نیاز به روش‌ها و ابزارهایی می‌باشد که از طریق آنها بتوانیم اطلاعات مفیدی از اطلاعات موجود به دست بیاوریم. داده‌کاوی می‌تواند اطلاعات پرتعداد و حجیم را با ساختاری مناسب طوری تحلیل کند که اطلاعات مناسبی برای تصمیم‌گیری در شرایط‌های گوناگون فراهم شود. مثلا:

  • کسب‌وکارها با تحلیل اطلاعات کلان مشتریان می‌توانند آنها را بهتر بشناسند. شناسایی بهتر مشتریان هم یعنی برنامه‌های تبلیغاتی بهتر و افزایش فروش.
  • وسایل و ابزارهای جدید مثل خودروهای برقی هم توسط علم داده شکل زندگی‌مان را تغییر می‌دهند، مثل خودرویی که با داده‌کاوی اطلاعاتی که درباره محیط پیرامونش دریافت می‌کند، بدون نیاز به راننده و با درجه هوشمندی بالا می‌تواند شما را به منیت برساند.
  • دریافت اطلاعات و استفاده از آنها برای استخراج اطلاعاتی در بخش هواشناسی و فضا هم نتایج شگفت‌انگیزی دارد و می‌تواند سبب پیش‌بینی‌هایی شود که در زندگی به‌شدت مناسب و مفید هستند.

مراحل داده‌کاوی چیست؟

مراحل داده کاوی در علم داده

  • کشف و ارزیابی اولیه: قبل از شروع هر پروژه بر پایه علم داده، باید بررسی کنید که دسترسی‌تان به منابع مالی، افراد و فناوری‌های لازم برای پیشبرد پروژه چگونه است. بررسی مشکل و تعریف مسئله‌ای که قرار است با داده‌کاوی حل شود هم در این مرحله از کار انجام می‌گردد.
  • آماده‌سازی اطلاعات: اطلاعات لازم برای هر پروژه و کارهایی که قرار است با آنها انجام شود در این مرحله بررسی می‌شوند.
  • برنامه‌ریزی برای مدل‌سازی: در این بخش از کار ارتباط میان متغیرها بررسی می‌گردد.تا مدل‌سازی ممکن شود.
  • مدل‌سازی: در مدل‌سازی مجموعه اطلاعاتی برای هر پروژه تشکیل می‌شوند. روش‌های کسب اطلاعات گوناگون، مثل خوشه‌بندی و طبقه‌بندی هم در این وضعیت به کار گرفته می‌شوند.
  • عملیاتی‌کردن پروژه: پیش از آنکه نتیجه داده‌کاوی کامل در پروژه‌ای به کار گرفته شود، از آن در اندازه کوچک‌تر استفاده و پروژه دلخواه عملیاتی می‌گردد.
  • ارزیابی خروجی و نتایج: در این مرحله بنا به نتایجی که داده‌کاوی داشته، مشخص می‌گردد.که پروژه دلخواه چه دستاوردها، شکست‌ها و موفقیت‌هایی به همراه خواهد داشت.

خطر استفاده غلط از علم داده چیست؟

استفاده از اطلاعات برای کسب اطلاعات مفید در شرایط‌های گوناگون ایده خیلی جدابی است، اما این علم شرایط پیدایش تعدادی از سوءاستفاده‌ها را هم فراهم می‌کند. مثلا در بستر شبکه‌های اجتماعی، دریای وسیعی از اطلاعات کاربران وجود دارد.

تعدادی از شرکت‌ها با بهره‌مندی از اطلاعات کاربران در موضوعاتی مثل انتخابات سیاسی یا فعالیت‌های تکنونی شرکت‌های گوناگون مداخله می‌کنند. سوءاستفاده از اطلاعات کاربران بدون اجازه‌گرفتن از آنها و برای پیشبرد اهداف سیاسی، تکنونی و مثل اینها خیلی جداب نیست.

مثلا شرکت کمبریج آنالیتیکا (Cambridge Analytica) همچون شرکت‌های فعال در بخش داده‌کاوی می‌باشد که در انتخابات سیاسی از توانایی‌هایش برای درک و تحلیل شرایط استفاده‌هایی نامشروع کرده است.

در آخر

شرکت‌ها و کسب‌وکارهای گوناگون در امروزه از علم داده برای ارتقای وضعیتشان به‌شدت بهره می‌برند. آنها می‌خواهند با کسب اطلاعات سودمند از اطلاعات موجود و مرتبط به کارشان برای ارزش‌آفرینی بیشتر برای مشتریان استفاده کنند. مثلا بانک‌ها و مؤسسات مالی با تمرکز بر علم داده در تلاش‌اند که از بروز تقلب و کلاهبرداری جلوگیری کنند. شرکت‌های مدیریت دارایی هم برای ارزیابی و برآورد ارزش دارایی‌های گوناگون از داده‌کاوی بهره می‌برند.

سرعت رشد علم داده خیلیزیاد است و در آینده‌ای نزدیک اثرات خیلیبرجستهتری روی زندگی‌هایمان خواهد گذاشت. علم داده در ایران هم کاربرد دارد. مسلما راهی طولانی تا رسیدن به بهره‌مندی از ظرفیت‌های فوق‌العاده این گرایش علمی در پیش داریم. با این وجود، متخصصان و متخصصان مناسبی در این حوزه در ایران هستند و اغلب شرکت‌ها و سازمان‌ها هم از داده‌کاوی برای پیشبرد پروژه‌هایشان بهره می‌برند.

نظرات

نظرتان را با ما به اشتراک بگذارید!

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *