علم داده چیست؟ دربارهاش چیزی شنیدهاید؟ علم داده رشتهای از ریاضیات مناسب و آمار میباشد که اطلاعات مفیدی را در اختیارمان میگذارد. این اطلاعات برحسب حجم وسیعی از اطلاعات پیچیده یا اطلاعات بزرگ (big data) به دست میآیند. علم داده ها یا دادهمحور ابعاد گوناگون رشتههای گوناگون را توسط محاسبات با هم آمیختگی میکند تا تصمیمگیری با توجه به اطلاعات موجود سادهتر شود. در ادامه، از این شاخه علمی جذاب بیشتر برایتان خواهیم گفت.
نکات کلیدی:
- علم داده از راههایی مثل یادگیری ماشینی (machine learning) و هوش مصنوعی (artificial intelligence) برای استخراج اطلاعات معنادار و پیشبینی الگوها و رفتارهای آینده استفاده میکند.
- پیشرفتهای فناوری، اینترنت، شبکههای اجتماعی و بهرهمندی گسترده از فناوری، دسترسی به اطلاعات بزرگ را آسانتر کرده و پیشرفت داده است.
- رشته و شرایط علم اطلاعات با توسعههای فناوری در حال رشد است. جمعآوری اطلاعات بزرگ و روشهای تحلیل هم مستمر پیچیدهتر میشوند.
علم داده چیست؟
اطلاعات از منابع گوناگونی به دست میآیند، مثلا:
- تلفنهای همراه؛
- شبکههای اجتماعی؛
- وبسایتهای تکنونی؛
- نظرسنجیهای نظام سلامت؛
- جستوجوهایی که در موتورهای جستوجویی مثل گوگل انجام میشوند.
افزایش اطلاعات موجود دری تازه از مطالعات را برحسب اطلاعات بزرگ به رویِمان گشوده است. غرض از اطلاعات بزرگ مجموعهای از اطلاعات حجیم و گسترده میباشد که امکان تولید ابزارهای عملیاتی بهتر را برای ما فراهم میکنند.
دسترسی به اطلاعات هم به دلیل پیشرفتهای فناوری و روشهای جمعآوری داده بیشتر و بیشتر شده است. افراد ساده میتوانند با خرید اطلاعاتی درباره رفتارها و الگوها، تصمیمات بهتری برای کسبوکارشان بگیرند. در بخش کسبوکار، استفاده از اطلاعات و تحلیل و پیشبینی رفتار مشتریان و اقتصاد رفتاری بهشدت کاربرد دارد.
مسلما رشد فزاینده اطلاعات نیاز به ساختارهایی دارد که استفاده از آنها را ممکن و کاربردشان برای تصمیمگیری بهتر را مقدور میکند. چنین پروسهی (ساختارمندکردن اطلاعات) برای شرکتها پیچیده و زمانبر است، پس علم داده به میان آمده تا این وظیفه مهم را به عهده بگیرد.
خلاصهای از تاریخ علم داده کاوی
استفاده از اصطلاح «علم داده» از اوایل دهه ۱۹۶۰ میلادی شروع شد. در آن روزها، این اصطلاح را مترادف علم رایانه میدانستند. بعدها، تعریف کاملتری مطرح شد که میگفت علم داده ها یعنی بررسی روشهای پردازش داده که در طیف گستردهای از شرایطها کاربرد دارد.
در سال ۲۰۰۱ میلادی، ویلیام کلیولند (William S. Cleveland) نخستین بار از اصطلاح علم داده بهعنوان عبارت و اصطلاحی مستقل و مشخص استفاده کرد که تعریفش را گفتیم. مجله کسبوکار هاروارد هم در سال ۲۰۱۲ مقالهای منتشر و به این نکته اشاره کرد که شغل تحلیل اطلاعات یکی از جذابترین شغلها در قرن ۲۱ است.
چگونه از دیتا ساینس استفاده میگردد.
دیتا ساینس (Data Science) یا همان علم داده ها ابزارهایی از رشتههای علمی گوناگون را با هم ترکیب میکند. هدفش هم جمعآوری مجموعهای از اطلاعات، پروسهها و دریافت اطلاعات و رسیدن به بینشی مناسب از مجموعه اطلاعاتست. استخراج اطلاعات و رسیدن به اطلاعات ارزشمند و معنادار از آنها سبب میگردد.که تصمیمگیری در شرایطهای گوناگون آسانتر شود.
رشتهها و شرایطهایی که علم داده را میسازند عبارتاند از:
- استخراج اطلاعات (mining) و آمار؛
- یادگیری ماشینی؛
- تجزیهوتحلیل آماری؛
- برنامهنویسی.
۱. استخراج اطلاعات و آمار
استخراج اطلاعات یعنی با کمکگرفتن از الگوریتمهای گوناگون، الگوهای موجود روی همرفتهه اطلاعات پیچیده را شناسایی کنیم و از آنها اطلاعاتی بامعنی و مفید به دست بیاوریم. اقدامات آماری یا تحلیلهای پیشبینیکننده از این اطلاعات برای سنجش رویدادهایی استفاده میکنند که احتمال وقوعشان در آینده وجود دارد. در اصل برحسب آنچه اطلاعات درباره گذشته بیان میکنند، امکان پیشبینی آینده به وجود میآید.
۲. یادگیری ماشینی
یادگیری ماشینی ابزاری در بخش هوش مصنوعی میباشد که مقادیر انبوهی از اطلاعات را پردازش میکند. انسانها هرگز نمیتوانند چنین حجم وسیعی از اطلاعات را پردازش و بررسی کنند. یادگیری ماشینی مدلهایی از تصمیمگیری را کامل میکند که برحسب تجزیهوتحلیلهای پیشبینیکننده ارائه شدهاند. این کار توسط تطبیق احتمال رخدادی در زمان حال با رخدادی انجام میگردد.که در گذشته رخ داده است.
۳. تجزیهوتحلیل آماری و برنامهنویسی
تحلیلگران با تجزیهوتحلیل آماری، اطلاعاتی ساختاریافته را توسط یادگیری ماشینی و با استفاده از الگوریتمهای گوناگون جمعآوری و پردازش میکنند. متخصصان این حوزه اطلاعات را به زبانی منسجم و قابلدرک برای گروهها تصمیمگیری تفسیر و خلاصه میکنند.
علم داده در هر شرایطای کاربرد دارد، همچون معماری، مهندسی و مدیریت اطلاعات. آشکار میباشد که در پیشبرد تمام این پروسهها استفاده از علم برنامهنویسی هم لازم میگردد.
برحسب پیشبینیها، تقاضا برای جذب متخصصان حوزه علم اطلاعات از سال ۲۰۱۹ تا ۲۰۲۹ افزایشی ۱۵درصدی خواهد داشت. این رشد سریعتر از هر رشته دیگری است.
– مرکز آمار کار ایالت متحده آمریکا
متخصصان علم داده چه میکنند؟
متخصصان این رشته حجم زیادی از اطلاعات را جمعآوری، تجزیهوتحلیل و تفسیر میکنند. متخصصان حرفهای این حوزه در توسعه کارکرد شرکتهای گوناگون نقش دارند و با عرضه مدلهایی امکان تجزیهوتحلیل اطلاعات، شناسایی الگوها و جریانها و بررسی روابط روی همرفتهههای داده را فراهم میکنند.
اطلاعات متخصصان علم داده مزایای زیادی دارد، همچون:
- پیشبینی رفتار مشتریان؛
- شرح وضعیت کسبوکارها؛
- بررسی خطرات عملیات پروژههای گوناگون.
این افراد با عرضه اطلاعات مناسبی که از اطلاعات مناسب به دست آمده به تصمیمگیرندگان کسبوکارهای گوناگون کمک میکنند تصمیمات بهتری بگیرند و در جهت حل مسائل گامی مهم بردارند.
کاربرد علم اطلاعات در شرایطهای گوناگون
تقریبا تمام شرایطهای علمی از اطلاعات بهره میبرند. آنچه سبب تمایز علم داده کاوی میگردد. استفاده از روشهای محاسباتی پیچیده و یادگیری ماشینی میباشد که میتوانند از مجموعه اطلاعات خیلیبزرگ برای تحلیل استفاده کنند. گاهی اطلاعات بررسیشده در بخش دادهکاوی آنقدر بزرگ و پیچیدهاند که امکان استفاده از روشهای سنتی برای تحلیلشان وجود ندارد.
علم اطلاعات میتواند الگوهایی برای تصمیمگیری بهتر تعریف و وقوع رخدادهای آینده را پیشبینی کند. همه اینها را هم با بررسی اطلاعاتی پیش میبرد که در نخست ساختارنیافته و حتی گاهی بهظاهر بیربط هستند. کسبوکارهایی که به علم داده کاوی اعتقاد دارند با دریافت اطلاعات خیلیمفید میتوانند پروژههای گوناگون پرسودی را اجرا کنند.
مثالهایی از کاربرد علم داده
امروزه مقدار زیادی داده از کانالها و شبکههای گوناگون به دست میآیند. خیال کنید که هر کسبوکار برای تحلیل وضعیت خود و مشتریانش با چه حجمی از اطلاعات ساختارنیافته و پیچیده روبهروست.
در چنین وضعیتی، دیگر ابزارهای سنتی تحلیل به کارمان نمیآیند و نیاز به روشها و ابزارهایی میباشد که از طریق آنها بتوانیم اطلاعات مفیدی از اطلاعات موجود به دست بیاوریم. دادهکاوی میتواند اطلاعات پرتعداد و حجیم را با ساختاری مناسب طوری تحلیل کند که اطلاعات مناسبی برای تصمیمگیری در شرایطهای گوناگون فراهم شود. مثلا:
- کسبوکارها با تحلیل اطلاعات کلان مشتریان میتوانند آنها را بهتر بشناسند. شناسایی بهتر مشتریان هم یعنی برنامههای تبلیغاتی بهتر و افزایش فروش.
- وسایل و ابزارهای جدید مثل خودروهای برقی هم توسط علم داده شکل زندگیمان را تغییر میدهند، مثل خودرویی که با دادهکاوی اطلاعاتی که درباره محیط پیرامونش دریافت میکند، بدون نیاز به راننده و با درجه هوشمندی بالا میتواند شما را به منیت برساند.
- دریافت اطلاعات و استفاده از آنها برای استخراج اطلاعاتی در بخش هواشناسی و فضا هم نتایج شگفتانگیزی دارد و میتواند سبب پیشبینیهایی شود که در زندگی بهشدت مناسب و مفید هستند.
مراحل دادهکاوی چیست؟
- کشف و ارزیابی اولیه: قبل از شروع هر پروژه بر پایه علم داده، باید بررسی کنید که دسترسیتان به منابع مالی، افراد و فناوریهای لازم برای پیشبرد پروژه چگونه است. بررسی مشکل و تعریف مسئلهای که قرار است با دادهکاوی حل شود هم در این مرحله از کار انجام میگردد.
- آمادهسازی اطلاعات: اطلاعات لازم برای هر پروژه و کارهایی که قرار است با آنها انجام شود در این مرحله بررسی میشوند.
- برنامهریزی برای مدلسازی: در این بخش از کار ارتباط میان متغیرها بررسی میگردد.تا مدلسازی ممکن شود.
- مدلسازی: در مدلسازی مجموعه اطلاعاتی برای هر پروژه تشکیل میشوند. روشهای کسب اطلاعات گوناگون، مثل خوشهبندی و طبقهبندی هم در این وضعیت به کار گرفته میشوند.
- عملیاتیکردن پروژه: پیش از آنکه نتیجه دادهکاوی کامل در پروژهای به کار گرفته شود، از آن در اندازه کوچکتر استفاده و پروژه دلخواه عملیاتی میگردد.
- ارزیابی خروجی و نتایج: در این مرحله بنا به نتایجی که دادهکاوی داشته، مشخص میگردد.که پروژه دلخواه چه دستاوردها، شکستها و موفقیتهایی به همراه خواهد داشت.
خطر استفاده غلط از علم داده چیست؟
استفاده از اطلاعات برای کسب اطلاعات مفید در شرایطهای گوناگون ایده خیلی جدابی است، اما این علم شرایط پیدایش تعدادی از سوءاستفادهها را هم فراهم میکند. مثلا در بستر شبکههای اجتماعی، دریای وسیعی از اطلاعات کاربران وجود دارد.
تعدادی از شرکتها با بهرهمندی از اطلاعات کاربران در موضوعاتی مثل انتخابات سیاسی یا فعالیتهای تکنونی شرکتهای گوناگون مداخله میکنند. سوءاستفاده از اطلاعات کاربران بدون اجازهگرفتن از آنها و برای پیشبرد اهداف سیاسی، تکنونی و مثل اینها خیلی جداب نیست.
مثلا شرکت کمبریج آنالیتیکا (Cambridge Analytica) همچون شرکتهای فعال در بخش دادهکاوی میباشد که در انتخابات سیاسی از تواناییهایش برای درک و تحلیل شرایط استفادههایی نامشروع کرده است.
در آخر
شرکتها و کسبوکارهای گوناگون در امروزه از علم داده برای ارتقای وضعیتشان بهشدت بهره میبرند. آنها میخواهند با کسب اطلاعات سودمند از اطلاعات موجود و مرتبط به کارشان برای ارزشآفرینی بیشتر برای مشتریان استفاده کنند. مثلا بانکها و مؤسسات مالی با تمرکز بر علم داده در تلاشاند که از بروز تقلب و کلاهبرداری جلوگیری کنند. شرکتهای مدیریت دارایی هم برای ارزیابی و برآورد ارزش داراییهای گوناگون از دادهکاوی بهره میبرند.
سرعت رشد علم داده خیلیزیاد است و در آیندهای نزدیک اثرات خیلیبرجستهتری روی زندگیهایمان خواهد گذاشت. علم داده در ایران هم کاربرد دارد. مسلما راهی طولانی تا رسیدن به بهرهمندی از ظرفیتهای فوقالعاده این گرایش علمی در پیش داریم. با این وجود، متخصصان و متخصصان مناسبی در این حوزه در ایران هستند و اغلب شرکتها و سازمانها هم از دادهکاوی برای پیشبرد پروژههایشان بهره میبرند.