یادگیری ماشین در علوم زمین
علوم زمین حوزه ای از علوم با اهمیت ویژه است که برای بسیاری از مسائل پیش روی بشر و سیاره ما به راه حلهایی اساسی نیاز دارد. با ورود به عصر داده های بزرگ، یادگیری ماشین (ML)، که در حوزه های تجاری بسیار موفق بوده است، پتانسیل بسیار بزرگی را برای کمک به مشکلات در علوم زمین ارائه می دهد. با اینحال، مسائل علوم زمین دارای چالشهای منحصر به فرد است که بندرت در کاربردهای سنتی یافت می شود و نیاز به فرمولاسیون مسئله و روشهای جدید در یادگیری ماشین دارد.
چالشهای مهم پیش روی جامعه ما از جمله پیش بینی تأثیر تغییرات آب و هوا، اندازه گیری آلودگی هوا، پیش بینی افزایش خطرات مربوط به زیرساختها توسط بلایای مانند طوفانها، مدلسازی در دسترس بودن در آینده و مصرف آب، مواد غذایی و منابع معدنی، و شناسایی عوامل مسبب زلزله، رانش زمین، سیل و فوران آتشفشانی، با توجه به ماهیت فیزیکی نیاز فوری به راه حلهای درست دارند. بررسی چنین مشکلاتی در حیطه چندین رشته مانند فیزیک، زمین شناسی، هیدرولوژی، شیمی، زیست شناسی، بوم شناسی و انسان شناسی است که تمایل به درک سیستم زمین و اجزای مختلف متقابل آن را دارند، که در مجموع به عنوان حوزه علوم زمین نامیده می شوند.
"یادگیری ماشین" (ML) یک حوزه میان رشته ای است که در علوم رایانه توسعه یافته است. اگرچه الگوریتمهای یادگیری ماشین (MLA) ده ها سال است که وجود دارد (که قبلاً آن را "هوش مصنوعی" یا مشابه آن می نامیدند)، در چند سال گذشته علاقه زیادی به یادگیری ماشین در زمینه های متنوع وجود داشته است. این علاقه با ایجاد الگوریتمها و تکنیکهای جدید، قوی برای حل مشکلاتی که بطور رسمی در علوم رایانه ای غیرقابل حل در نظر گرفته شده اند برانگیخته شده است: بینش و شناخت الگو، پیش بینی داده های سری زمانی و داده های چند بعدی و مشکلات غیر خطی یا پیچیده ای که در برابر مدلسازی سنتی و رویکردهای پیش بینی کننده مقاوم هستند. امروزه، یادگیری ماشینی مجموعه ای از تکنیکها و رویکردهای عملگرا برای مسائل محاسباتی را در بر می گیرد و یک تمرکز مشخص در میان کاربران با توجه به توسعه الگوریتمهای عملی که "در زمان واقعی یا نزدیک به زمان واقعی" در طول توسعه "تئوریک خالص" نظریه ریاضی کار می کنند، وجود دارد. MLAهایی که فقط در حال حاضر در زمینه زمین شناسی کاربرد دارند، تقریبا جدید و نوپا می باشند و رویکردهای ML برای مدلسازی اپی فنون زمین شناسی اخیراً به عنوان موضوعی در ادبیات دانشگاهی مبدل شده است. با این وجود، از سال 2014 چندین اثر برجسته و قابل توجه در استفاده از ML در زمین شناسی و تهیه نقشه زمین شناسی وجود داشته است.
ML و MLA ها برای پیش بینی رده بندیهای لیتواستراگرافی از داده های ورود به سیستم ژئوفیزیکی وایرلاین، برای رده بندی خودکار زمین شناسی سطحی بر پایه داده های ماهواره ای سنجش از دور، و برای پیش بینی موثر آسیب پذیری مخاطرات زمینی استفاده شده اند.
یادگیری ماشین
یادگیری ماشینی زیر مجموعه ای از هوش مصنوعی (AI) است که مسئول پیش بینی مقادیر ناشناخته از طریق تعمیم ارزشهای شناخته شده است. یادگیری ماشینی به طور گسترده به سه دسته تقسیم می شود: یادگیری نظارت شده، یادگیری نظارت نشده و یادگیری تقویتی. هر یک از آنها برای حل انواع مسئل مختلف استفاده می شود و عملکرد متفاوت را به دست می آورد. اما، با وجود اختلافات بین این سه دسته، همه برنامه های یادگیری ماشینی مستقیماً از داده ها یاد می گیرند بدون اینکه صریحاً برای انجام این کار برنامه ریزی شده باشند. به دلیل وجود از تعدادی از پارامترهای قابل تنظیم (به نام هایپرپارامترها با اشاره به ابرصفحه)، آنها عملکرد را به داده های مورد استفاده برای آموزش آنها و به طور کلی فراتر از آن بهینه سازی می کنند تا پیش بینیهای دقیقی در مورد داده های جدید و قبلاً دیده نشده انجام دهند.
یادگیری نظارت شده
یادگیری تحت نظارت را میتوان به آموزش دانشآموزان تحت نظر و هدایت یک معلم تشبیه کرد. در اینجا، مجموعهای از دادهها را داریم که درست مثل یک معلم عمل میکنند و وظیفه تعلیم ماشین یا مدل را بر عهده دارند. زمانیکه مدل مربوطه یادگیری کرد، قادر خواهد بود تا پیشبینیها و تصمیمات دقیق لازم در مورد دادههای جدید ورودی به سیستم را ارائه دهد.
یادگیری نظارت نشده
در این حالت، مدل از طریق مشاهدات یادگیری کرده و دستورالعملها و ساختارهای موجود در مجموعهی دادهها را کشف میکند. زمانی که مجموعه دادهای به مدل معرفی میشود. مدل با استفاده از خوشهبندی دادهها، ارتباطات و الگوهای موجود در آنها را بهصورت اتوماتیک کشف میکند. تنها کاری که چنین سیستمی نمیتواند انجام دهد، برچسبزنی روی دستههای مختلف است. برای مثال، با وجود اینکه یک سیستم یادگیری ماشین بدون نظارت قادر است دو نوع میوه سیب و انبه را به راحتی از یکدیگر سوا کند، اما نمیتواند نام آنها را بهصورت جداگانه روی هر دسته مشخص کند.
فرض کنید مجموعهای از میوههای سیب، موز و انبه را بهعنوان دادههای ورودی به سیستم یادگیری ماشین بدون نظارت دادهایم. چیزی که اتفاق میافتد، خوشهبندی این ورودیها در سه دسته جداگانه بر اساس ارتباطات و الگوهایی است که ماشین کشف کرده است. اکنون اگر داده جدیدی را به سیستم معرفی کنیم، در یکی از این سه دسته جای خواهد گرفت.
یادگیری تقویتی
یادگیری تقویتی نیز به توانایی ارتباط یک عامل با محیط خارجی به منظور دستیابی به بهترین نتیجه اطلاق میشود. مفهومی که از آن، با عنوان مدل سعی و خطا نیز یاد میشود. این عامل، بر اساس نتایج صحیح یا اشتباهی که به دست میآورد، امتیاز مثبت کسب کرده یا جریمه میشود و در نهایت، مدل قابلیت بهبود از طریق امتیازات مثبت و نتایج مطلوب کسبشده را به دست میآورد. این یادگیری و بهبود ادامه پیدا میکند تا زمانیکه سیستم بتواند پیشبینیها و تصمیمات دقیق مورد نیاز در مورد دادههای جدید ورودی را ارائه دهد.
روندی کاری یادگیری ماشین
جمع آوری داده ها
پیش پردازش داده ها
جستجوی بهترین مدل برای داده ها
آموزش و آزمون مدل
ارزیابی
انواع داده ها
عددی، مانند درآمد، سن و ..
قیاسی مانند سن، ملیت و ..
ترتیبی مانند کم/متوسط/زیاد
یادگیری نظارت شده
در یادگیری نظارت شده، یک سیستم هوش مصنوعی با داده هایی ارائه می شود که دارای برچسب هستند، به این معنی که هر داده دارای برچسب صحیح است. یادگیری نظارت شده به دو دسته دیگر "رده بندی" و "رگرسیون" تقسیم می شود.
الگوریتمهای رده بندی
K-Nearest Neighbor
Naive Bayes
Decision Trees/Random Forest
Support Vector Machine
Logistic Regression
الگوریتمهای رگرسیون
Linear Regression
Support Vector Regression
Decision Tress/Random Forest
Gaussian Progresses Regression
Ensemble Methods
یادگیری نظارت نشده
در یادگیری نظارت نشده، یک سیستم هوش مصنوعی با داده بدون برچسب، طبقه بندی نشده ارائه می شود و الگوریتمهای سیستم بدون آموزش قبلی روی داده ها عمل می کنند. خروجی به الگوریتم های رمزگذاری شده بستگی دارد. تحت کنترل آورن یک سیستم یادگیری نظارت نشده یکی از روشهای تست هوش مصنوعی است.
یادگیری نظارت نشده به دو دسته دیگر تقسیم می شود که عبارتند از "خوشه بندی" و " Association".
روشهای خوشه بندی
Gaussian mixtures
K-Means Clustering
Boosting
Hierarchical Clustering
K-Means Clustering
Spectral Clustering
بررسی اجمالی مدلهای موجود
آموزش و آزمایش مدل روی داده ها
برای آموزش یک مدل، ابتدا مدل را به 3 بخش تقسیم می کنیم که عبارتند از "داده های آموزشی" ، "داده اعتبارسنجی" و "داده های آزمون".
ارزیابی
ارزیابی مدل بخشی جدایی ناپذیر از روند توسعه مدل است. ارزیابی به یافتن بهترین مدل ارائه دهنده داده ها و شناخت نحوه کارکرد و مدل انتخابی در آینده کمک خواهد کرد.
برای بهبود مدل ممکن است پارامترهای بیش از حد مدل را تنظیم کنیم و سعی کنیم صحت را بهبود بخشیم و همچنین به دنبال ماتریس پراکندگی خواهیم بود تا تعداد مثبت و منفی واقعی را افزایش دهیم.
نرم افزارها
برخی بسته های نرم افزاری که الگوریتمهای یادگیری ماشین متنوعی دارند به شرح زیر می باشند:
نرم فزار های رایگان و متن باز
Deeplearning4j
dlib
ELKI
GNU Octave
H2O
Mahout
Mallet
MEPX
mlpy
MLPACK
MOA (Massive Online Analysis)
MXNet
ND4J: ND arrays for Java
NuPIC
OpenAI Gym
OpenAI Universe
OpenNN
Orange
R
scikit-learn
Shogun
TensorFlow
Torch
Yooreeka
Weka
نرم افزارهای مالکیتی با ویرایشهای رایگان و متن باز
KNIME
RapidMiner
نرم افزارهای مالکیتی
Amazon Machine Learning
Angoss KnowledgeSTUDIO
Ayasdi
IBM Data Science Experience
Google Prediction API
IBM SPSS Modeler
KXEN Modeler
LIONsolver
Mathematica
MATLAB
Microsoft Azure Machine Learning
Neural Designer
NeuroSolutions
Oracle Data Mining
RCASE
SAP Leonardo
SAS Enterprise Miner
SequenceL
Skymind
Splunk
STATISTICA Data Miner
ژورنالها
Journal of Machine Learning Research
Machine Learning
Neural Computation
کاربردها در علوم زمین
تهیه نقشه های زمین شناسی
مطالعات چینه شناسی
مطالعات سنجش از دور
تخمین ذخایر معدنی
زمین آمار
مطالعه شرایط زیرسطحی
مخاطرات زمین
مطالعات زیست محیطی
مدلسازی
اکتشاف منابع
مطالعات ژئوفیزیک
مطالعات نفت و گاز
زمین شناسی ساختاری
پیشبینی زمین لرزه ها
--------------------------------------------------------------------
برخی منابع
https://towardsdatascience.com/workflow-of-a-machine-learning-project-ec1dba419b94