Applied Big Data Fundamentals

مدرس دوره : حسن احمدخانی


عنوان دوره طول دوره زمان برگزاری تاریخ شروع دوره شهریه استاد وضعیت ثبت نام ثبت نام
Applied Big Data Fundamentals 14 جلسه 42 ساعت دوشنبه از ساعت 17:30 الی 20:30
چهارشنبه از ساعت 17:30 الی 20:30
دوشنبه ۲ دی ۱۳۹۸ 1,553,000 تومان حسن احمدخانی

سرفصل و محتوای دوره مفاهیم بنیادی و کاربردی در تحلیل کلان داده ها با استفاده از Hadoop

( Hadoop Ecosystem & Deployment , Distributed & Parallel Processing, Ingesting Data , ...)


 

معرفی و هدف دوره :

در دوره آموزشی مفاهیم بنیادی پردازش و مدیریت کلان داده ها، ابزار ها و تکنیک های پایه ای در جمع آوری، آماده سازی، پاکسازی، تحلیل و مدیریت داده های کلان بررسی خواهند شد.
هدف این دوره آموزشی پرداختن به مباحث پایه ای در حوزه ابزارهای اکوسیستم هادوپ جهت احراز نیازمندی های مشاغل Data Engineer و Data Scientist و همچنین پوشش مطالب بنیادی کلان داده و اکوسیستم هادوپ جهت احراز نیازمندی های لازم برایHadoop Administration  و Data Administration می باشد.
در پایان دوره انتظار میرود دانشجو علاوه بر شناخت کلان داده، درک کاملی از تکنیک ها و ابزارهای اصلی و پایه ای جمع آوری، پردازش و نگهداری داده های کلان پیدا کرده و بتواند از ابزارهای مربوطه جهت انجام فعالیت های لازم در حوزه مهندسی، تحلیل و علم داده استفاده کند.

خلاصه سر فصل هایی که در این دوره پوشش داده خواهند شد:

Big Data Concept – 3 hours
Hadoop and Hadoop Components – 9 hours
Hadoop Cluster Deployment and Management – 6 hours
Data Integration and Ingestion with Kafka, Flume and Sqoop – 12 hours
Big Data Processing with Apache Pig – 3 hours
Big Data Processing With Spark (Spark Core) – 9 hours

طول دوره : 42 ساعت

مشاهده دوره Applied Big Data Fundamentals در نقشه راه

مشاهده رزومه استاد

پیش نیاز دوره : آشنایی با بانک های اطلاعاتی رابطه ای و آشنایی با یک زبان برنامه نویسی


سرفصل ها و رئوس مطالب دوره :

 

مقدمه ای بر کلان داده ها، پایگاه های داده ای NoSQL و سیستم های ذخیره سازی توزیع شده - 2 ساعت

  مقدمه

 بررسی انواع داده ها و منابع تولید کننده آن ها در سیستم ها و محیط های عملیاتی

  سیستم های مدیریت داده توزیع شده و پایگاه داده های توزیع شده

  ویژگی های پایگاه داده های توزیع شده

  بررسی پایگاه داده های NoSQL به عنوان یکی از پیاده سازی های پایگاه داده های توزیع شده

  قابلیت ها و نقاط ضعف پایگاه داده های NoSQL

  تعریف، توصیف و بررسی ویژگی های کلان داده ها ( Big Data)

  جایگاه کلان داده ها و پردازش کلان داده ها

  کاربرد کلان داده ها و تحلیل آنها

  منابع تولید کننده داده های کلان

  چه داده هایی کلان داده نیستند و معیار چیست

  چالش هایی که داده های کلان و پردازش آن ها برای ما ایجاد می کنند

  داده های جریانی ( Stream Data )، مشخصات و تولید کننده های آن ها

  کاربرد و علت پردازش داده های جریانی ( Stream Processing )

  داده های سریع ( Fast Data ) و پردازش داده های سریع

  نمایش و بررسی نمونه داده های کلان و ارزیابی آن ها

  چالش های مدل های سنتی ذخیره سازی در مواجهه با کلان داده ها

  مسائل مدل های پرس و جو پردازش داده های کلان در سیستم های سنتی

 

پردازش توزیع شده و پردازش موازی - 1 ساعت

  تعریف پردازش موازی

  تعریف و توصیف ذخیره سازی و بازیابی داده به صورت موازی

  تعریف و توصیف پردازش توزیع شده

  بررسی چالش های ذخیره سازی و بازیابی داده به صورت توزیع شده

  منابع لازم برای انجام پردازش و ذخیره سازی توزیع شده

  نحوه ی تخصیص و مدیریت منابع در انجام پردازش توزیع شده

  نحوه ی توزیع وظایف در یک سیستم ذخیره سازی و پردازش توزیع شده

  معرفی و مقایسه ابزارهای موجود برای مدیریت منابع وظایف در محیط های پردازش توزیع شده

 

Hadoop Ecosystem ( معرفی و شروع کار با هادوپ و اکو سیستم هادوپ ) - 9 ساعت

  معرفی Hadoop به عنوان سکوی پردازش و ذخیره سازی داده در ابعاد کلان

  اجزاء هادوپ

              مدل پردازش توزیع شده نگاشت کاهش / MapReduce

              سیستم فایل توزیع شده هادوپ  / HDFS

              سیستم مدیریت منابع و وظایف در اکو سیستم هادوپ / YARN

              سیستم ذخیره سازی Object در هادوپ / Ozone

             موتور اجرایی وظایف Machine Learning و Deep Learning در بستر هادوپ و Submarine / Yarn

  قابلیت ها و توانمندی های Hadoop

  نقاط قوت و ضعف هادوپ در مقایسه با سیستم های پردازشی موجود

  معرفی مدل پردازشی نگاشت کاهش

  مراحل انجام کار در اجرای وظایف نگاشت کاهش

  حل مسئله و توسعه نمونه برنامه های نگاشت کاهش

  مسائل قابل حل در مدل پردازشی نگاشت کاهش و مسائل سازگار با این مدل

  اجرای وظایف نگاشت کاهش در هادوپ و بررسی مراحل اجرا

  معرفی سیستم فایل توزیع شده در Hadoop

  معماری و ویژگی های HDFS و نحوه عملکرد HDFS

NameNode   و DataNode و وظایف هر کدام  

HDFS Storage Policy  

HDFS Erasure Coding  

  ساختار داده ها و بلاک ها در HDFS

  معرفی Ozone و HDDS /Hadoop Distributed Data Store

  معرفی YARN و وظیفه YARN

  اجزاء YARN

  منابع قابل مدیریت و نحوه ی مدیریت منابع و وظایف توسط YARN

  امکانات YARN برای مدیریت و نظارت بر وظایف

Hadoop and Docker  

  معرفی Submarine و نحوه اجرای وظایف

  حوزه کارکردی مناسب برای YARN ، HDFS و MapReduce

 

 Hadoop Cluster Deployment and Management ( نصب، راه اندازی و مدیریت کلاستر هادوپ) - 6 ساعت

  برنامه ریزی و منابع لازم برای ایجاد کلاستر هدوپ

  روش های ایجاد کلاستر

  نصب نرم افزار ها و پیش نیاز ها

  نصب، انجام پیکربندی و راه اندازی کلاستر

  فایل های پیکر بندی و انجام پیکربندی های تکمیلی برای عملکرد بهتر کلاستر پردازشی و ذخیره سازی

  تنظیمات Memory و نحوه ی تخصیص RAM در سرور به اجزاء کوچکتر و ایجاد Container

  مدیریت کلاستر، Start و Stop کردن آن

  تعامل و کار با سیستم فایل توزیع شده Hadoop و انجام اعمال کاربری، مدیریتی و نظارتی در HDFS

  تعامل و کار با YARN

  ارسال وظایف نگاشت کاهش و نظارت و مدیریت آن ها به کمک YARN

   راه حل Hadoop برای پردازش کلان داده ها

  مسئله ایجاد و قرار دادن فایل های کوچک (Small File Problem) در HDFS

  مسئله UberTask و Job های کوچک در Hadoop

  مدیریت کلاستر

  اضافه و کم کردن DataNode به HDFS

 HDFS Disk Balancer  

 NameNode HA  

  مانیتورینگ کلاستر و بهبود کارایی کلاستر

  استفاده از پکیج های Hortonworks و Cloudera جهت ایجاد کلاستر Hadoop

  انجام تنظیمات پیکربندی و تغییر در آن ها به کمک ابزارهای مدیریت کلاستر

 

Big Data Ingesting and Integration ( یکپارچه سازی و تزریق داده ) - 12 ساعت

  علت یکپارچه سازی داده

  تزریق و یکپارچه سازی داده در سیستم فایل توزیع شده هادوپ

  روش ها و ابزارهای ورود داده غیر ساخت یافته و ساخت یافته

  معرفی Flume به عنوان ابزار تزریق داده غیر ساخت یافته و نیمه ساخت یافته به HDFS

  مفاهیم، اجزاء و روش کارکرد

  اجرای سناریو های مختلف در Flume

  ورود داده ساخت یافته از پایگاه داده های رابطه ای به HDFS

  معرفی Sqoop به عنوان ابزار ورود داده ساخت یافته

  اجزاء Sqoop، روش کارکرد و استفاده از آن

  معرفی Kafka و قابلیت های آن در ایجاد سیستم تزریق و یکپارچه سازی داده

  معرفی Zookeeper

  ویژگی ها و کاربرد های Kafka

  معماری Kafka

Producers and Consumers  

 Message  

Topic  

Partition and Replication  

Message Ordering Guarantees  

  نصب و استقرار کلاستر Kafka

  جریان داده

  مقایسه  Kafkaو سیستم های Message Queue

Event Sourcing  

  ایجاد Topic ، ارسال Message و خواندن پیام ها

Kafka Connect  

Change Data Capture – CDC  

CDC Methods  

  پیاده سازی CDC به کمک Kafka

  استفاده از Kafka برای Data Integration و Ingestion داده های ساخت یافته و نیمه ساخت یافته

  معماری مناسب جهت ایجاد یک سیستم تزریق داده کامل برای ورود انواع داده ها به HDFS

Kafka Cluster Replication  

 

Apache Pig ( استفاده از Pig برای انجام فرایند های ETL و تعامل با داده های کلان ) - 3 ساعت

  معرفی Pig

  ویژگی ها، کاربرد ها، اجزاء و مدل اجرایی

  جایگاه Pig در سیستم هادوپ

  راه اندازی Pig

Pig Latin   و دستورات Pig

Relations and Operations  

  توسعه نمونه برنامه ها و استفاده از Pig جهت تعامل با داده های کلان و انجام پردازش دسته ای

  توسعه نمونه برنامه ها و استفاده از Pig برای انجام عملیات پاک سازی داده و فرایندهای ETL

 

Apache Spark ( پردازش و تحلیل داده توسط Spark ) - 9 ساعت

  معرفی اسپارک و مدل پردازش در اسپارک

  ویژگی ها و کاربرد های اسپارک

  انواع روش های مدیریت منابع در اسپارک

  راه اندازی کلاستر اسپارک

  مفاهیم کار با اسپارک و اسپارک کلاستر

  اجزاء اسپارک و مدل اجرایی وظایف در اسپارک

  ارتباط با اسپارک و توسعه وظایف توسط اسکالا (Scala) و پایتون (Python)

  آماده سازی محیط توسعه و نصب ابزار ها

  Spark Core  

  مدل داده ای RDD

 RDD Operations  

Transformations  

Actions  

  تبدیل منابع داده ای به RDD

Submit Jobs  

Jobs, Stages, and Tasks  

  مانیتورینگ Job ها  

RDD Execution Plan  

RDD Persistence  

Paired RDD  

 Pair RDD Operations  

Shared Variables  

  توسعه و Build نمونه برنامه های اسپارک برای انجام فرایند های پردازش دسته ای و ETL

  توسعه و Build نمونه برنامه های اسپارک برای تحلیل برخط کلان داده

Deployment Mode  

       Spark and Spark Job Tuning