曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
Spark和Python通过PySpark处理大数据培训
 
   班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
       坚持小班授课,为保证培训效果,增加互动环节,每期人数限3到5人。
   上课时间和地点
开课地址:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站) 【武汉分部】:佳源大厦【成都分部】:领馆区1号【沈阳分部】:沈阳理工大学【郑州分部】:锦华大厦【石家庄分部】:瑞景大厦【北京分部】:北京中山 【南京分部】:金港大厦
新开班 (连续班 、周末班、晚班):2024年12月30日......(欢迎您垂询,视教育质量为生命!)
   实验设备
     ☆资深工程师授课
        
        ☆注重质量 ☆边讲边练

        ☆合格学员免费推荐工作
        ★实验设备请点击这儿查看★
   质量保障

        1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
        2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
        3、培训合格学员可享受免费推荐就业机会。

课程大纲
 
  • 了解大数据
  • Spark概述
  • Python概述
  • PySpark概述
  • 使用弹性分布式数据集框架分发数据
    使用Spark API运算符分布计算
    设置Python和Spark
  • 设置PySpark
  • 针对Spark使用Amazon Web Services(AWS)EC2实例
  • 设置数据块
  • 设置AWS EMR集群
  • 学习Python编程的基础知识
  • Python入门
    使用Jupyter Notebook
    使用变量和简单的数据类型
    使用列表
    使用 if 语句
    使用用户输入
    处理while循环
    实现函数
    使用类
    处理文件和异常
    处理项目、数据、API
    学习Spark DataFrame的基础知识
  • Spark DataFrames入门
    用Spark实现基本操作
    使用Groupby和聚合操作
    使用时间戳和日期
    进行Spark DataFrame项目练习
  • 了解用MLlib进行机器学习
  • 使用MLlib、Spark和Python进行机器学习
  • 了解回归
  • 学习线性回归理论
    实现回归评估代码
    进行线性回归示例练习
    学习Logistic回归理论
    实现一个Logistic回归代码
    进行Logistic回归示例练习
    了解随机森林(Random Forests)和决策树(Decision Trees)
  • 学习树方法论(Tree Methods Theory)
    实现决策树和随机森林代码
    进行随机森林分类示例练习
    使用K均值聚类
  • 了解K均值聚类理论
    实现K均值聚类代码
    进行群集示例练习
    使用推荐系统
  • 实现自然语言处理
  • 理解自然语言处理(NLP)
    NLP工具概述
    进行NLP示例练习
    在Python中用Spark进行流式处理
  • 用Spark进行流式处理概述
    Spark流数据处理(Spark Streaming)示例练习
 
 
  备案号:沪ICP备08026168号 .(2014年7月11)...................