曙海教育集团
全国报名免费热线:4008699035 微信:shuhaipeixun
或15921673576(微信同号) QQ:1299983702
首页 课程表 在线聊 报名 讲师 品牌 QQ聊 活动 就业
 
搜索引擎核心技术课程

 
  班级规模及环境--热线:4008699035 手机:15921673576( 微信同号)
      每个班级的人数限3到5人,互动授课, 保障效果,小班授课。
  上间和地点
上部份地点:【上海】同济大学(沪西)/新城金郡商务楼(11号线白银路站)【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院【北京分部】:北京中山/福鑫大楼【南京分部】:金港大厦(和燕路)【武汉分部】:佳源大厦(高新二路)【成都分部】:领馆区1号(中和大道)【沈阳分部】:沈阳理工大学/六宅臻品【郑州分部】:郑州大学/锦华大厦【石家庄分部】:河北科技大学/瑞景大厦
近开间(周末班/连续班/晚班):2024年3月25日......(欢迎您垂询,视教育质量为生命!)
  实验设备
    ◆小班教学,教学效果好
       
       ☆注重质量☆边讲边练

       ☆合格学员免费推荐工作
       ★实验设备请点击这儿查看★
  质量保障

       1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
       2、课程完成后,授课老师留给学员手机和Email,保障培训效果,免费提供半年的技术支持。
       3、培训合格学员可享受免费推荐就业机会。☆合格学员免费颁发相关工程师等资格证书,提升职业资质。专注高端技术培训15年,曙海学员的能力得到大家的认同,受到用人单位的广泛赞誉,曙海的证书受到广泛认可。

部份程大纲
 

第一部份:初识搜索引擎,了解其技术架构
1、按照各大搜索引擎商业公司使用的技术为依据对搜索引擎进行时代划分
2、讲解搜索引擎的三大实现目标
3、讲解搜索引擎的三大核心问题及技术发展
4、详细讲解搜索引擎的技术架构

第二部份:讲解网络爬虫
1、讲解通用爬虫框架
2、讲解通过哪些特征来判断一个网络爬虫是否优秀
3、详细讲解网络爬虫的抓取策略
4、详细讲解网络爬虫对网页更新策略
5、详细讲解网络爬虫的暗网抓取
6、详细讲解分布式爬虫

第三部份:讲解搜索引擎索引
1、讲解单词--文档矩阵、倒排索引基本概念、倒排索引简单实例
2、讲解单词词典:哈希加链表、树形结构、
3、讲解两遍文档遍历法、排序法、归并法、动态索引
4、讲解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、讲解查询处理:一次一文档、一次一单词、跳跃指针、多字段索引

第四部份:讲解索引压缩
1、讲解词典压缩
2、讲解倒排列表压缩算法
3、讲解文档编号重排序
4、讲解静态索引裁剪

第五部份:检索模型与搜索排序
1、讲解布尔模型
2、讲解向量空间模型
3、讲解概率检索模型
4、讲解语言模型方法
5、讲解机器学习排序

第六部份:讲解链接分析
1、讲解web图
2、讲解随机游走模型、子集传播模型、链接分析算法之间的关系
3、讲解PageRank算法
4、讲解HITS算法
5、讲解SALSA算法
6、讲解主题敏感PageRank
7、讲解Hilltop算法

第七部份:云存储与云计算
1、讲解云存储与云计算概述
2、讲解CAP原理
3、讲解Google的云存储与云计算架构
4、讲解google文件系统GFS
5、讲解BigTable存储模型
6、讲解Map/Reduce云计算模型

第八部份:讲解网页反作弊
1、讲解内容作弊
2、讲解链接作弊
3、讲解网页隐藏作弊
4、讲解Web 2.0作弊方法
5、讲解反作弊技术的整体思路
6、讲解通用链接反作弊方法
7、讲解专用链接反作弊技术

第九部份:讲解用户查询意图分析
1、讲解搜索行为及其意图
2、讲解搜索日志挖掘
3、讲解相关搜索
4、讲解查询纠错

第十部份:讲解网页去重
1、讲解通用去重算法框架
2、讲解Shingling算法
3、讲解I-Match算法
4、讲解SimHash算法
5、讲解SpotSig算法

第十一部份:搜索引擎缓存机制
1、讲解搜索引擎缓存系统架构
2、讲解缓存对象
3、讲解缓存结构
4、讲解缓存淘汰策略
5、讲解缓存跟新策略

第十二部份:讲解搜索引擎的发展趋势
1、讲解个性化搜索
2、讲解社会化搜索
3、讲解实时搜索
4、讲解移动搜索
5、讲解地位位置感知搜索
6、讲解跨语言搜索
7、讲解多媒体搜索
8、讲解情景搜索

第十三部份:实战讲解怎么构建一个搜索引擎01(使用Java开发)
1、准备搜索引擎开发环境、提取HTML文件内容:结构化信息提取、网页架构相似度计算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件内容、流媒体文件内容提取(音频文件、视频文件)
3、Lucene中的中文分词、Lietu中文分词的使用、理解Lucene的索引库结构、设计一个简单的索引库
4、自动分类的SVM方法实现、K均值聚类方法、K均值实现、拼音转换、语义搜索

第十四部份:实战讲解怎么构建一个搜索引擎02(使用java开发)
1、索引优化、查询优化、实现时间加权排序、实现字词混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索页面设计、实现搜索接口
3、实现关键字高亮、实现多维视图、实现相似文档搜索、实现AJAX自动完成
4、使用Solr实现分布式搜索:Solr服务器端的配置与中文支持、Solr索引库的查找、Solr搜索优化、SolrJ查询分析器、Solr的.net客户端、Solr的php客户端

 

-

 

  备案号:沪ICP备08026168号 .(2014年7月11)...................
友情链接:Cadence培训 ICEPAK培训 EMC培训 电磁兼容培训 sas容培训 罗克韦尔PLC培训 欧姆龙PLC培训 PLC培训 三菱PLC培训 西门子PLC培训 dcs培训 横河dcs培训 艾默生培训 robot CAD培训 eplan培训 dcs培训 电路板设计培训 浙大dcs培训 PCB设计培训 adams培训 fluent培训系列课程 培训机构课程短期培训系列课程培训机构 长期课程列表实践课程高级课程学校培训机构周末班培训 南京 NS3培训 OpenGL培训 FPGA培训 PCIE培训 MTK培训 Cortex训 Arduino培训 单片机培训 EMC培训 信号完整性培训 电源设计培训 电机控制培训 LabVIEW培训 OPENCV培训 集成电路培训 UVM验证培训 VxWorks培训 CST培训 PLC培训 Python培训 ANSYS培训 VB语言培训 HFSS培训 SAS培训 Ansys培训 短期培训系列课程培训机构 长期课程列表实践课程高级课程学校培训机构周末班 曙海 教育 企业 培训课程 系列班 长期课程列表实践课程高级课程学校培训机构周末班 短期培训系列课程培训机构 曙海教育企业培训课程 系列班 软件无线电培训 FPGA电机控制培训 Xilinx培训 Simulink培训 DSP培训班 Ansys培训 LUA培训 单片机培训班 PCB设计课程 PCB培训 电源培训 电路培训 PLC课程 变频器课程 Windows培训