1. CAP原理:
Consistency 一致性:每次读取的数据应该是最近写入的数据或者返回一个错误,而不是过期数据。
Available 可用性:每次读取都可以得到响应,而不是返回一个错误。
Partation tolerance分期耐受性:因为网络原因,部分服务器节点之间消息丢失或者延迟,系统依然是可以操作的。
CAP原理关注是一个分布式性的A(可用性)C(一致性)和P(分区耐受性)三者之间的关系。
对于一个分布式系统,网络失效一定会发生,如果选择了一致性,系统就可能返回一个错误码或超时,即系统不可用;如果选择了可用性,系统总可以返回一个数据,但不保证数据是最新的。所以CAP原理是说在分布式系统必须保证分区耐受性的前提下,可用性和一致性无法同时满足。
2. 互联网搜素引擎整体架构
1. 通过网络爬虫将网站内容进行下载本地
2. 对页面去重,保存在存储系统中,进行倒排索引
3. 对链接进行page rank排序,更符合用户的搜索要求
4. 进行分词,检索分析,返回给用户
爬虫的架构:
网页下载
解析网络链接
开源项目:Lucence
1. 准实时更新,将一个索引文件拆分为多个子文件(叫做段)
2. 不支持分布式集群
ElasticSearch
1. 引入索引分片,(在规划时定好服务器数量)
2. 索引备份
3. 提供便利的API
3. 如何处理日常工作与高难度技术开发的工作
1. 如何争取这样工作机会
2. 让公司的技术管理和业务方支持你的工作