Arch6-笔记

125 阅读2分钟

1. CAP原理:

Consistency 一致性:每次读取的数据应该是最近写入的数据或者返回一个错误,而不是过期数据。

Available 可用性:每次读取都可以得到响应,而不是返回一个错误。

Partation tolerance分期耐受性:因为网络原因,部分服务器节点之间消息丢失或者延迟,系统依然是可以操作的。

CAP原理关注是一个分布式性的A(可用性)C(一致性)和P(分区耐受性)三者之间的关系。

对于一个分布式系统,网络失效一定会发生,如果选择了一致性,系统就可能返回一个错误码或超时,即系统不可用;如果选择了可用性,系统总可以返回一个数据,但不保证数据是最新的。所以CAP原理是说在分布式系统必须保证分区耐受性的前提下,可用性和一致性无法同时满足。

2. 互联网搜素引擎整体架构

1. 通过网络爬虫将网站内容进行下载本地

2. 对页面去重,保存在存储系统中,进行倒排索引

3. 对链接进行page rank排序,更符合用户的搜索要求

4. 进行分词,检索分析,返回给用户

爬虫的架构:

网页下载

解析网络链接

开源项目:Lucence

                  1. 准实时更新,将一个索引文件拆分为多个子文件(叫做段)

                  2. 不支持分布式集群

                   ElasticSearch

                   1. 引入索引分片,(在规划时定好服务器数量)

                   2. 索引备份

                   3. 提供便利的API

3. 如何处理日常工作与高难度技术开发的工作

        1. 如何争取这样工作机会

        2. 让公司的技术管理和业务方支持你的工作