「完JIE」C++数据开放平台实战,手把手教你做工业级项目

142 阅读3分钟

C++数据开放平台实战,手把手教你做工业级项目

核心代码,注释必读

// download:3w ukoou com

C++数据开放平台实战,手把手教你做工业级项目-HTTP协议的本质

  • HTTP协议构建于 TCP/IP 协议之上,是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。
  • HTTP是属于应用层的协议,它被设计用于Web浏览器和Web服务器之间的通信,也可以用于其他目的。
  • HTTP遵循经典的客户端-服务端模型,客户端打开一个连接以发出请求,然后等待它收到服务器端响应。
  • HTTP是无状态协议,意味着服务器不会在两个请求之间保留任何数据(状态)。虽然通常基于TCP / IP层,但可以在任何可靠的传输层上使用; 也就是说,一个不会静默丢失消息的协议,如UDP。请求通常是由像浏览器这样的接受方发起的。
  • 一个完整的Web文档通常是由不同的子文档拼接而成的,像是文本、布局描述、图片、视频、脚本等等。
  • 通俗来讲,就是计算机通过网络进行通信的规则,是一个基于请求与响应,无状态的,应用层的协议,常基于TCP/IP协议传输数据。目前任何终端(手机,笔记本电脑)之间进行任何一种通信都必须按照Http协议进行,否则无法连接。

C++数据开放平台实战,手把手教你做工业级项目 - 非结构化数据的存储

HDFS缺陷

元数据的扩展性:NameNode是一个中央元数据服务节点,也是集群管理节点,文件系统的元数据以及块位置关系全部在内存中。NameNode对内存的要求非常高,需要定制大内存的机器,内存大小也限制了集群扩展性。

全局锁: NameNode 有一把FSNamesystem全局锁,每个元数据请求时都会加这把锁。虽然是读写分开的,且有部分流程对该锁的持有范围进行了优化,但依然大问题。

块汇报风暴: HDFS块大小默认128M,启动几百PB数据量的集群时,NameNode需要接受所有块汇报才可以退出安全模式,因此启动时间会达数小时。

毫无疑问,对象存储才是最佳的解决方案。

结构化数据与非结构化数据

与结构化数据和非结构化数据搭配使用的技术类型取决于使用的数据存储类型。通常,结构化数据存储提供数据库内分析,而非结构化数据存储不提供此类分析。这是因为结构化数据由于其采用的格式而遵从已知和可重复的操作规则,而非结构化数据的格式更加多样化和复杂。 

可采用多种技术分析这两种类型的数据。使用结构化查询语言(SQL)查询数据是结构化数据分析的根本性基础。可以应用其他技术和工具,例如数据可视化和建模、编程操作和机器学习(ML)。 

对于非结构化数据,分析通常涉及更复杂的编程操作和机器学习。可以通过各种编程语言库和使用人工智能(AI)的专门设计工具访问这些分析。通常,非结构化数据需要预处理才能适合特定格式。