大数据快速学习,只需要3个月,你知道吗?

无论是联系型数据库还对错联系型数据库,都是某种数据模型的完成。本文将为我们扼要介绍5种常见的数据模型,让咱们来追根究底,窥视现在盛行的数据库处理方案背面的奥秘国际。

什么是数据模型?

拜访数据库中的数据取决于数据库完成的数据模型。数据模型会影响客户端经过API对数据的操作。不同的数据模型可能会供给或多或少的功用。一般来说,数据模型不会直接供给过多的功用,许多功用有必要由客户端自行完成。

数据模型决议了客户端怎么对数据进行编码存储。运用程序需求某种域模型与存储技能支撑的特性进行映射。

迄今为止,主导的数据模型仍然是联系模型。在这里,咱们主要想为我们介绍一下非联系模型,作为对比,本文也会扼要介绍一下联系模型。

数据模型概述

1.联系模型

联系模型运用记载(由元组组成)进行存储,记载存储在表中,表由架构界定。表中的每个列都有称号和类型,表中的一切记载都要契合表的界说。SQL是专门的查询言语,供给相应的语法查找契合条件的记载,如表联接(Join)。表联接能够依据表之间的联系在多表之间查询记载。

表中的记载能够被创建和删去,记载中的字段也能够独自更新。

联系模型数据库一般供给事务处理机制,这为涉及多条记载的自动化处理供给了处理方案。

对不同的编程言语而言,表能够被看成数组、记载列表或许结构。表能够运用B树和哈希表进行索引,以应对高功能拜访。

2.键值存储

键值存储供给了依据键对值的拜访方法。

键值对能够被创建或删去,与键相关联的值能够被更新。

键值存储一般不供给事务处理机制。

对不同的编程言语而言,键值存储类似于哈希表。对此,不同的编程言语有不同的名字 (如,Java称之为“HashMap”,Perl称之为“hash”,Python称之为“dict”,PHP称之为“associative array”),C++则称之为“boost::unordered_map”。

键值存储支撑键上自有的隐式索引。

键值存储看起来好像不太有用,但却能够在“值”上存储很多信息。“值”能够是一个XML文档,一个JSON方针,或许其它任何序列化形式。

重要的是,键值存储引擎并不介意“值”的内部结构,它依赖客户端对“值”进行解释和办理。

3.文档存储

文档存储支撑对结构化数据的拜访,不同于联系模型的是,文档存储没有强制的架构。

事实上,文档存储以封包键值对的方法进行存储。在这种情况下,运用对要检索的封包采纳一些约好,或许运用存储引擎的才能将不同的文档划分红不同的集合,以办理数据。

与联系模型不同的是,文档存储模型支撑嵌套结构。例如,文档存储模型支撑XML和JSON文档,字段的“值”又能够嵌套存储其它文档。文档存储模型也支撑数组和列值键。

与键值存储不同的是,文档存储关怀文档的内部结构。这使得存储引擎能够直接支撑二级索引,然后答应对恣意字段进行高效查询。支撑文档嵌套存储的才能,使得查询言语具有查找嵌套方针的才能,

XQuery

就是一个比如。

MongoDB

经过支撑在查询中指定JSON字段途径完成类似的功用。

4.列式存储

如果翻转数据,列式存储与联系存储将会十分类似。与联系模型存储记载不同,列式存储以流的方法在列中存储一切的数据。关于任何记载,索引都能够快速地获取列上的数据。

Map-reduce的完成

Hadoop

的流数据处理功率十分高,列式存储的长处表现的淋漓极致。因而,

HBase

Hypertable

一般作为非联系型数据仓库,为Map-reduce进行数据分析供给支撑。

联系类型的列标对数据分析作用欠好,因而,用户经常将更杂乱的数据存储在列式数据库中。这直接表现在

Cassandra

中,它引进的“column family”能够被以为是一个“super-column”。

列式存储支撑行检索,但这需求从每个列获取匹配的列值,并重新组成行。

(列式数据库InfoBright 数据仓库功能很不错)

5.图形数据库

图形数据库存储极点和边的信息,有的支撑增加注释。

图形数据库可用于对事物建模,如交际图谱、真实国际的各种方针。

IMDB

(Internet Movie Database)站点的内容就组成了一幅杂乱的图画,艺人与电影互相交错在一同。

图形数据库的查询言语一般用于查找图形中断点的途径,或端点之间途径的属性。

Neo4j

是一个典型的图形数据库。

挑选哪一种数据模型?

数据模型有着各自的优缺点,它们适用于不同的范畴。不管是挑选联系模型,还对错联系模型,都要依据实践运用的场景做出挑选。或许你会发现单一的数据模型不能满足你的处理方案,许多大型运用可能需求集成多种数据模型。

五个值得重视的图形数据库

图形数据库是一种非联系型数据库,它运用图形理论存储实体之间的联系信息。最常见的一个比如,就是社会网络中人与人之间的联系。联系型数据库用于存储“联系型”数据的作用并欠好,其查询杂乱、缓慢、超出预期,而图形数据库的一起规划恰恰弥补了这个缺点。

Google的图形核算体系名为Pregel,下面让咱们来为您介绍几个盛行的图形数据库。

1. Neo4j

Neo4j是一个盛行的图形数据库,它是开源的。

2. FlockDB

FlockDB是Twitter为进行联系数据分析而构建的。FlockDB迄今为止还没有稳定的版别,关于它是否是一个真实的图形数据库,尚有争议。

3. AllegroGraph

AllegroGraph是一个依据W3c规范的为资源描绘结构构建的图形数据库。它为处理链接数据和Web语义而规划,支撑SPARQL、RDFS++和Prolog。

4. GraphDB

GraphDB是德国sones公司在.NET基础上构建的。GraphDB保管在Windows Azure渠道上。

5. InfiniteGraph

InfiniteGraph依据Java完成,它的方针是构建“分布式的图形数据库”,已被美国国防部和美国中央情报局所选用。

下一代Hadoop战略——数据即渠道

在上星期的Strata大会上,与会者泄漏出有关下代Hadoop的音讯。包含对6000节点的支撑、装备高可用性的HDFS以及下一代MapReduce的特性等。而未来Hadoop代替操作体系的大胆主意也让咱们充满无限遥想。

在Strata会议上Hortonworks开创人和Apache Hadoop项目VP Arun Murthy泄漏新版Hadoop的相关特性。下一代的Hadoop将支撑6000节点,一同装备高可用性的HDFS(Hadoop Distributed File System)。

而下一代MapReduce结构则被命名为YARN或MRv2(MapReduce version 2)。新结构现已不再是传统的MapReduce结构,乃至与MapReduce无关,YARN可被看做是通用的运转时结构,用户能够编写自己的核算框 架,在该运转环境中运转。经过改善的MapReduce将别离HDFS中块和命名空间的办理,进步数据的可伸缩性。最重要的是改善后的MapReduce 将对非MapReduce运用进行支撑,这使得更多类型运用将具备在MapReduce作业的才能。

谷歌算法揭秘:一次查找恳求均匀往返2400公里

谷歌查找演进

作为全球运用最广泛的查找引擎,谷歌算法一向有一层奥秘面纱。近日谷歌工程总监斯科特·霍夫曼向腾讯科技叙述谷歌算法暗地故事,称2011年有520多项改善,自2003年到现在,Google查找已处理4500亿个查找恳求。

斯科特还泄漏,谷歌一个查找恳求均匀往返于电脑和数据中心单程距离是750英里,这也意味着一次查找恳求均匀往返需求1500英里,约合2400公里。

RavenDB:依据Windows/.NET渠道的NoSQL数据库

众所周知,NoSQL运动旨在成为大数据年代传统联系数据库办理体系的代替品。现在Microsoft对开源的情绪有所转变,RavenDB就是很好的例 子。Microsoft对RavenDB(NoSQL数据库)的认可令很多人感到惊奇。RavenDB能够轻易的代替联系数据库办理体系并兼容以往 的.NET运用。

RavenDB是针对Windows/.NET渠道而规划的文档数据库。RavenDB的出现将.NET运用与非联系数据库衔接到一同。数据以 Shcema-less方法存储,并直接经过HTTP、RESTful API或更方便的.NET客户端API衔接。.NET客户端API运用LINQ操作RavenDB数据库文档存储。

云核算:亚马逊榜首 第二把交椅何人坐?

亚马逊对用户推出的Web效劳,使它成为迄今为止最大的云效劳供给商。就像大多数的大型云供货商相同,亚马逊并没有就当时或方案中的数据中心泄漏太多。

埃森哲分析师Huan Liu的最新研究结果显现,亚马逊的Elastic Compute Cloud(EC2)在高达45万台效劳器上运转。亚马逊没有公布AWS的营收,但有人表明它可能现已是一项10亿美元的事务。

本文估计Rackspace、Google、微软、IBM、惠普、VMware、Facebook这七家公司将成为亚马逊的云对手。

新密钥技能简化云端数据加密

由于在云环境中,IT团队缺少对数据安全的直接操控,所以数据迁移到云环境将会给IT团队带来新的杂乱的安全问题。此外,云供货商以为数据安满是需求一起 承担职责,即效劳供货商确保物理安全,用户有必要保护其效劳器和数据的安全。这将需求新的加密战略和密钥办理战略,将密钥存储在云环境外部,而不是云环境 中。

草创安全公司Porticor刚刚推出了一个处理方案,专门处理云环境中静态数据安全问题。Porticor公司供给了一种别离密钥加密处理方案,云客户 是仅有知道主密钥的人。别的,Porticor公司处理了一切与加密数据有关的杂乱问题,客户简直不要去想这些问题。这种一起的密钥办理处理方案既供给了 安全性,也供给了便利性。

微软下调Azure云效劳价格 与亚马逊竞赛

微软上星期下调了其Azure云存储效劳和Windows Azure Extra Small核算效劳的价格。此举是微软在亚马逊下调其Web效劳价格几天之后采纳的行动。

这一切意味着什么?关于IT买主来说,云核算价格正在敏捷下降而且现已与电费水平相同。考虑到电费受天然气价格、时节和其它可变要素的影响,云核算的价格可能更廉价。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();