NoSQL數據建模技術

發佈於2012年3月6日 -

本文節譯自NoSQL Data Modeling Techniques

NoSQL數據建模中的一般問題

作爲前言,首先提出一些NoSQL建模中的一般化問題:

  • 與關係建模不同,NoSQL數據建模通常從應用程序查詢的角度來建模:

    • 關係建模的方式通常是由數據的結構來決定的,設計的主題是:「我能回答什麼問題?」

    • NoSQL建模的方式則是由數據訪問方式決定(例如要支持哪些查詢),設計的主題是:「我能提出什麼問題?」

  • NoSQL建模通常需要對數據結構和算法有更深的理解。本文中,我們將探討一些雖然不是針對NoSQL,但是在NoSQL中很實用的數據結構。

  • 數據的冗餘和反範式化是很重要的。

儘管數據建模技術是沒有定式的,但對於特定的系統來說,本文將給出一些思路。

概念性技術

1. 反範式化

反範式化可以被定義爲多個文檔/表擁有相同的數據副本,以使查詢處理變得更簡單高效。

2. 聚集

主流的NoSQL數據庫均對模式(schema)沒有很強的限制:

  • Key-Value存儲通常不對存儲的值有約束,因此值可以是任意的格式。此外,一個業務實體也可以佔用多條記錄。例如,用戶賬戶可以這樣建模:以UserID_name, UserID_email這樣的名稱作爲key。
  • 文檔型數據庫通常則是固有的schema-less。

這樣的設計允許實用複雜的內部結構來構建實體,主要包括兩方面:

  • 最小化一對多的關係(通過嵌套實體),這樣,就會減少連接操作。
  • 隱藏了異構的業務實體間的不同。

我們可以用如下這張圖來展示。這副圖對產品實體進行了建模。首先,我們說,所有的產品都有ID,價格和描述。接下來,我們發現不同類型的產品擁有不同的屬性,例如書籍的作者和褲子的長度。有些屬性是一對多或者多對多的,例如唱片中的曲目等。接下來,我們發現,有些實體難以用固定的屬性建模,例如褲子的屬性取決於品牌。雖然在關係數據庫中,這些模型都是能建出來的,但顯然不如NoSQL簡潔。

3. 應用程序端連接

NoSQL解決方案中幾乎不支持連接。作爲「問題驅動」的NoSQL設計,連接通常在設計時就被考慮好了,使用之前描述的反範式化和聚集就可以解決這個問題。當然,有些時候,連接還是無法避免,此時應該由應用程序處理。

一般建模技術

4. 原子聚集

很多NoSQL的解決方案都缺乏對事務的支持。在一些情形中,可以通過使用分佈式鎖或使用應用程序級別的MVCC來實現事務特性。但通常都是使用上文提到的聚集的特性來保證部分ACID特性。

5. 可枚舉鍵

無序的Key-Value模型有一個很大的優點:數據可以通過對key的hash,分佈放在多個服務器上。有序模型更復雜,但有時候有序的鍵對應用程序來說更有用。考慮下面這個例子:

  • 一些NoSQL存儲提供原子計數器,可以用來產生ID序列。可以用複合key:userID_messageID存儲消息。如果我們知道了最新消息的ID,那麼就可以向前遍歷所有的消息。

  • 也可以利用這樣的特性對消息分組,例如按日期分組。

6. 降維

降維是一項把多維數據映射到Key-Value模型或者其他非多維模型的技術。

傳統的地理信息系統使用四叉樹或者R-樹及其變種作爲索引。這些結構需要原地更新,並且當數據量很大的時候也會遇到困難。一個方法是,遍歷二維的結構,並將其轉化爲一個一維的列別。這項技術中比較有名的方法叫做Geohash。如下圖所示:

7. 索引表

這項技術主要使用在大表數據庫中,看圖就好: