まえがき
『データの収集、取捨選択、管理及び処理に関して、一般的なソフトウェアの能力を超えたサイズのデータ集合と定義される(1)』ビッグデータの特性とは。
リスト
- Volume(量): 生成・保存されるデータ量(が多い)
- Velocity(速さ):生成され、要求に合致するように処理されるまでの速さ(が大きい)
- Variety(種類): データの種類や性質(が多様)
- Veracity(正確さ): データの真実性または信頼性(が他の3Vの特性にも関わらず確保されねばならない)
あとがき
まえがきは「ビッグデータ」(Wikipedia日本語版)より。リスト項目は “Big data” (Wikipedia) を読みつつ私訳しました。
オリジンはVeracityを除いた3V。こういった技術的な用語を Wikipedia で探すときにはまず英語版から始めるのですが、今回は英語版に無い情報が日本語版にだけ書かれていて少々びっくりしました。ありがたく引用します。
2001年の研究報告書(2)で、METAグループ(現ガートナー )のアナリスト、ダグ・レイニーはビッグデータの特性としてボリューム(volume、データ量)、速度(velocity、入出力データの速度)、バラエティ(variety、データ種とデータ源の範囲)があると定義した。
この三つ組はたしかにビッグデータとそうでないデータを分かつ特性と思えます。一方で正確さ(Veracityなんて単語があるんですね)はビッグデータであろうがなかろうがデータ処理においては重要な特性で、付け足し感が否めません。にもかかわらず4つめのVとしてフィーチャーされたのは、3Vがいずれも正確さを下げる要因となるからでしょう。リスト項目ではそのニュアンスをカッコ内に添えました。
こういうリストは優れたフレームワーカーが最初に発案し、流布するにしたがい付け足され、そのたびに質が下がっていくように思います。5つめのVとしてValue(価値)があるとしている文章も見かけましたが、わざわざ Value を足す Value はないような。
参考文献
(1) “‘Big Data’: Big gaps of knowledge in the field of Internet.”
(2) Douglas, Laney. “3D Data Management: Controlling Data Volume, Velocity and Variety”. Gartner.