ダークデータ

読書

こんにちは、ゆうパパです。

データサイエンスを勉強したいなぁと思いふと手に取った本です。

データを扱う際には統計学の知識が当然に必要になるわけです。しかし、そもそも集めたデータが有意なものでなくては分析しても意味がないわけですし、結論を出すに至る過程で零れ落ちたデータに有益な情報が入っていることもあるわけです。


著者は統計学者であり、金融分野で実際に統計に携わったエキスパートでもあります。

本書中、印象的な教示的な文が随所に出てきます。

得られたデータだけにもとづいた判断は、誤っている可能性が高い

ダークデータの危険を免れている領域はひとつもない

ダークデータというのは本書内の造語で物理学におけるダークマター(電磁波や物質と反応しないため観測はできないが存在していると考えられている物質)になぞらえて、結果に直接結びつかないが重要な影響を与えているデータのことを指しています。

このダークデータを正しく扱えているかでデータ分析の結果の有意性が担保されることになる、そう著者は指摘しています。

ダークデータ(DD)の類型として以下をあげています。

DDタイプ1「欠けていることがわかっているデータ」

DDタイプ2「欠けていることがわかっていないデータ」

DDタイプ3「一部の例だけを選ぶ」

DDタイプ4「自己選別」

DDタイプ5「重要なことを見落とす」

DDタイプ6「あったかもしれないデータ」

DDタイプ7「ときの経過とともに変化する」

DDタイプ8「データの定義」

DDタイプ9「データの要約」

DDタイプ10「測定誤差と不確かさ」

DDタイプ11「フィードバックループとつけ入り」

DDタイプ12「情報の非対称性」

DDタイプ13「意図的なダークデータ化」

DDタイプ14「データの捏造または合成」

DDタイプ15「データ外の外挿」

この類型の解説については事例も豊富なので本書を見ていただきたいのですが、さらにこのDDに対してどのように対処すべきかもまとめてあり、実際にデータ分析を生業にしているかたは読んでおいて損はない本かと思います。

この本を読むとニュースで出てくる統計情報は本当に有意なのか疑いの目をもって見てしまうという副作用が発生してしまうのでご注意ください(笑)

・dポイント…2365ポイント←前回2360
 ※これとは別に21000をポイント投資中(総獲得pts:23965)
 ※うちdヘルスケア獲得累計581ポイント
・楽天ポイント…4928ポイント←前回 4920
 ※総獲得ポイントは21241
・Paypay…4457円←前回 4455
 ※総獲得金額2127円
・au pay…738円←前回 738円
 ※総獲得金額7930円
・Pontaポイント…25ポイント←前回 25
・Tポイント…569ポイント←前回 566
 ※総獲得pts:1985pts
〇使っているアプリ
・トリマ(公式
・あるくと(公式
・RenoBody(公式
・dヘルスケア(公式
・ポイントタウン(公式
・イオンモールアプリ(公式
・JOTOホームドクター(iPhoneのみ
・アルコイン(公式
・Tヘルスケア(公式
・aminoステップ(公式
・ステッパー(公式
・スギサポWalk(iPhone, Android
・アスタリ(公式
・CokeON(公式
・DietBox(公式
・BeautyWalk(公式
・すこやかんぽ(公式
・とほトク(iPhone,googleplay
・ステラウォーク(iPhone)
・SweatCoin(公式
・aruco
・BitWalk
〇2022年10月15日より禁酒中
(始めたのは2022/9/8から)

コメント

タイトルとURLをコピーしました