2017年08月03日

大阪市大チームの研究結果とは?報道に見る「ビッグデータ」の誤用

 おそらく、チラリと見て卒倒しそうになったメディア報道は、NHK関西による報道である。まず、「生活保護をビッグデータで分析」というタイトルが、強い目眩を誘うのだ。「ビッグデータで分析」とはいったい何か。「ビッグデータ」とは文字通り、巨大な量のデータを指す用語だ。データそのものは分析の道具ではない。
 さらに、本文の「大阪市立大学の研究チームが大阪市の生活保護に関する情報をビッグデータの手法で分析した」という記述に、頭がクラクラする。というのは、「ビッグデータの手法」という記述そのものが、あり得ないものだからだ。
 「ビッグデータ」を「ビジネスパーソン100万人の身長・体重」と具体的に言い換えれば、ご理解いただけるだろう。「100万人の身長・体重の手法」は存在しない。存在するとすれば、「100万人の身長・体重」に対する分析手法であり、その人々や周辺の人々に関する見積もり(推論)の手法だ。
 NHKには、科学番組の優秀なディレクターが多数在職しているとされている。優秀なディレクターたちがいれば、「ちょっと、これでいいかどうか見てくれない」と声をかければ、「ビッグデータで分析」「ビッグデータの手法」が日の目を見ることはなかったかもしれないが、トンデモナイディレクターばかりのようだ。
 なお、翌日の産経新聞の報道では、タイトルに「生活保護のビッグデータ」を分析したとある。少なくとも誤りではない。本文には、「生活保護に関する膨大な行政データの分析結果を公表した」と記述されており、妥当かつ正確だ。本当に「ビッグデータ」と呼ぶべきものかどうか、一般の読者が何をイメージするか、慎重に検討しただろうか。
 内容にも「ミスリード」と感じる部分はない。産経新聞の政治的スタンスを支持することが多いのだが、同社で数学記事を執筆している優秀な記者の知人の顔を思い浮かべ、この記事に心から賞賛の拍手を贈りたい。
 もともと、「ビッグデータ」という用語そのものが、そもそも何を指しているのか意味不明に近い用語ではある。とりあえず「その時期の通常のパソコンでは扱いにくい規模のデータ」と考えておけば大きな誤りにはならないのだが、今回の大阪市大チームの分析は「ビッグデータ」と呼ぶべきかどうかが微妙なのだ。
 というのは、対象は生活保護世帯主たち数万人(注)規模(世帯員については分析していない)であり、分析の複雑さは「各人の身長・体重・年齢とその関係」程度だからだ。通常、データサイエンスの世界では、この程度のデータ量、分析の複雑さ、分析の総量を指して「ビッグデータ」「ビッグデータ分析」と呼ぶことは少ない。大阪市が大阪市大に提供したデータそのものは、紛れもない「ビッグデータ」であったのかもしれないのだが。
(注)大阪市大チームの発表資料では、「約15000〜25000世帯」という数値が示されているけれども、データ量や分析の複雑さを考える場合に注目する対象は桁なので、「数万人規模」と記述した。
posted by GHQ/HOGO at 07:24| 埼玉 ☔| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント: