DataHubサービス企画書

本サービスで実現したいこと

つなぐことでデータの価値を高める。

社会活動を行うと何かしらのデータが必ず生み出されます。データの価値を以下の観点で高めることで、社会活動がより良くすることを目的とする。

  • 簡易な操作で多くのヒトにデータをつなげる。
  • 手元にあるデータを膨大な知識につなげる。

AsIs

世の中のあらゆる場面でデータは増える傾向にあります。このデータを収集し活用することで、社会を効率的にすることが出来ます。しかし、多くのデータは、ローカルのファイルや、単一システム内のRDBに保存され、利活用するには、集計作業をしたり、SQLを駆使しなければなりません。データは個々に存在していて、つながっていません。また、探したり、可視化したりするにしてもファイルを開いたり、集計したりなどの煩雑な作業が発生してしまいます。

ToBe

手元にあるデータをDataHubにアップロードするだけで、自然言語でデータを自由自在に操作できるようになる。

データ

以下のようなデータが手元にあったとする。

名前 時期 科目 点数
A君 夏学期期末 数学 80
A君 夏学期期末 英語 60
B君 夏学期期末 数学 100
B君 夏学期期末 英語 80
名前 性別 生年月日 出身地
A君 2019年5月 ○○市
B君 2019年6月 ××市

アップロード

エンティティ化する際のkeyをユーザが指定してアップロード。

※前者なら、「名前-時期-科目」をkeyにする。後者なら「名前」をkeyにする。

構築されたRDF

列を一つの主題とした、以下のようなRDFが構築される。

<A君-夏学期期末-数学> <名前> <A君> ;
                   <時期> <夏学期期末> ;
                   <科目> <数学> ;
                   <点数> <80> .
<A君-夏学期期末-英語> <名前> <A君> ;
                   <時期> <夏学期期末> ;
                   <科目> <英語> ;
                   <点数> <60> .
...
...
...
<A君> <名前> <A君> ;
      <性別> <男> ;
      <生年月日> <2019年5月> ;
      <出身地> <〇〇市> .
<B君> <名前> <B君> ;
      <性別> <女> ;
      <生年月日> <2019年6月> ;
      <出身地> <××市> .

リレーションの拡張

必要に応じてリレーションを拡張する。例えば、「〇〇市」は手元のデータでは、文字通り「○○市」そのものしか存在しないが、DataHubに接続することですでに構築された大規模な知識でリンクをたどり、「○○市」ー「位置する行政区画」→「△△県」と導き、そのリレーションを追加することができる。※行政区画に限らず、知識が存在する限りは、汎用的にリレーションの拡張ができる。

更に以下の関係が追加される。

<A君> <出身地> <△△県> .
<B君> <出身地> <▲▲県> .

自然言語クエリ

自然言語で簡単にデータを操作できるようになる。

  • 「A君の数学の点数」→A君の数学に関する点数が一覧表示される
  • 「夏学期期末の数学の点数」→全員の夏学期期末の数学に関する点数が一覧表示される
  • 「○○市の数学の点数」→○○市出身の全員の数学の点数が一覧表示される
  • 「△△県の数学の点数」→△△県出身の全員の数学の点数が一覧表示される

※操作イメージはデータアナライザー部のプロトタイプである https://app.wiev.net を参照。

SPARQLクエリ

更に詳細にデータを操作したい場合は、SPARQLで操作することも可能。

つながることの利点

  • データ量が増えるに従って増えるファイルを探す手間を省きダイレクトに欲しいデータにアクセスできる
  • オンラインのデータによって、リレーションを簡単に拡張できるので、集計の可能性が広がる
  • 通常のグラフはもちろん、マップ、力学グラフなどグラフィカルな表示を自動で付加し直感的にデータを扱える

課題設定

データを集める

  • csvやエクセルファイルのデータを集める
  • RDBのデータを集める
  • 集めたデータをRDF化する

データをつなげる

  • オンラインのRDFに接続しエンティティ化する
  • オンラインのRDFからつながりを拡張する

簡易なデータ抽出

  • 自然言語でつながりを自由に簡単に抽出する

知識の拡大

  • クローラ、テキストパーサーでサービス側の知識を増やす
  • 公開設定でアップロードされたデータを元に知識を増やす

方策

以下にサービス化の観点を記載する、

システムアーキテクチャ

  • データアナライザー
  • RDFストア
  • データインポーター
  • クローラー、テキストパーサー
サブシステム 内容 公開 作成状況
データアナライザー 自然言語でデータを可視化するアプリ https://app.wiev.net
RDFストア SPARQL対応のRDFストア(既成品) AWS Neptune,Virtuoso,apache jena
データインポーター エンティティ化(名寄せ)とリレーション拡張機能を実現するアプリ × 未着手
クローラー、テキストパーサー 文章を収集し、新たなトリプル(リレーション)を発見するアプリ × 作成中

プラン体型

無料プランと有料プランを提供する

無料プラン

  • 手元のデータをアップロードするだけで、自然言語クエリが出来るようになる。
  • 膨大な知識量を元につながりを拡張出来る。
  • アップロードデータ容量は制限される。
  • データは公開される。

有料プラン

  • Githubからソースを落として、ローカルでサービスを可動する。
  • オンラインでのエンティティ化、つながりの拡張はAPIキーが必要となり、有料 プランとなる。
  • データは公開されない。

サービス優位性

  • 無料プランにより多くのデータを収集出来れば、サービスが有するデータ量が増える。
  • 独自のクローラー、テキストパーサーにより、サービスが有するデータ量が増える。

他データセットとの連携

データインポーター部の名寄せ、リレーション拡張を利用する際に他のエンドポイントも選択できるようにすることで他システムとの連携性を担保する。

Last Updated: 8/13/2019, 8:09:14 AM