メトリクスの変化を分析する(Part 6):データの質 (Sequoia Capital)

f:id:bfore:20180901213200p:plain

この7回シリーズではこれまで、製品の変更、季節性、その他の行動要因、それからミックスシフトを検討してきました。今回はデータの質を取り上げます。これはしばしば、突然のメトリクス変更の原因となっています。

なぜ重要か

近年、企業不祥事、規制変更、主要金融機関の破綻などで企業情報の質の重要性に非常に大きな注目が集まっています。たとえばフェイスブックはそのデータのエラーを巡って様々な問題を抱えております。データの質の貧弱さは、関連する製品の顧客のほか投資家や製品開発者を含む広範な人々の信頼・信用を損なうことにつながります。また、製品の健全性が分かりづらくなります。

データの質に関わる問題に共通して見られるのは、他に説明しようのない突然の著しい変化です。したがって、データの質の問題の基本要素を理解することで、この問題に取り組むためのアクションプランを作れます(こうしたアクションプランについては、このシリーズの第7回で検討します)。このためにはまず問題の所在をはっきり確認し、量的に把握しようと努める必要があります。これは両方とも少し難しい仕事になるかもしれません。

ログに関係する問題点

データの食い違いは多くの場合、データのログ(または記録)のされ方が間違っていることに起因しています。このような問題を解決するには、ログのエラーが起きた可能性のある点を全て特定します。

足りないデータ

最近新しい製品をローンチした、あるいは、まだデータを記録していない新しい国でローンチしたとします。データが記録されていない場合、重要な測定基準の集計値を過小評価してしまうかもしれません。なぜならこのようなエラーは一般的に、以前の総量に実質的に影響を与えず、長期的に見た時に影響が増していくので、多くの場合検知するのが難しいのです。

二重のログ

場合により、ETL処理が値を2回以上ログに保存する可能性があり、それによって集計値が人為的に増大してしまいます。

不正確なログ

多くの場合、データの質に関わる問題の原因は、不正確に記録されたデータです。例えば変数1ではなく変数2のデータを記録したり、変数1に不正確な値を記録したり等々の問題です。

データ変換に関係する問題点

未加工のデータを「変換」することでより利用しやすくはなりますが、エラーに繋がる可能性もあります。記録の複製は、不正確な接合、オブジェクトどうしの不正確な関係(例えば2つの異なるオブジェクトに同じ名前を使うこと)、不正確なソースを統合したり、また、エイジングの問題(例えば古いものと新しいデータセットの間の不整合性)などの複数の問題に繋がる可能性があります。途中経過の各地点での適切なチェックと質的管理があれば、データ変換に関わる問題の特定に役立つでしょう。検知と訂正が比較的簡単(そして安価)な問題もありますが、以下にリストアップしたベストプラクティスがあらゆる場合に役立つでしょう。

データの質に関するベストプラクティス

データの質に関するベストプラクティスは3つの幅広いカテゴリーに分けられます。適切なログ、問題の特定、問題への対応です。

ログ

製品開発の初期の段階では、何をログすべきか、変化はどのように起きるべきか、そしてその変化がデータにどのように現れるかを理解することが重要です。また、データの質に影響を与えるようなビジネスや技術上のルールも記録すべきです。こうすることで、いずれ問題をより特定しやすくなるでしょう。

問題の特定

データの質の問題をモニタリングする時は、後手ではなく、先手を打って行動しましょう。ボトムアップとトップダウンの2つの視点からモニタリングしましょう。トップとボトムの両端に警報システムを持つことが、問題を検知する唯一の最も効果的な方法です。

問題の解決

データの質の問題の原因を特定したら、直すのは一般的に比較的簡単です。同時に、問題のビジネスへの影響と組織のコストを評価することも重要です。このような影響は、特に問題自体が検知しづらい時には、量的把握が難しいものです。

解決策を効果的に実施するには組織的な努力と長期的ビジョンが必要ですが、この取り組みにより会社全体に品質を気にする感覚が広がるでしょう。


まとめ

  • データの質の問題は多くの場合、ログの問題が原因となっています。足りないデータ、二重のログや論理的なエラーの特定が問題の診断に役立つでしょう。
  • 未加工データの変換プロセスも、エラーに繋がる場合があります。

 

この記事は、Sequoia CapitalのData Scienceチームによるものです。Jamie Cuffe、Avanika Narayan、Chandra Narayanan、Hem Wadhar、Jenny Wangが執筆協力しています。質問、コメント、その他のフィードバックにつきましては、data-science@sequoiacap.comまでメールでお送りください。

 

著者紹介 

Sequoia Capital (Medium)

アイデアから IPO、そしてそれを超えて、Sequoia は大胆な創業者たちが、伝説的な起業を作ることを助けます。

記事情報

この記事は原著者の許可を得て翻訳・公開するものです。
原文: Analyzing Metric Changes VI: Data Quality (2018)  

BFORE (Biz FOR Engineers) はスタートアップに関するノウハウを届けるエンジニア向けのメディアです

運営元