重複を取り除く(1)データ ロード エディタでのDistinct

重複した行をカウントしない

こんにちは。Deckです。

今回はQlik Senseでデータ分析をする際の「重複する値を取り除くにはどうすればよいか?」という疑問を解説します。

例えばこのようなデータを見てみましょう。

上はとある学校祭の予定ですが、場所や催し物にいくつか重複がありますね。

Qlik Senseを使い、重複する値を取り除いてみましょう。

サンプルデータはこちらからダウンロードできます。

データの準備

新規アプリを作成し、データ ロード エディタを開きましょう。

「接続の新規作成」→「フォルダ」をクリックします。

データが入っているフォルダに移動し、接続に名前をつけて「作成」をクリックします。

単一項目のテーブルを読み込む際のDistinct

まず、読み込む項目が1つだけのLOAD文を作ってみましょう。

「データを選択」をクリックします。

読み込むファイルをクリックして「選択」をクリックします。

読み込む項目を1つだけに絞ってスクリプトを生成します。

「催し物」のみチェックオンの状態にして「スクリプトを挿入」をクリックします。

生成されたスクリプトの画像の位置にDistinctを追加します。

Distinctは重複しているデータをそれぞれ1回のみ読み込みするようにする指定です。

今回のサンプルデータでは取り込みが以下のように行われます。

重複している行は1回だけ読み込まれるため、データ モデル ビューワで確認するとDistinctをつけてロードした場合はとDistinctをつけない場合と比べて件数が異なっていることがわかります。

複数項目のテーブルを読み込む際のDistinct

では、複数の項目を読み込むLOAD文ではどうなるかを見てみましょう。

先ほどのLOAD文を次のように修正します。

データ ロード エディタでLOADに続くDistinctは読み込まれる項目全体が重複しているかをチェックするため、一部分のみが重複する行は省かれずに読み込みが行われます。

データ ロード エディタで使われるDistinctの解説は以上です。

次回の記事ではシートで使われるDistinctの説明をします。

QlikSenseを体験してみませんか?

アイウェイズコンサルティングでは毎月QlikSenseの無料ハンズオンセミナーを開催しています。 初めてQlikSenseをご利用される方を対象に、QlikSenseって何?ってところからQlikSenseと他のBIとの違いについてもわかりやすくご説明させて頂いております。