CSRDA:データクリーニング

データクリーニング

個票データは、原始的には、調査票の回答内容を数字に置き換えた文字列に過ぎません。ただの文字列だけでは、そのデータをどう扱ってよいかわかりません。

そこでSSJDAは、ただの文字列に対して、調査票の質問事項や選択肢の構成に基づき日本語を付加することで、データが解釈できるように標準フォームへ変換を行います。SSJDAでは、このための一連の作業を総称してデータクリーニングと呼んでいます。

具体的な処理

SSJDAが行うデータクリーニングは、統計処理パッケージソフト（SPSS）を用いることで、具体的には以下の処理を行います。

変数の命名: 変数名、変数ラベル、値ラベルを付与します。
無回答・非該当の識別: 個票データの値が「空白」の場合、それが「無回答」なのか、「非該当」なのか、SSJDAはそれを判断して値を与える場合があります。
ここで「無回答」とは、回答すべき質問に回答者が回答していない場合の回答欄の状態を表します。
一方、「非該当」とは、以前の回答内容により質問を分岐させる指示が調査票に明示されていることにより、一部回答者にとっては回答する必要のない（回答できない）質問の回答欄の状態を表します。
多重回答変数の処理: 質問の形が、該当する選択肢を複数選ぶ多重回答（MA：multiple answer）の場合、専用のコーディングを行う場合があります。
単純集計の検証: 質問の単純集計が報告書等に掲載されている場合、個票データを実際に単純集計した結果と合致するかどうか検証します。
このとき、変数に規定外の値がないかどうかも（選択肢番号の範囲を超える数字など）、チェックします(オフコードチェック)。
ただし、報告書等に単純集計の掲載がない場合、単純集計の検証は行いません。
秘匿処理: プライバシー、企業秘密にかかわる情報を保護するために、データを数値だけの形にする、調査地域を粗く束ねる、など必要な措置を講じて、個々の回答者を識別することが不可能な形式に変換します。