Translate

2019年10月22日火曜日

◆Antutuベンチマークスコアのデータの前処理の方法:Excelのパワークエリを利用したデータハンドリング

 データの前処理、データハンドリングには、Excelの「パワークエリ」がとても役立ちます。「値の置換」「列の分割」など、よく行われる前処理がメニュー化されています。

 「パワークエリ」を利用すれば、Excelのシートで、関数を使ってデータを整えるようなことはほぼ不要になると思います。元のデータにさわることがないので、データを間違って消去したり、間違った値に書き換えたりすることもありません。

 もちろん、万能ではないので、Excelのシートでの処理が必要になる場合もあるかもしれませんが、多くの作業を「パワークエリ」で処理できると思います。

 例として、「Antutuベンチマークスコア」のデータの前処理を「パワークエリ」で行う方法をまとめました。

<データの入手:Webサイト上の表からデータを取り込む>
 パワークエリでは、各種データベースシステムなど、いろいろなデータソースからデータを取り込むことができます。「Webページ」からもデータを入手することができます。データのあるページのURLを記入するだけで、Webページの表からデータを取得できます。

 パワークエリの編集のメニューには、「データ前処理」「データハンドリング」のいろいろな機能があります。

 Excelの上の欄のメニューの「データ」をクリックし、表示されたメニューの左端にある「データの取得」をクリックし、「その他のデータソースから」、「Webから」を選びます。
 
 


 WebページのURLの入力欄が表示されるので、データのあるページのURLをコピペで入力します。




 Webページの要素が表示されます。表のデータを入手するので、「Table0」を選びます。すると、表のデータが表示されます。

 右下の「読み込み」をクリックすると、データがそのまま読み込まれます。
 「データの変換」をクリックすると、クエリの編集画面が起動します。


 「読み込み」ボタンをクリックし、とりあえずデータを読み込んでみます。

 これから、パワークエリを利用して、「Device」の列の機器名の前の数字を取り除きたいと思います。また、「RAM+Storage」の「RAM」と「Storage」を分割したいと思います。



 読み込んだデータテーブルのセルを選択すると、上の欄の「クエリ」メニューが選択できるようになります。

 「クエリ」をクリックしてから、表示されたメニューの左端にある「編集」をクリックすると、パワークエリの編集用画面が立ち上がります。

 パワークエリの編集用画面の右側にある「クエリの設定」のところに「処理のステップ」が記録されます。処理をやり直す場合は、やり直しをしたい「処理のステップ」を削除することで、簡単に処理前の状態に戻すことができます。
 


<機器名の前の数字を除く>
 処理対象の列「Device」の列の1行目のセル(列名のセル)を選択し、右クリックすると「列」対しての処理のメニューが表示されるので、「例から列を追加する...」を選びます。


 
 このメニューでの処理は、文字通り「例」を作成して、望む結果を得ようとするものです。この作業の裏側では、「例」の結果になるようにするための処理のコードが作成されています。

 例の「列」が右側に現れるので、1行目のセルをコピーし、「例の列」のセルに貼り付け、数字を削除した「例」を作成します。続いて、2行目の「例」を作成します。それから、10行目、11行目でも「例」を作成します。すると、すべての行で数字が削除され、望んでいた結果が得られました。「OK」ボタンをクリックすると、新しい列が追加されます。
 「例」の作成は、試行錯誤的に行う必要があったりしますが、数行の例を作成すればうまくいくと思います。

 あるいは、別の方法として、「列の分割」の「数字から数字以外による分割」のメニューで分割します。すると、「Device」の列は細分化されてしまいますが、「列のマージ」で必要な列を結合すれば、求める結果になります。

 


 望まない結果の列が作成されても、クエリの処理ステップを削除すれば、列の作成前の状態に戻すことができます。
 
<記号による列の分割>
 「RAM+Storage」の列を、「+」の記号によって分割します。

 「RAM+Storage」の列の1行目のセル(列名のセル)を選択して、右クリックで表示されるメニューの中の「列の分割」「区切り記号による分割」を選びます。「カスタム」を選び、「+」記号を入力して、「OK」とすると、「+」記号で列が分割されます。

 クエリの処理を終えたら、左端にある「閉じて読み込む」をクリックします。すると、クエリの処理を反映したデータを得ることができます。



 あとは、得られたデータをPower BIなどで読み込んで、グラフを作成したりすることができます。

【グラフの数字が間違っていたため、グラフを差し替えました。お詫びして訂正します。】




2019年10月10日木曜日

◆「R Markdown」で作成したページです:世界の平均気温偏差(℃)の時系列推移:グラフをたくさん作成してみました:地球温暖化を示すデータの一つです

worldtemprmd1.utf8

世界の平均気温偏差(℃)の推移

 気象庁のサイトに「世界の月平均気温偏差(℃)」というデータがあります。これは、各月の平均気温の、基準値との差を示すものです。基準値は「1981〜2010年の30年平均値(℃)」です。
 
 世界の2019年9月の月平均気温偏差(℃)は、「1981〜2010年の30年平均値」に対して「+0.45℃」で、過去2番目の値を記録しました。
 
 2019年の6月と7月は過去最高、8月は過去3番目でした。夏(6月~8月)というくくりでは、2019年の夏が過去最高の暑さということになっています。

 結局、世界的に今年の夏は暑かった、ということのようです。

 

 季節別に長期的に見ると、以前は、夏に比べて冬の、秋に比べて春の、平均気温偏差が低い傾向にあったようです。傾向線を見ると、冬や春の平均気温偏差の上昇角度がやや大きいようです。

 
 

 また、「冬」と「秋」、「冬」と「夏」の平均気温偏差の推移の相関はやや低くなっています。

 
世界の9月の月平均気温偏差(℃)の推移です。

----------------------------------------------------

---------------------------------------------------