Translate

2020年4月26日日曜日

◆​グーグルのデータポータルのダッシュボードの地図グラフで、国コード、州コードから国名、州名を表示させる方法

​グーグルのデータポータルのダッシュボードの地図グラフ(コロプレス地図・塗分け地図)で、国コードや州コードの表示を国名や州名の表示に変更できる「TOCOUNTRY」「TOREGION」の関数を利用してみました。

ECDCのデータを利用したダッシュボードでは、国別コードで国別の塗り分け地図グラフを作成していましたが、マウスオーバーした際の表示は国名ではなく国コードになっていました。

「TOCOUNTRY」の関数を利用すれば、国名を表示できるようになるというので、試してみました。

ダッシュボードで、「TOCOUNTRY(国コード)」の関数によって新しいフィールドを作成して、そのフィールドの属性を国コードに設定します。そして、そのフィールドを地図グラフの地域ディメンションに設定することで、マウスオーバーした際に国名を表示させることができるようになりました。

Examples
Formula Input Output
TOCOUNTRY(Country Code) PE Peru
TOCOUNTRY(Region ID, 'REGION_ISO_CODE') US-CA United States

同様に、ジョンズ・ホプキンス大学のデータを利用したダッシュボードの地図グラフでは、アメリカの州別の塗り分け地図で、州別コードが表示されていました。

「TOREGION(州コード)」の関数で、新しいフィールドを作成し、その属性を地域コードに設定します。そのフィールドを州別塗り分け地図グラフの地域ディメンションに設定すると、地図グラフで州名表示にすることができました。

Examples
Formula Input Output
TOREGION(Region ID, 'REGION_ISO_CODE') US-CA California

また、ジョンズ・ホプキンス大学のデータを利用したダッシュボードの地図グラフで、緯度・経度情報による郡別のデータを表示する地図グラフでは、「CONCAT(緯度・経度, "(",郡名, ")")」の関数で新しいフィールドを作成し、その属性を緯度・経度に設定します。そのフィールドを地図グラフの地域ディメンションに設定すると、地図グラフで郡名を表示することができました。

データポータルには、色々と、知らない機能があるので、少しずつダッシュボードを改善していきたいと思います。

 
------------------------------------------------------------------------------
-------------------------------------------------------------------

--------------------------------------------------------------------

2020年4月25日土曜日

◆データの自動更新などに役立つ「arrayformula()関数」:データが増えても自動対応なので便利です

新型コロナウイルスの感染確認者数などのデータを扱う、ダッシュボード「データポータル」の元データを、グーグルのスプレッドシートで管理していますが、日々データが更新、追加される場合には「arrayformula()関数」の機能が便利です。

仕組みとしては、「データポータル用データシート」から「更新用のデータシート」にあるデータを参照しています。更新用のデータは、「R」でダウンロードから前処理まで済ませてCSVファイルとして保存したデータをスプレッドシートに読み込んでいます。

データポータルでは、元データの更新がうまくいかないと、エラーになるので、直接更新データを「データポータル用データのシート」に書き込まないようにしています。

そこで、「更新用のデータシート」に更新データを書き込んで、「データポータル用データシート」から参照しています。

データが日々追加される(データの行が増える)場合には、その都度、セル参照の数式を追加していく必要があります。

当初、更新のたびに、セル参照をコピペやオートフィル操作で追加していたのですが、さすがに面倒なので、「arrayformula()関数」を利用することにしました。

例えば、「データポータル用データシート」のA列から、「更新用のデータシート」の「Conf」のA列のデータを参照する場合は、「データポータル用データシート」のA2のセルに「=arrayformula(INDIRECT("Conf"&"!A2:A"))」という式を入れるだけです。A2以下にデータが読み込まれます。なお、A1のセルは「変数名(フィールド名)」で、固定のものです。

B列の場合は、「=arrayformula(INDIRECT("Conf"&"!B2:B"))」となります。この関数を使えば、各変数(列)の1行目だけにこのような関数式を入れるだけで済みます。

緯度、経度を「,」でつなげる場合は次のような式です。
E列とF列のデータを「,」でつなげる場合は、下記の式をG列(他の列でも同じ)の1行目入力します。「=arrayformula($E$2:$E&","&$F$2:$F)」

そして、「更新用のデータシート」のデータの行数が増えても、自動的に「データポータル用データシート」に反映されます。



 
------------------------------------------------------------------------------
-------------------------------------------------------------------

--------------------------------------------------------------------

2020年4月16日木曜日

◆【新型コロナ】感染確認者数、死亡者数について、ECDCのデータを利用したダッシュボードです

COVID-19 Novel Coronavirus Transition Graphs DashBoard Doubling Time Chart ECDCのデータを利用したダッシュボードです。
※20201216 ECDCが12月14日のデータを最後に毎日のデータ更新を終了しました。今後は週報になるそうです。このダッシュボードも更新を終了しました。
----------------------------------------------------------------------------------------

---------------------------------------------------
-
データポータルのダッシュボードです。 

すでに、ジョンズ・ホプキンス大学のデータを利用したダッシュボードを作成していますが、データのエラーが生じることがあるので、複数のデータソースがあった方がいいと思い、「プランB」として作成しました。国別のグラフなどが利用できます。

New:実効再生産数(Rt)の推定値のページを追加しています。70日分以上の感染確認者数のデータがある国について計算しています。プルダウンメニューで国ごとに表示できます。

 

【不具合など】
20200429 4月28日のスペインのデータが欠損しているようです。明日の更新を待ってみます。南ヨーロッパの感染確認者数が前日から20万人減少していたので気づきました。
20200430 4月29日のスペインのデータが欠損しています。スペインの28日のデータはあります。サイトの概要速報ページの上では、スペインの29日のデータは、28日と同じになっています。ECDCのデータに何かエラーが生じているようです。応急処置として、29日のスペインの新規数のデータを「0」とした1行を追加しました。
20200501 4月30日のスペインのデータが欠損しているので、スペインの0のデータを追加しています。遡って確認すると、4月26日付のデータからスペインの最新日付のデータが欠損しています。スペインについて、データの収集方法が変更になったということなのかもしれません。→ECDCに問い合わせたところ、返信がありました。「スペインでの報告の不一致と遅れは、専門家によっても指摘されており、現在、症例数の正確な報告を確実にする過程にあります。」ということで、今後変わる可能性もあるかもしれません。ECDCのデータは、日々の新規の数のデータなので、スペインのデータの収集が1日遅れの場合、「0」とはせずに、最新の日付については欠損にしているのではないかと思われます。
20200502 5月1日のデータには、スペインの同日付データも含まれていました。問題が解決したようです。ただし、4月30日のスペインのデータが欠損していたので、その欠損値に対して、感染確認者数、死亡者数とも0のデータを代入しています。
その後も、最新の日付のデータが欠損していたり、数日前のデータが欠損したり、一日分のデータが欠損している状態が続いています。
20200513 csv形式のデータが更新されず、更新されていたExcel形式データをダウンロードして処理しましたが、csv用の処理のままでは不具合がありました。今は解消されていると思います。なお、スペインのデータは今も最新の日付のデータが欠損しています。
20200525 イギリスの、最新の日付のデータが欠損しています。
20201216 ECDCが毎日のデータ更新を終了しました。今後は週報になるそうです。


◆【新型コロナ】ECDCのデータから国別の実効再生産数を計算するRのコード例です

↓ジョンズ・ホプキンス大学のデータを利用したダッシュボードはこちらです。



​​--------------------------------------------------------------------------

当ブログのリンクはご自由にどうぞ。もし、楽天市場で何か買い物をされる場合は、下記のバナーなどをクリックしてから、買い物をしていただけると、試作ダッシュボードの運営を支援していただくことになります。当ブログはアクセス数が多くないので、AdSenseなどの対象外です。楽天アフィリエイトだけが運営の足しになっています。】




------------------------------------------------------------------


-------------------------------------------------------------------------------


【更新しました】新型コロナウイルス感染者総数の推移グラフ:Day level information on 2019-nCoV affected cases:死亡者数の増加ペースがSARSの場合よりかなり速いのが気がかりです - One of my favorite things is ...:楽天ブログ



----------------------------------------------------------------------------------------

---------------------------------------------------
-


  ----------------------------------------------------------------------------------------

◆日本のインフルエンザ:「定点当たり報告数」データのまとめのダッシュボード : Influenza in Japan DashBoard:「都道府県別」のページを追加しました

2020年4月12日日曜日

◆インフルエンザの定点当たり報告数:2020年第14週は0.15で、前年、前週を下回る

インフルエンザの定点観測データ(定点当たり報告数の推移):2020年第14週(3月30日~4月5日)まで

国立感染症研究所のホームページに、インフルエンザの流行についての週ごとのデータがあります。毎年、第36週(8月末~9月初旬)から翌年の第35週までの1年間が「インフルエンザシーズン」とされていて、「2019-2020年シーズン」は、2019年9月2日から2020年8月30日までです。

国立感染症研究所のホームページから週ごとの「インフルエンザの定点当たり報告数」のデータをダウンロードして、グラフを作成しています。

「インフルエンザの定点当たり報告数」は、2020年の第14週(3月30日~4月5日)では0.15で、前週の0.27から減少しました。

 第14週は、前年比10.27%、前週比55.56%となっています。

下のグラフは、第14週(3月30日~4月5日)のものです。         

year W01 W02 W03 W04 W05 W06 W07 W08 W09 W10 W11 W12 W13 W14 W15
2015年 21.5 33.3 37.0 39.4 29.1 19.0 12.2 8.3 5.9 4.3 4.0 3.8 2.6 2.1 1.6
2016年 2.0 4.1 10.6 22.6 34.7 40.0 37.2 36.1 35.4 28.2 21.1 13.8 11.2 7.0 5.1
2017年 10.6 15.2 28.7 39.4 38.1 28.6 23.9 16.9 13.6 11.1 10.3 7.7 6.8 5.1 4.0
2018年 16.3 26.4 51.9 52.4 54.3 45.4 29.6 22.6 17.4 12.1 8.7 5.3 3.4 2.0 1.7
2019年 16.3 38.5 53.9 57.1 43.2 26.3 12.5 9.0 5.9 4.1 2.9 2.5 1.7 1.5 1.7
2020年 13.9 18.3 16.7 18.0 14.1 9.0 7.5 6.1 4.8 3.1 1.3 0.5 0.3 0.2 NA

2018年、2019年の1月、2月ごろは報告数が多かったようです。2009年からグラフ化すると、線が多くて見づらいため、2015年からのデータのグラフも作成しています。

36週からのデータに絞り、スケールを変えたグラフも作成しています。「定点当たり報告数」は、2020年の第14週(3月30日~4月5日)では0.15で、前週の0.27から減少しています。18年シーズン、17年シーズンを下回る水準になっています。

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.