Python ヘルスケアAppの歩数をSQLite3にぶち込んでみる
概要
夏が終わるーー
多くの人は、冷房の効いた部屋で食べて寝ている内に夏が終わりを告げたと思います。iPhoneユーザはヘルスケアAppに歩数が記録されているので、Jupyter Notebookで2018年8月分を確認してみましょう。
ヘルスケアAppデータ取得
みんな大好きiPhoneのヘルスケアAppを起動します。
ヘルスケアデータのタブを開いて右上の人のアイコンからプロフィール画面を開くと下の方に「ヘルスケアデータを書き出す」があります。
書き出したzipファイルをメールなりクラウドなり、何らかの方法でPC側へデータを持ってきてJupyter Notebookのディレクトリに置きましょう。私はSlack経由でPCまで持ってきました。
XMLをパースする
zipを解凍すると書き出したデータ.xml
が入っています。
属性がHKQuantityTypeIdentifierStepCount
の部分が歩数っぽいので早速パースします。
<HealthData locale="ja_JP"> <ExportDate value="2018-09-01 00:12:08 +0900"/> <Me HKCharacteristicTypeIdentifierDateOfBirth="" HKCharacteristicTypeIdentifierBiologicalSex="HKBiologicalSexNotSet" HKCharacteristicTypeIdentifierBloodType="HKBloodTypeNotSet" HKCharacteristicTypeIdentifierFitzpatrickSkinType="HKFitzpatrickSkinTypeNotSet"/> <Record type="HKQuantityTypeIdentifierStepCount" sourceName="Soil の iPhone" unit="count" creationDate="2015-09-22 15:07:16 +0900" startDate="2015-09-22 13:52:25 +0900" endDate="2015-09-22 13:55:38 +0900" value="102"/> …
いくつかの属性をnamedtupleで定義しておきます。
import collections Step = collections.namedtuple('Step', ['creation_date', 'start_date', 'end_date', 'value'])
属性はroot.findall(".//Record[@type='HKQuantityTypeIdentifierStepCount']")
こんな感じで指定して抜き出す。
ぐるぐる回しながらnamedtupleでリストに追加していきます。この時、日付はタイムゾーンを指定しておく。
import xml.etree.ElementTree as ET from datetime import datetime tree = ET.parse('書き出したデータ.xml') root = tree.getroot() step_list = [] es = root.findall(".//Record[@type='HKQuantityTypeIdentifierStepCount']") for e in es: creation_date_str = e.get('creationDate') creation_date = datetime.strptime(creation_date_str, '%Y-%m-%d %H:%M:%S %z') start_date_str = e.get('startDate') start_date = datetime.strptime(start_date_str, '%Y-%m-%d %H:%M:%S %z') end_date_str = e.get('endDate') end_date = datetime.strptime(end_date_str, '%Y-%m-%d %H:%M:%S %z') value = e.get('value') step = Step(creation_date, start_date, end_date, value) step_list.append(step) print(len(step_list))
SQLite3に登録
インメモリデータベースにテーブルを作って、データを登録します。キーとしてID列を定義しAuto incrementとしました。そこから2018年8月の歩数を日付ごとに出力してみましょう。
import sqlite3 from contextlib import closing from_dt = '2018-08-01' to_dt = '2018-08-31' with closing(sqlite3.connect(':memory:')) as conn: c = conn.cursor() create_table_sql = '''CREATE TABLE steps (id integer primary key autoincrement, creation_date text, start_date text, end_date text, value integer)''' c.execute(create_table_sql) fields = ','.join(map(str, Step._fields)) insert_sql = '''insert into steps ({}) values (?, ?, ?, ?)'''.format(fields) c.executemany(insert_sql, step_list) summary_sql = """select date(creation_date,'localtime'),sum(value) from steps where date(creation_date,'localtime') >= '{}' and date(creation_date,'localtime') <= '{}' group by date(creation_date,'localtime')""".format(from_dt,to_dt) c.execute(summary_sql) result = c.fetchall() print(result)
SQLiteには日付型はないらしく、日付時刻は文字列として登録されるとのこと。date関数はUTCとなってしまい、合計値が合わなくてハマりました。
date関数の引数にlocaltime
を渡すことで解決☆
グラフ化
データベースから取得した結果から歩数だけを抜き出しておきます。
step_count = [] for data in result: step_count.append(data[1]) print(step_count)
あとはmatplotlib.pyplot
にすべてお任せ。グラフ化してもらいましょう。
plt.plot(step_count)
のように単一のリストを指定するとy値のシーケンスとみなしてx値を自動で生成してくれますが、0から始まってしまいます。
x値は日付として1始まりにしておく必要がありますね。
%matplotlib inline import matplotlib.pyplot as plt x = range(1,(len(step_count) + 1)) plt.plot(x, step_count) plt.title('Aug 2018') plt.xlabel('Day') plt.ylabel('Step count') plt.show()
運動不足を露呈見える化することが出来ました。ぺろぺろ