産学官連携により、一流講師陣・データを確保。
社会が抱える“生”の課題発見・解決型PBLを提供。
公立大学として国内初となるデータサイエンス学部を開設した「横浜市立大学」を中心に、
国内初の官民データ活用推進基本条例を制定した「横浜市」、首都経済圏に集積する「民間企業」が三位一体となり、
これからの産業や地域・自治体のイノベーション創出を担うデータサイエンティストの育成を推進します。
社会・行政・企業の“現場”と同じ状況(データ・プロセス・課題)を創り上げることで、
座学に終始しがちなプログラムとは一線を画した、
現場で独り立ちし、活躍できるデータサイエンティストを養成します。
産学官連携により、一流講師陣・データを確保。
社会が抱える“生”の課題発見・解決型PBLを提供。
理系的要素(アナリティクス・高度な理論等)と
文系的要素(現場の理解・ビジネス力等)の融合。
5年で約200人の高度データサイエンティスト、
約800人のデータエキスパート、計1000人を養成。
横展開を前提に置いたパッケージ化とともに、
シンポジウム等を通じて広く広報・周知。
データサイエンスに必要なプロセスを一連かつ網羅的に体験・習得:自立した人材の輩出
YOKOHAMA D-STEPは、社会・行政・企業でのイノベーション創出を担うデータサイエンティスト育成を推進するプログラムです。受講生が持つ知識やスキルを基に、データサイエンスに必要な一連のプロセス(課題発見・データ分析・提案)を網羅的に体験・学習することで、それぞれの場で活躍できる力を養うことを目指しております。
本記事は、YOKOHAMA D-STEPで講義をしている、坂巻顕太郎(司会)、田栗正隆、小泉和之の3名が、データサイエンスが社会でどう活かされているか、データサイエンスをどう学習すべきか、データサイエンスの今後や期待、の3つの話題に関してざっくばらんに話し合い、その一部をまとめたものです。
記事をご覧いただき、YOKOHAMA D-STEPの取り組みにご興味をお持ちになられた方、各コースへのご応募をお待ちしております。
横浜市立大学データサイエンス学部教授。東京大学医学部卒、同大学院にて博士号取得(保健学)。専門は生物統計学(医療統計学)、疫学・予防医学。医療技術、医薬品開発などに貢献する数々の研究を行っている。
横浜市立大学データサイエンス学部准教授。東京理科大学助教、横浜市立大学国際総合科学部物質科学コース助教を経て、現職。漸近論を中心とした理論統計学を専門としているが、様々な分野における統計学・機械学習などの応用研究なども積極的に行っており、スポーツデータ解析の分野などでも活動している。博士(理学)。
横浜市立大学データサイエンス推進センター特任准教授。東京大学医学部卒、同大学院にて博士号取得(保健学)。専門は生物統計学(医療統計学)、疫学、予防医学。臨床試験のデザインや解析など、医療分野における統計手法の研究やその応用を行っている。
データサイエンスを学習する際、統計学や情報科学をはじめとする関連分野の理論的側面、医療やビジネスなどへの適用に重要なドメイン知識(適用する領域の知識)といった応用的側面、それぞれを意識することが重要だと私は思います。
まずは、応用、特にデータサイエンスが社会でどのように応用されているか、をそれぞれの専門や興味などを踏まえて教えてください。
私はこれまで医療分野で研究を進めてきました。薬剤や手術などの医療技術の開発においてはデータに基づいて効果を評価することが必須とされており、医学研究では統計学が重要な役割を果たしています。
私が扱っているテーマはスポーツ分野が多いです。映像技術などの発展に伴い、これまでは取れなかったデータが各スポーツで取れるようになり、データ分析を用いて成功する事例が数多く出てきています。例えば、メジャーリーグのパイレーツの20年ぶりの躍進などが有名です。野球のみならず、様々なスポーツでデータサイエンスの重要性が高まってきていると思います。
医学研究やスポーツ分野で用いられるデータサイエンスの手法はどのようなものか、その他の分野で応用可能なものかを教えていただけますでしょうか。
横浜市をはじめとする自治体や企業との連携も行っていますが、私がこれまで研究してきた因果関係を明らかにするための方法論(統計的因果推論)などは、医療以外の分野でも有用で、ニーズがあると実感しています。最近は、適切なデータに基づいて政策を実施し、その効果を検証するプロセスであるEBPM(Evidence based policy making)を国や自治体が取り入れるようになっていますが、この考え方の原型となったのは医療分野で以前から用いられているEBM(Evidence based medicine)です。分野や目的に沿った適切な修正は必要であるものの、汎用的な方法論が構築できるのはデータサイエンスの強みであると考えています。
日本ではまだすべてのスポーツでデータサイエンスが浸透しているわけではありません。ただ、少しずつその機運は高まってきていると感じます。スポーツ分野におけるデータサイエンスは、勝利を目標とするという視点での応用が目立ちますが、マーケティング課題などその他の課題も数多く抱えており、そこでもデータサイエンスが必要とされています。他分野で用いられている手法の応用も可能だと思いますが、課題に応じた手法が必要になると思います。
社会一般におけるデータサイエンスに対する興味はいかがでしょうか。現在、新型コロナウィルスの蔓延に伴って、データに基づいた議論への興味が社会全体で広がっているように私は感じます。重要なことはいくつもあると思いますが、例えば、感染者数などのデータの要約、将来の感染者数の予測、政策・治療薬の評価など、データを用いる目的は様々で、それらが異なることを意識して議論してほしいと考えます。
現在(2020年6月)の社会状況を踏まえて、データサイエンスの応用を考える際の注意点としてどのようなことが重要とお二人はお考えでしょうか。
新型コロナウィルスに関連した話題でいえば、日本をはじめとしたアジア諸国における死亡率の低さを説明する仮説として、BCG接種の効果があるのではないかと言われています。現在のところ、その根拠となるデータは主として国・地域単位のBCG接種状況と死亡率の関連を示したデータに過ぎません。疫学では、地域単位のデータの比較に基づく研究を地域相関研究とよんでいますが、地域相関研究で因果関係を証明することは難しいことがよく知られており、結果を過大解釈するのは危険です。しかしながら、こういった検討結果からBCGワクチンの接種歴がない世代の方々でBCG接種を希望する声が高まり、日本ワクチン学会が「仮説の真偽は科学的に確認されたものではなく、接種は推奨されない」という見解を示すに至りました。この件は、データサイエンスを専門としない一般の方々と専門家のサイエンスコミュニケーションの難しさを認識させるものだったと言えます。専門家は自身の検討結果の限界点も含めて、できるだけ誤解されないように市民に伝えていく責務があると考えます。
「目的」を意識することは大事だと私も思います。新型コロナウィルスの話題に限らないのですが、難しい解析方法や流行りの手法などを学ぶと適用してみたくなります。それは分析者の「若さ」がでているのかもしれないですが、「それ目的に合っている?」とツッコみたくなる場面はあります。目的に応じて適切な分析手法をしっかり考え、様々な分析を試してみると、意外と古くから使われている手法の方が最終的にはよかったということもよくあります。
他には扱っている変数の型への意識も重要だと思います。大体、統計学の入門的な本だと最初に変数の分類などが書いてありますよね。変数の型はずっと意識することなのだろうと思います。
ハーバード大学のMiguel Hernán教授らは、データサイエンスの目的は記述、予測、因果推論の3つに大別されると述べています(ref: Hernán, M. A., Hsu, J. and Healy, B. (2019). A second chance to get causal inference right: a classification of data science tasks. Chance, 32(1), 42-49.)。分野間の違いで言うと、医療分野では現象の説明や因果関係を明らかにすることがより重要視されるのに対し、ビジネス分野ではより精度の高い予測が求められる傾向があると感じます。いずれにしても、分析の目的に沿ったデータを取得し、結果は問題の文脈の中で限界点も含めて適切に解釈される必要があります。
応用に関する議論を踏まえると、いくつかの問題点が浮き彫りになります。例えば、目的に沿ったデータ分析をするためには、目的が適切かどうか、データの質が高いかどうか、分析手法が適切かどうか、そして分析結果を適切に解釈して応用に繋げているかどうか、といったことを考えないといけません。
私自身は、D-STEPのe-leaningで提供している「データ分析基礎」で、データに潜むバイアス(知りたいことを歪める要因)や分析目的の違い(予測と因果)などに触れ、目的からデータ分析を考えるような講義をしています。
実際には理論的、応用的側面からデータサイエンスを学習する必要があると思いますが、e-leaningで「応用線形代数」、「統計学基礎」の講義をされているお二人は、どのような観点で講義をされていますでしょうか。もしくは、どのような観点でデータサイエンスを学習するのが良いとお考えでしょうか。
これはさっきよりも深い部分ですね。私の担当している「統計学基礎」では、「記述統計」の部分から「推定」「検定」などの統計学全般の考え方を理解できるように意識しています。データの扱い方や分析の妥当性などの根幹の理解に繋がることを考えれば、統計学に限らず、データサイエンス全般での知識向上に役立つからです。
教育に関しては、理論と応用のバランスが重要だと考えています。パソコンと無料のソフトウェアがあれば、すぐに手元のデータを分析できる時代であり、データ分析は以前と比べるとかなり気軽に行えるようになっています。しかしながら、実際にデータサイエンティストとして世の中で活躍していくためには、単にソフトウェアを使えるだけではなく、背後にある統計学やデータ分析の理論をきちんと抑えておくことが重要です。
少し詳細に触れると、リメディアルとしては難しいかもしれないと思いましたが、一致性、不偏性、最尤性なども「推定」では触れました。この背景には、パラメータ推定の問題は現在も山積みなので、ある視点では推定の妥当性をしっかりと数学で評価できるということをわかってほしいということがあります。理論的な理解を深めることで、現在も積み残っている問題を解決できるような人が出てくることも期待したいです。検定では、一部の基本的な部分しか触れていませんが、基礎的な部分の理解が出来れば、そこから知識を増やしていくことはそれほど難しいことではないと思います。
理論的な理解でいうと、データサイエンスにおける分析技術は日進月歩であるため、必要に応じて最新の研究論文を読み解き、それを実装する能力が求められるということがあります。そのためには微積分と線形代数に代表される最低限の数学が必須になります。そういった基本的な素養を身に着けるための科目として「応用線形代数」は設定されています。回帰分析の当てはめに用いられる最小二乗法の説明など、データサイエンスの応用を意識した内容となっています。
少し話を戻すと、現在は、様々なRパッケージやPythonライブラリなどがあり、理論的背景を理解していなくてもデータ分析ができるような状況だと思います。プログラミングを勉強することはデータサイエンスを実践するうえで重要だと思いますが、その際に注意すべきことは何でしょうか。
パッケージは大変便利です。しかし、先ほどもお話したように、用いた分析手法の理論的背景をある程度は理解できていないと、誤った判断を導きかねないと考えます。例えば、新型コロナウィルスの問題もそうかもしれません。それぞれの分析手法には適した目的と前提となる数学的な仮定、経験的に知られている性質などがありますから、データサイエンスの専門家としてはそれらをきちんと抑えた上で、目の前のデータへの適用可能性を判断することが重要です。D-STEPのプログラムでいうと、A・Bコース(データサイエンティスト育成コース)で提供している講義科目やPBL(Project Based Learning)から、こういった判断力をある程度は身につけることができると思います。
一方で、理論だけから理解していける人というのは少ないですし、理論だけで終わっても面白くないかなと思います。分析をやってみたいという人のハードルが下がるという意味ではパッケージの充実はありがたいですね。私の講義では、パッケージを使って実行しながら理論の理解を深めたり、応用面での注意点を学んだりという形式をとっています。
ただ、多くのデータサイエンスの現場の方々が感じていると思うのですが、パッケージで終わらないで欲しいというのはあります。つまり、プログラミングそのものも勉強してほしいということです。その理由としては、パッケージの型にはまった解析だけではうまくいかないことが実際には多いからです。分野にもよるとは思いますが。
データは生き物で、似ているようにみえても異なる特徴を持ちます。それがわかってくると、細かい部分で「この手法のここをいじってみたい」などの欲求が出てくるはずです。そういうとき、パッケージだけしか使えない人は弱いと思います。分析手法の中身と、どうやればそれを実行できるか(アルゴリズム)がわかっていて、実装する能力もあれば、解析の自由度は上がります。最後のそれがプログラミングというわけです。
そういった意味では、データサイエンティストを志す学部上級生や大学院生には、一度データサイエンスの方法論に関する研究に取り組んでみていただきたいと考えています。方法論の研究を行う過程では、既存手法の理論的背景を深く理解することが必須ですし、新規手法に関してはパッケージがありませんので、自らプログラムを書いて実装する必要も出てきます。そういった過程を例え限られた分野ででも一通り経験していれば、その後のパッケージ使用時にも誤った判断をしてしまう可能性がかなり減らせます。小泉先生のご指摘の通り、自分でゼロからプログラムを組んでアルゴリズムを実装してみるのも、とても良い学びの機会になると思います。
最後の話題になりますが、単なるバズワードとして“データサイエンス”が扱われないよう、データサイエンスが社会に根づくようにするためには、どのようにすればよいでしょうか。例えば、データサイエンティストやデータエンジニアといった専門家以外の方にもデータサイエンスの重要性を理解して頂くことが考えられると思います。D-STEPでは、データエキスパート育成コース(Cコース)という短期セミナーを提供し、データサイエンスの普及に努めています。一方で、専門性を高め、目的に合う分析手法の開発などをしていかなければいけないという側面もあると思います。お二人が考えるデータサイエンスの今後、データサイエンスのへの期待を教えてください。
この座談会のテーマの流れ、とてもいいですね(笑)。データサイエンスの中身は結構難しいですよね。知らない人からしたら暗号のように思えるのではないかというくらい。しっかりと定着していくためには、現在がとても重要な場面だと思います。世の中に浸透していくためには時間と労力が必要で、現在は、小中高では統計学が必修となり、ほとんどの大学ではデータサイエンスのリテラシー教育をするという動きが出てきています。こういった教育現場での変化というのは大事だと思います。
確かに、ここ数年でデータサイエンスの注目度や取り巻く状況は大きく変わってきていると感じています。データサイエンスの目的は、一言で言うと、データに基づく問題解決にあると考えており、基本的なデータリテラシーは「現代の読み・書き・そろばん」として定着して欲しいと考えています。その意味では、中高でプログラミング教育が行われるようになったり、高校の情報科目にデータサイエンスが入ってきたり、大学教育でも文部科学省が主導する数理・データサイエンス教育強化拠点コンソーシアムにおいて全ての大学・高専生を対象にしたリテラシーレベルのモデルカリキュラムが発表されることになったりと、情報・データサイエンス教育が普及していく方向性が打ち出されていることは、私もとても望ましいことだと思います。
一方で、実際の現場にも、データサイエンスの重要性を伝えていかなくてはいけません。その際に注意しなくてはいけないのが「わかりやすくかつ誤った情報を伝えないこと」だと思います。これが非常に難しいですね。一番わかりやすいのは結果を出すことですが、結果を出すためには実際に試してみなくてはならない。このハードルは結構高いとよく聞きますが、今、行政や産業界ではとりあえずやってみよう!という機運があるので、これを機に試してみて、成功例をたくさん作っていくというのは大事かなと思います。
伝えるということでいうと、官公庁や企業からの期待も強く感じているところですが、データサイエンスでできること・できないことが正しく理解されていないと思うこともあります。共同研究などのプロジェクトを進めていく上では、ドメイン知識を持った現場の担当者とデータサイエンスの専門家の相互理解が重要です。自治体・企業向けに実施しているデータエキスパート育成コースに多くの方に参加していただきたいと考えています。
もう一点、データに基づく問題解決というデータサイエンスの目的を推進していくためには、現実の問題に根差したトップレベルの理論・方法論研究も、目前の問題や将来的な同種の問題への直接的な解決策の提示、データサイエンスという学問自体の将来の可能性を広げるという観点から非常に重要です。我々研究者が成功事例を示していくことによって、トップレベルの研究の価値についても理解する動きが世の中に広がって欲しいと考えています。
そういった意味では、役割分担がうまくできていると思います。D-STEPはデータサイエンスの学びの入り口です。短期のデータエキスパート育成コース(Cコース)は、非専門家がデータサイエンスの活用方法やデータサイエンティストの活躍の場を理解するためのものです。一方で、通年のデータサイエンティスト育成コース(A・Bコース)は、実際にデータサイエンスを現場で応用するための学びの場です。データサイエンス研究科は、D-STEPより高度な教育や研究の役割を担っていると思います。データの重要性がなくなることはないと思いますので、是非、多くの方にこれらを受講いただきたいと思います。我々もデータサイエンスの発展に寄与できるよう頑張っていければと思います。
田栗先生、小泉先生、ありがとうございました。
2020年度のテーマは「A市における市民税の滞納未回収額の減少」である。グループワークを通じた実践的な形で問題解決の一連のプロセスを学習し、問題解決における他者との協働を身に着けるだけでなく、質的なインタビュー調査や量的なアンケート調査、マテリアル作成などを経験し、プレゼンテーションを含めた問題解決に必要な能力の素地を総合的に養う。
協力企業である横浜DeNAベイスターズと資生堂ジャパンのもつビジネス課題を扱い、リサーチデザインの設計から基本的な統計モデリング手法技術、さらに発展的な高次元データの取り扱い手法や機械学習手法を習得する。また、プレゼンテーション技術についても学び、協力企業のリアルな課題解決の手助けとなるような提案までできる総合的な能力を身に着けることを目標とする。