研究テーマ

機械学習の理論研究
  • オンライン学習
    我々は、行動及びそれに対する評価のフィードバックを受ける、ということを繰り返し、累積評価値が最大になる行動を選ぶように生きていると考えることができます(それだけではありませんが(^^;;))。このように過去の行動履歴とそれに対する損益を基に次の行動を決めることを繰り返し、累積利得の最大化(累積損失の最小化)を目的として行動の最適化を行う学習をオンライン学習と言います。ネットを介してユーザの行動を即座に知ることができる現在では、ユーザの行動に対し、システムが最適なサービスを提供するためにはこのオンライン学習の技術が欠かせません。得られる情報の制約や、最大(最小)化する目的関数など、現実の問題を定式化した異なる設定で性能保証のあるアルゴリズムの開発や、性能の限界について研究します。

    バンディット問題で遊ぼう!

  • 能動学習
    アキネイターというあなたが考えていることを当てる魔神がいるのをご存知でしょうか。アキネイターはいくつかあなたに質問をしてあなたの考えている有名な人物やキャラクターを少ない質問で当ててしまいます。何故アキネイターはあなたの考えていることを少ない質問で当てることができるのでしょうか。能動学習とは、少ない質問で当てるために、何を質問しなければならないかを追求する理論であるといえます。ある関数を学習するのに、機械学習ではある分布に従って発生したデータをもらって学習する枠組み(受動学習)が一般的ですが、能動学習はその時点で精度上げるために必要なデータを逐次的に取得するので、少ないデータでの学習が可能になります。昔から行われている実験計画法や、ベイズ推定を用いる方法、計算論的学習理論における質問学習などの研究があります。

プライバシー保護技術の研究(機械学習の理論&応用研究)
  • 差分プライバシー
    実世界から生成されるパーソナルデータは、データサイエンス時代の石油と言われています。プライバシーを保護しながらパーソナルデータをどう活用するかは、重要な研究課題となっています。差分プライバシー[1]は、プライバシー保護アルゴリズム設計のデファクト・スタンダードと考えられます。2006年の発表以来、差分プライバシーは、プライバシーを保護したデータ収集・共有、データベースシステム、機械学習など、様々な分野で応用されています。また、Google、Apple、Meta、US Census Bureauなどのハイテク企業や組織でも、パーソナルデータの収集や分析に差分プライバシが導入されています。私たちは、差分プライバシーに関する理論と応用の両面から研究を行なっています。最近の研究テーマは、差分プライバシーのシャッフルモデル[SIGMOD22]、複雑なデータ型(時空間、グラフ、画像、音声など)を管理・分析するための新しいプライバシー強化技術[ICDE17, TKDE19, BigData22]、差分プライベート機械学習[ICDE21]などがあります。

    [1]  Dwork, Cynthia, and Aaron Roth. “The algorithmic foundations of differential privacy.” Foundations and Trends® in Theoretical Computer Science 9.3–4 (2014): 211-407.

  • 連合学習とその応用
    連合学習[2]は、プライバシーを保護する新しい機械学習パラダイムとして、学術界や産業界で注目が高まっています。従来の機械学習では、学習前にデータを収集する必要がありましたが、連合学習では、中央のサーバのコーディネートのもと、クライアントが協調して分散的にモデルを学習できます。つまり、クライアントはモデルの更新情報(勾配など)をサーバと共有するだけで、すべての生データはローカルに保存されます。しかし、最近の研究は、モデルの更新情報もサーバに機密情報が漏れる可能性がある[2] Kairouz, Peter, et al. “Advances and open problems in federated learning.” Foundations and Trends® in Machine Learning 14.1–2 (2021): 1-210.ことが示されました。つまり、連合学習自体は厳密的なプライバシーを保証するものではない、ということです。我々の研究では、局所差分プライバシー[DASFAA20]、差分プライバシーのシャッフルモデル (Shuffle Model of Differential Privacy) [AAAI21]、Trusted Execution Environment (TEE) [arXiv23]を活用し、連携学習のプライバシ保護を強化する研究を取り組んでいます。また、時空間データ解析、音声データ処理、データマーケットなどへの連合学習の応用研究も行っています。

    [2] Kairouz, Peter, et al. “Advances and open problems in federated learning.” Foundations and Trends® in Machine Learning 14.1–2 (2021): 1-210.

  • データマーケット
    データ駆動型社会では、データは新たな資源となりました。個人または組織が生成したデータは、市場取引の原則を考慮した上で、収集、流通、分析、交換される必要があります。データマーケットは学際的で新しい研究分野です。この分野には未解決の問題が多くありますが、中でも重要なのは、データの価値をどのように判断するかということです [3]。我々は、ブロックチェーン[BlockDM19]、差分プライバシ[MDM20]、オークションメカニズム設計[BigData22]、シャプレー値[VLDB23]などの手法を用いて、この問題の解明に取り組んでいます。

    [3] Pei, Jian. “A survey on data pricing: from economics to data science.” IEEE Transactions on Knowledge and Data Engineering (2020).
機械学習の応用研究
  • Webマイニング
    インターネットの発達により、人の行動履歴やセンサー情報など、様々な情報がWebを介して瞬時に得られるようになってきました。それらの情報を学習し、その人に合った広告を出したり、商品を推薦したり、または不正検出をするなどの技術の開発が進んでいます。 そこで活躍する学習技術が、オンライン学習と能動学習です。オンライン学習を用いれば、逐次得られるデータを使って仮説を目的に合うように更新したり、変化する好みや傾向に対応するシステムを構築することが可能になります。また、推薦システムなどで新規ユーザに対するお勧め精度が悪い問題などでは、能動学習を用いて精度を上げることができます。Webシステムはユーザ数も多くなることから、高速なアルゴリズムの開発も重要になります。
  • ハードウェア設計への応用
    現在は空前の機械学習ブームで機械学習の需要が非常に大きくなっています。しかし、深層学習など、機械学習は多くの計算リソースを必要とするため、高性能なマシンを用意する必要があります。しかしそれではコストがかかり、また計算リソースが少ないエッジデバイスでは利用できません。専用ハードウェア化を行えば高速化は可能ですが、限られたハードウェア資源で動作するコンパクトな識別器や予測器を学習する技術や、制限されたハードウェアで実現できる学習器やアダプティブな予測器の開発が必要となってきています。東工大本村教授の率いるCRESTプロジェクトで研究を行なっています。
  • 生物・医療への応用

    オンライン学習問題であるバンディット問題の解法アルゴリズムを用いて、ラマン分光による癌診断を高速化する研究、パターンマイニングを用いてDNAシーケンスの反復配列を抽出する研究などを行なっています。

    ラマン分光はレーザを物質に照射することにより物質から散乱する光であり、分子構造の違いにより得られる光が異なるため、癌細胞と正常細胞をラマン分光から区別することが可能だと言われています。癌診断は細胞の形状から行われるものが多いですが、癌によっては甲状腺濾胞癌のように細胞の形状からの診断が難しいものもあります。そのような癌にはラマン分光による診断は有効と考えられていますが、ラマン分光は弱く計測に時間がかかり、一度に2次元的な計測を行うことが難しいため、1つの試料の測定に何度も位置を変えて測定しなければならず、計測に時間がかかります。そこで計測領域をグリットに分割し、がん細胞を含むグリットが存在するか否かを判定する問題をバンディット問題として定式化し解くことにより、より速い診断を可能にする研究を北大電子研小松崎教授の率いるCRESTプロジェクトで行なっています。

    ヒトのDNAシーケンスの半分は反復配列(タンデムリピートと散在反復配列)だと言われており、それらは生物の進化に関係していると言われています。反復配列の全容解明のために、事前知識を用いた方法などにより多くの反復配列が発見されデータベース化されてきました。本研究室では、文字列マイニングの技術を用いて反復配列の全抽出に取り組んでいます。反復配列を文字列パターンの出現とみなし、統計的に有意に出現する文字列パターンを全て求める方法を開発し、色々な方法で発見された既知の反復配列の87.5%を抽出することに成功しています。