- 招待ポスター
- 「難解な数値データを分かりやすく説明する言語生成技術の最前線と未来」 石垣 達也 氏(産総研人工知能研究センター)
- 「人間らしい対話とは:非言語情報生成のための基盤モデル」 井上 昂治 氏(京都大学)
- 「日本語事前学習向けベンチマーク」 今城 健太郎 氏(Preferred Networks)
- 「人文学と言語処理・知識処理」 大向 一輝 氏(東京大学)
- 「企業でつくる、大規模言語モデル」 清野 舜 氏(SB Intuitions)
- 「End-to-End音声基盤モデル」 小島 熙之 氏(Kotoba Technologies, Inc.)
- 「視覚と言語の対応ずれ問題とその解決に向けて」 品川 政太朗 氏(SB Intuitions)
- 「LLM時代の評価研究とその周辺」 菅原 朔 氏(国立情報学研究所)
- 「Mechanistic Interpretability: 大規模言語モデル時代における自然言語処理と認知科学の交差点」 高木 優 氏(国立情報学研究所/JST/大阪大学/情報通信研究機構)
- 「発話内容書き起こしを越えて音声と言語を結びつけたい」 高道 慎之介 氏(慶應義塾大学/東京大学)
- 「クラウドソーシングとAI文字認識を駆使した「くずし字」資料の大規模テキスト化」 橋本 雄太 氏(国立歴史民俗博物館)
- 「Can AI entertain us?」 山西 良典 氏(関西大学)
- 「形を通して意味を知る」 横井 祥 氏(東北大学/理化学研究所)
- 「人・ロボットの移動と大規模言語モデルの接点」 米谷 竜 氏(サイバーエージェント)
- 「人々の健康に資するソーシャルコンピューティング」 若宮 翔子 氏(奈良先端科学技術大学院大学)
招待ポスター
今年のテーマである「異分野交流」を促進するため,招待講演セッションを行います.自然言語処理分野だけでなく,音声・画像処理などの周辺分野や人文・社会学系の若手研究者や技術者複数名をお招きし,これまでの研究や展望についてポスター発表をしていただきます.
※講演者の追加などありましたら,改めて告知いたします.
「難解な数値データを分かりやすく説明する言語生成技術の最前線と未来」
石垣 達也 氏(産総研人工知能研究センター)
概要: 株価の値動きやセンサーデータ、ゲームのプレイデータなど、世の中の多くの事象は数値列として表現されています。しかし、このような数値列はそのままでは人間にとって理解が難しく、活用されずに蓄積され続けています。本講演ポスターでは、「難解な数値データを分かりやすい言葉で説明する言語生成技術」と題し、最新の大規模言語モデルがどのようにして複雑な数値データを扱うかについて解説します。特に、リアルタイムに数値データを理解し言語生成する手法を、レーシングゲーム(アセットコルサ)や格闘ゲーム (スマッシュブラザーズ)を対象としたゲーム実況生成の事例を通じて議論します。技術解説に加え、大学や企業の研究者とは異なる国立研究開発法人(国研)の研究者としてのキャリアについてもご紹介します。
略歴: 国立研究開発法人産業技術総合研究所人工知能研究センター研究員。2019年、東京工業大学にて博士号 (工学)。東京工業大学 未来産業技術研究所研究員を経て、2020年より現職で自然言語処理、特に数値データからの言語生成の研究に従事。言語処理学会論文誌編集委員 (2024-)・全国大会プログラム委員 (2023, 2024)、情報処理学会自然言語処理研究会運営委員 (2022-2024)、人工知能学会全国大会運営委員 (2024)、INLG2024現地議長。
「人間らしい対話とは:非言語情報生成のための基盤モデル」
井上 昂治 氏(京都大学)
概要: 大規模言語モデル(LLM)の発展により、人間と見間違えるほどの人工知能による対話が可能になりつつある。しかし、私たちの日常の対話と本当に同じだろうか?本発表では、対話を構成する要素のうち「非言語情報」に焦点をあて、これまで取り組んできたターンテイキング、相槌、笑いを予測および生成するシステムについて紹介する。さらに、これらを生成するための統一的な基盤モデルの実現についても議論し、「人間らしい対話とは何か」という本質的な問いに挑む。
略歴: 京都大学情報学研究科助教。2018年 同研究科 博士後期課程 研究指導認定退学。博士(情報学)。2023年 スウェーデン王立工科大学 客員研究員。同年 仏経済紙レゼコー等による「2022年 世界の発明トップ10」に選出。
「日本語事前学習向けベンチマーク」
今城 健太郎 氏(Preferred Networks)
概要: 大規模言語モデル(以下LLM)向けのベンチマークは、回答テンプレートの違いによって結果が大きく変化するため、事前学習モデルの能力を十分に引き出して評価することが難しい。また、選択肢問題を使ったベンチマークでは、特に小さいモデルや学習初期段階のモデルが選択肢問題を理解できないケースがあり、性能の比較が難しい。本研究では、日本語事前学習モデルをより良く評価する手法について検討する。
略歴: 2013年京都大学情報学研究科修士課程修了。在学中にAtCoder社を創業し、卒業後にグーグル株式会社に入社。2018年よりPreferred Networksにてエンジニア。現在は金融関連の研究開発や大規模言語モデルの研究開発に携わっている。
「人文学と言語処理・知識処理」
大向 一輝 氏(東京大学)
概要: 情報技術の役割は、人間や社会に役立つシステムを開発・提供することにありますが、その過程で対象の本質的な性質や特徴が浮き彫りになるという側面も持ち合わせています。一方、人文学は人間のコミュニケーションや文化の理解に重点を置いた学問体系であり、その取り組みの中で得られた知見や洞察がシステムの設計・普及のプロセスに貢献できる可能性があると考えています。本発表では、両者の学際的な研究事例を紹介するとともに、言語処理・知識処理技術と人文学がいかに相互補完し、相乗効果を生み出し得るかについて議論します。
略歴: 2005年総合研究大学院大学博士後期課程修了。博士(情報学)。同年国立情報学研究所助手、2007年同助教、2009年同准教授を経て、2019年より東京大学大学院人文社会系研究科准教授。人文情報学、ウェブ情報学、学術コミュニケーションの研究教育に従事。
「企業でつくる、大規模言語モデル」
清野 舜 氏(SB Intuitions)
概要: 現在、大規模言語モデルの研究開発には大学だけでなく、様々な企業が精力的に取り組んでいる。 本発表では、企業での大規模言語モデル開発の最前線から得られた知見を共有する。 特に、大学と企業における研究開発の本質的な違いについて、大規模言語モデル開発というテーマがもたらす影響について議論する。
略歴: 2022年 東北大学大学院にて博士号を取得(情報科学)。2019年より理化学研究所革新知能統合研究センターにて勤務したのち、 2022年にLINE株式会社 (現: LINEヤフー株式会社) に入社。2024年よりSB Intuitions株式会社に転籍。主に大規模言語モデルの研究開発に従事。
「End-to-End音声基盤モデル」
小島 熙之 氏(Kotoba Technologies, Inc.)
概要: End-to-Endの音声基盤モデルは、AIと人間のlow-latency/seamlessなコミュニケーションを実現する為に必要不可欠な物です。音声におけるこうした基盤技術の開発は、テキストにおけるLLMと比べて技術的な発展が遅れてきた背景がありました。今回の発表では、大量のGPU計算資源を投入してKotoba Technologiesが開発する音声基盤モデルに関して発表します。
略歴: Kotoba Technologies co-founder & CEO、Fugaku-LLM co-founder、コーネル大学CS PhD
「視覚と言語の対応ずれ問題とその解決に向けて」
品川 政太朗 氏(SB Intuitions)
概要: Vision and Languageは視覚と言語を紐づけることで問題解決を行う研究分野であり,Vision-Language Models (VLM)と呼ばれる深層学習モデル構築の方法論を発展させてきた.発表者がこの分野で特に面白いと考えているのが,視覚と言語がVLM内でずれて対応付けられるという点である.広くVLMが社会に浸透するためには,対話的相互作用の中でこの対応ずれをすり合わせられる機能が必要である.本発表では,その相互作用のデザインからVLMを考えることや,視覚と言語の紐づきを強化する方法論についての研究を紹介し,視覚と言語の対応ずれ問題の面白さをお伝えしたい.
略歴: 2013年東北大学工学部卒業.2015年同大学大学院情報科学研究科修士課程修了.2020年奈良先端科学技術大学院大学博士後期課程修了.博士(工学).2020年同大学助教を経て2024年よりSB Intuitions株式会社に所属.マルチモーダル基盤モデルの研究開発に従事.
「LLM時代の評価研究とその周辺」
菅原 朔 氏(国立情報学研究所)
概要: LLM は様々なタスクで目覚ましい性能を示していますが、その出力を正確に評価する・説明することは容易ではありません。とくに LLM が非常に賢く振る舞う状況においては、哲学や心理学といった人文科学的な視点も重要かもしれません。本発表では、評価方法・説明性の観点から発表者がこれまで取り組んできたデータセット分析やベンチマーク構築の試みを紹介しながら、今後のシステム評価の発展の方向性を分野横断的に考えてみます。
略歴: 国立情報学研究所コンテンツ科学研究系助教。2020年3月東京大学大学院情報理工学系研究科博士課程修了。2020年4月より現職。博士(情報理工学)。
「Mechanistic Interpretability: 大規模言語モデル時代における自然言語処理と認知科学の交差点」
高木 優 氏(国立情報学研究所/JST/大阪大学/情報通信研究機構)
概要: 自然言語は人間の脳から生まれています。私たちの研究室では、様々な知覚・認知体験下での脳活動予測モデル構築を通じて、人間の脳を理解することを目指しています。それと同時に、人間の脳活動を通じて、機械学習モデルが世界をどのように表現しているかを理解することも目指しています。本発表では、大規模言語モデル時代において、認知科学と自然言語処理がどのように融合しつつあるのかを紹介します。
略歴: 国立情報学研究所 大規模言語モデル研究開発センター 特任准教授 兼 JSTさきがけ研究者 兼 大阪大学大学院生命機能研究科招へい准教授 兼 NICT 特別研究員 。2018年奈良先端科学技術大学院大学情報科学研究科博士課程修了(ATR連携講座、基幹講座:松本裕治研究室)。2018年から2020年までオックスフォード大学客員研究員 (うち1年間は東京大学医学部附属病院特任研究員を兼務)。2020年から2021年までJSPS海外特別研究員(スタンフォード大学)兼 東京大学大学院人文社会研究科特任研究員。2021年から2023年まで大阪大学大学院生命機能研究科助教。2024年より現職。機械学習と認知神経科学の融合研究に従事。
「発話内容書き起こしを越えて音声と言語を結びつけたい」
高道 慎之介 氏(慶應義塾大学/東京大学)
概要: 音声を自然言語で説明する有名な技術は音声認識(発話内容書き起こし)である.しかしながら,昨今のLLMの進化を鑑みれば,もっと多くの音声情報を自然言語で記述できるはずである.本講演では,どんな情報を記述できそうか,音声だからこその問題は何かについて,著者の研究を踏まえ整理する.
略歴: 2011年に長岡技術科学大学を卒業.2013年・2016年それぞれに奈良先端科学技術大学院大学 博士前期・後期課程を修了.2024年より慶應義塾大学 准教授(現職).博士(工学).音声合成変換,音声信号処理の研究に従事.
「クラウドソーシングとAI文字認識を駆使した「くずし字」資料の大規模テキスト化」
橋本 雄太 氏(国立歴史民俗博物館)
概要: 日本国内には江戸時代以前から伝来する20億点以上の文字資料が保存されていると推測されているが、その大部分は現代人に読解困難な「くずし字」で筆記されており、デジタルテキストとして利用可能な資料はごく僅かに過ぎない。そこで人文情報学やDigital Humanitiesと呼ばれる分野では、クラウドソーシングやAI文字認識などの情報学的手法を駆使してこれら文字資料をテキスト化する試みが進められてきた。本発表では、8,000人以上の参加者を集め3,600万字の資料のテキスト化を実現した「みんなで翻刻」(https://honkoku.org/)プロジェクトを中心に、「くずし字」テキスト化研究の現況を紹介する。
略歴: 国立歴史民俗博物館研究部准教授。2013年京都大学大学院文学研究科情報・史料学専修博士後期課程編入。2017年より国立歴史民俗博物館テニュアトラック助教。2023年より現職。
「Can AI entertain us?」
山西 良典 氏(関西大学)
概要: AI技術によって様々な知的課題が解決されてきており,知性の秘密は解き明かされつつある.では,我々はどのようなエンタテインメントコンテンツを「おもしろい」「たのしい」と感じるのだろうか?2024年夏時点では,「感性の秘密」は未だ明かされていない部分が多い.エンタテインメントへの直感的な評価には,多くの暗黙的な認知や処理が潜んでいるものと考えられる.エンタテインメントが人を「楽しませる」メカニズムを解明できれば,エンタテインメントのおもしろさの向上のみならず,様々な知的活動すらも楽しくするエッセンスを加えることが可能になるかもしれない.本発表では,エンタテインメントへの計算機科学的アプローチを紹介する.
略歴: 2012年名古屋工業大学大学院工学研究科情報工学専攻修了.博士(工学).同年より立命館大学情報理工学部にて,助手,特任助教,助教,講師.この間,University of Brtish Columbia(カナダ)にて客員助教.2020年,関西大学総合情報学部准教授.2024年より,同教授,現在に至る.2023年よりIFIP TC14日本代表.音楽,漫画,ゲーム,飲食などの文化や芸術コンテンツを対象とした計算機科学研究を専門とし,漫画家や声優,ゲーム企業との産学芸連携にも多く取り組む.
「形を通して意味を知る」
横井 祥 氏(東北大学/理化学研究所)
概要: モデルの形を通して言葉の意味を知るための一連の研究を紹介します。深層学習以後の自然言語処理の顕著な特徴のひとつは、生コーパスを用いた自己教師あり学習というアプローチにあります。このやり方が成功を収めた以上、「意味」がデータに統計的にある程度埋め込まれているであろうこと、そしてこの情報が損失関数を通してモデルに転写されているであろうことは認めざるを得ません。最近の自然言語処理のもうひとつの特徴は、言語の持つ離散性を隠蔽してこれらを連続的に扱うというパラダイムにあります。こちらは副次効果として、モデルに対する幾何的な手続きを一気に容易にしました。いまのモデルは長さや広がりといった直感的なを見方を受け入れてくれるということです。以上を踏まえると、意味↔︎データ↔︎モデルをできるだけ精確に繋ぎ合わせることで「形を通して意味を知る」ことができる、そういう面白い時代が突如到来したと言えます。こんな気持ちで取り組んでいる各種研究をご紹介します。
略歴: 東北大学大学院情報科学研究科助教.2020年東北大学大学院情報科学研究科博士課程修了,のち現職.理化学研究所AIPセンター客員研究員兼任.自然言語処理・機械学習に関する研究,特に自然言語の埋込表現に関する研究に従事.
「人・ロボットの移動と大規模言語モデルの接点」
米谷 竜 氏(サイバーエージェント)
概要: 人物やモバイルロボットの移動経路に関する研究において大規模言語モデルを活用する取り組みを紹介する。最初の事例では、オペレータの言語指示を反映した環境のコストマップを予測することで、指示に即したロボットの移動経路を生成するアルゴリズムについて述べる(言語→経路)。別の事例では、買い物客の移動経路を手掛かりに、購買の背後にある意図や選考を文章化して説明する技術を紹介する(経路→言語)。両技術の基盤となる人物行動計測やロボット経路計画技術についても簡単に解説する。
略歴: 2013年 京都大学 博士後期課程 修了。2014-2018年 東京大学生産技術研究所 助教、2019-2023年 オムロンサイニックエックス シニアリサーチャー/PIを経て、2023年よりサイバーエージェント AI Lab リサーチサイエンティスト。2024年より慶應義塾大学 特任准教授。
「人々の健康に資するソーシャルコンピューティング」
若宮 翔子 氏(奈良先端科学技術大学院大学)
概要: ソーシャルメディアやスマートフォンの発達により,場所と連動した人々が発信する様々なデータが利用可能である.本発表では,主にウェブ,ソーシャルメディアやクラウドソーシングを通して得られるデータを活用し,健康増進やウェルビーイングに貢献するためのナビゲーションや可視化に関する研究を中心に紹介する.また,これらのデータを活用する上での課題や,現在進行中のプロジェクトについても紹介する.
略歴: 2013年兵庫県立大学大学院環境人間学研究科博士後期課程修了.博士(環境人間学).京都産業大学コンピュータ理工学部研究員,奈良先端科学技術大学院大学研究推進機構博士研究員,同特任助教を経て,2020年4月より同大学先端科学技術研究科准教授.ソーシャルコンピューティングや自然言語処理の医療応用に関する研究に従事.