■更新履歴
- 2022/08/09: ハッカソン参加者向けアナウンス,およびハッカソンの内容の説明を追加しました
- 2022/06/30: ハッカソン参加募集ページを公開しました
■重要日程
コンペ用データ募集期間:2022/07/01(木) 00:00 〜 2022/07/21(木) 15:00- 参加申し込み期間:2022/07/15(金) 00:00 〜 2022/08/15(月) 15:00
- ガイダンス(Slackにて投稿に加え,Zoomにて実施):2022/08/16(火) 13:00 ~ 14:00
- コンペ開催期間:2022/08/16(火) 14:00 〜 2022/08/28(日) 17:00
- Amazon SageMaker Studio Labのアカウント登録 (リファラルコードの期限あり):2022/08/16(火) 13:00 ~ 2022/08/17(水) 13:00
- リーダーボードセットの出力結果を少なくとも1回リーダーボードに提出:〜2022/08/21(日) 12:00
- 最終評価セットの出力結果の提出:〜2022/08/28(日) 12:00
- 発表スライドとソースコードの提出:〜2022/8/28(日) 17:00
- 成果報告会:2022/08/30(火)シンポジウム2日目のクロージング
■ハッカソン参加者向けアナウンス
参加同意書
シンポジウム申し込み時に「ハッカソンに参加する」と回答していただいた方に向けて,登録されたメールアドレスに参加同意書を送信いたします. ガイダンスまでにご提出ください. ご提出いただいた方から,ガイダンス以降,チームを発表しますので,できるだけ早くご提出いただけると幸いです. 提出方法はメールをご確認ください.
ガイダンスまでに参加同意書のメールが届いていない方は,お手数ですが yans2022committee (at) googlegroups.com までご連絡ください.
ガイダンス
ハッカソンを開催するにあたり,ガイダンスを2022/08/16(火)の13:00から実施します. ハッカソンに参加する方は,ぜひご参加ください. また,今回のハッカソンでは,計算機環境としてAmazon SageMaker Studio Labを利用します. アカウントを即時発行するリファラルコードの説明やチュートリアルの実施もあるので,ぜひご参加ください. (後日,録画したものを共有予定)
- ハッカソンの内容の解説 (15分程度)
- Amazon SageMaker Studio Labのチュートリアル (15分程度)
■ガイダンス時に使用する説明スライド
■概要
ハッカソンスポンサーとしてアマゾンウェブサービスジャパン合同会社様に協力していただき,ECサイトAmazonのレビューデータを用いた特定の評価指標によるコンペティションを開催します. 1チームあたり4名程度で,優秀なチームには表彰があります.
- 最終評価セットにてスコアの高かったチームへの表彰
- システムの実装と発表内容に基づいたハッカソンスポンサーからの表彰
- アマゾンウェブサービスジャパン合同会社様から「Applied Scientist賞」
- アプローチの新規性: 既存の手法を拡張、応用することで新規・創造性のある手法で解決しているか
- 実装の実現性: 現実の問題に適用可能な効率的かつスケールする実装を行えているか
- 背景知識の豊富さ: 先進的な原理と手法を理解し利用できているか
- アマゾンウェブサービスジャパン合同会社様から「Applied Scientist賞」
■タスク
各チームには,Amazon商品レビューの商品ごとの「役に立つ投票数」のランキングタスクに取り組んでもらいます. 有用なレビューの予測に貢献でき,レビューをサイトに表示する際の手がかりになります.
■配布データ
Amazon Customer Review Datasetを利用します.提供データは以下のようになっています.(データ数などはスライドに記載)
- 学習セット:システム開発に利用するための「役に立つ投票数」を含むレビューデータ
- リーダーボードセット:リーダーボードに途中結果を表示するための「役に立つ投票数」を含まないレビューデータ
- 最終評価セット:最終順位を決定するための「役に立つ投票数」を含まないレビューデータ
データの入手方法
- 学習セットとリーダーボードセット:8/16 (火) のガイダンス時に,入手方法をご連絡します.
- 最終評価セット:8/26 (金) に配布予定です.入手方法は後日ご連絡します.
■評価方法
評価指標
最終評価セットのk=5のNormalized Discounted Cumulative Gain (NDCG@5) になります.(詳細はスライドに記載)
リーダーボード(後日URLを公開)
リアルタイムにモデルのスコアを測定できるリーダーボードを用意しています.リーダーボードセットにおけるシステムの出力結果を提出し,運営委員がスコア計算用スクリプトで評価します.なお,参加者が最後に提出した出力結果のスコアが掲載されます.リーダーボードに掲載されるスコアおよび順位は,あくまでも最終順位の目安です.
最終評価
最終評価セットの全てに対するシステム出力を提出してください.提出された出力結果の中から,委員側で最終評価データを選定し,スコア計算用スクリプトによって評価し,最終的な順位とします.
ベースラインシステム
- BERTに基づく手法 (GitHub - Kosuke-Yamada/yans2022-hackathon-baseline: YANS 2022 Hackathon Baseline System)
■シンポジウムでの成果発表
開発されたシステムの概要や手法の特徴、評価結果の分析等を,シンポジウムにて発表(1チーム3分程度)していただきます. 成果発表会はシンポジウム2日目のクロージングにて開催を予定しています.
■提出方法
フォーマット
出力結果のフォーマットは,ベースラインシステムのREADME.md (https://github.com/Kosuke-Yamada/yans2022-hackathon-baseline) にしたがってください.JSONファイル一式を一つのディレクトリに格納し、zipファイルとして提出してください.実行結果のファイル名は,リーダーボードではsubmit_leader_board.jsonl,最終結果ではsubmit_final_result.jsonlとして下さい.参加グループ名が分かるフォルダをzip形式で圧縮したものをご提出ください.
提出先
リーダーボード評価:ハッカソン開始時にアナウンスします
最終評価:後日アナウンスします
■ハッカソンの手順まとめ
ハッカソンの手順は以下の通りです.
- 配布データをダウンロード
- 学習セットを利用して,ランキングシステムを開発
- リーダーボードに,リーダーボードセットの全ての商品に対する出力結果を提出してスコアを確認
- 最終評価セットの全ての商品に対する出力結果を提出
- システムのソースコードと,開発したシステムの概要や評価結果の分析結果をスライドにまとめて提出
- シンポジウムにて作成したスライドを基に発表
■ルール
- 参加希望者を運営側で,1チームあたり4名程度で振り分けます
- アンケートに回答いただき,参加者の経験をもとにチームの振り分けます
- 一般に無償公開されているデータのみ使用してください
- 他チームが再現できるかを基準に判断してください
- 独自に作成したデータであっても,無償公開すれば利用可能です
- 人力での解答は禁止とします
- Amazonレビューデータセットは利用しないでください
- Amazon Review Customer DatasetやHuggingFaceのamazon_review_multiなどが公開されていますが本データセットと関連するため,使用しないでください
- Amazonのサイトのクロールもしないでください
- 計算機環境として,原則,Amazon SageMaker Studio Labを使用し,その範囲内で動くシステムにしてください (詳細はガイダンスにて)
- チーム内のコミュニケーションツールとしてYANS2022のslackを提供します
- それ以外のツールの使用については各チームに任せます
参加者募集 (データ提供は終了しましたが,参加者は引き続き募集しています)
■概要
特定の評価メトリックを用いたコンペ形式の競争になります.
コンペテーマ及びデータにつきましては,外部組織から募集いたします.
データ提供に協力いただいた組織につきましては,ハッカソンスポンサーとしてHPに記載させていただきます.
加えて,YANS第17回シンポジウム(2022)の3名の無料参加枠,及びシンポジウムの2日目(8/30火)に「企業の宣伝」と「テーマ説明」をする時間として5分の発表枠を提供いたします.
■コンペテーマ応募方法
コンペテーマの募集期間は終了しました
募集の締め切りは2022/07/21(木) 15:00です.
ご不明な点があれば,お気軽に yans2022committee (at) googlegroups.com までご連絡ください.
■参加者募集
参加申込は,以下の「事前参加登録システム」よりお申込みください.
NLP若手の会(YANS)第17回シンポジウム 事前参加登録システム passmarket.yahoo.co.jp