■更新履歴
- 2021/08/17: YANS2021 ハッカソン - リーダーボードを公開しましたnew!
- 2021/08/13: 参加者向けにハッカソン内容の説明を追加しました
- 2021/06/30: ハッカソン参加募集ページを公開しました
■概要
特定の評価メトリックを用いたコンペ形式の競争になります. 公開システムは, 森羅 SHINRA – Wikipedia 構造化プロジェクト で活用される予定であり,日本語における知識ベースの構築に貢献することができます.
■タスク
各チームには,Wikipedia記事から各カテゴリに設定された属性の値を抽出するタスクに挑戦してもらいます.例えば,以下のように「シャネル」というタイトルのWikipedia記事の中から,事前に定義された属性(正式名称,設立年,本拠地国など)に対応する値を抽出します.(詳細はスライドを参照)
■配布データ
データ概要
理研AIP言語情報技術アクセスチームが提供する森羅2020JP-5(森羅2020-JP: 日本語構造化タスク – 森羅 SHINRA)の中で,「市町区村名」と「企業名」の2カテゴリを対象とします. 学習データを用いて期間中に開発を行っていただき,テストデータを用いて最終的な評価結果を決定します.提供データは以下からなります.
- ターゲットデータ:属性値の抽出対象ページ(JP-5内の全ページ)
- 学習データ:モデルの学習と開発に使用してください(正解は公開です)
- 最終評価用データ:最終的な順位づけを行うためのテストデータです(対象データと正解は非公開です)
- リーダーボード用評価データ:リーダーボード上での評価を行うためのテストデータです
データの入手方法
[ターゲットデータ] ハッカソン開始時にSlackにてご連絡します
[リーダーボード用評価データ] ハッカソン開始時にSlackにてご連絡します
■評価方法
評価指標
最終評価データの2カテゴリにおけるFスコアの平均値とします. GitHub - k141303/shinra_jp_scorer: 森羅2020タスク用のスコアラーを用いてシステムを評価できます.
リーダーボード(https://yans2021hackathon.pythonanywhere.com/)
リアルタイムにモデルのスコアを測定できるリーダーボードを用意しています.リーダーボード用の評価データを参加者に期間中のみ公開します.システムの出力結果を提出し,運営委員がスコア計算用スクリプトで評価します.なお,参加者が最後に提出した出力結果のスコアが掲載されます.リーダーボードに掲載されるスコアおよび順位は,あくまでも最終順位の目安です.
最終評価
ターゲットデータデータ全てに対するシステム出力を提出してください.提出された出力結果の中から,委員側で最終評価データを選定し,スコア計算用スクリプトによって評価し,最終的な順位とします.
ベースラインシステム
- BERT に基づく手法 GitHub - ujiuji1259/shinra-attribute-extraction
- 森羅2019システム
■シンポジウムでの成果発表
開発されたシステムの概要や手法の特徴、評価結果の分析等を,シンポジウムにて発表(1チーム3分程度)していただきます.
■提出方法
フォーマット
出力結果のフォーマットは,森羅2020-JP: データフォーマット – 森羅 SHINRAにしたがってください.学習データと森羅2019のシステム出力と同じ形式になります.2カテゴリ分のJSONファイル一式を一つのディレクトリに格納し、zipファイルとして提出してください.実行結果のファイル名はCity.jsonとCompany.jsonとして下さい.参加グループ名が分かるフォルダをzip形式で圧縮したものをご提出ください.
提出先
リーダーボード評価:YANS2021 ハッカソン - リーダーボード
最終評価:後日アナウンスします
■ハッカソンの手順まとめ
ハッカソンの手順は以下の通りです.
- 配布データをダウンロードしてください
- 学習データを使って属性値抽出システムを開発してください
- リーダボードを使用する場合は,リーダーボード用評価データ全てに対する出力結果を提出し,スコアを確認してください
- ターゲットデータ全てに対するシステム出力を、8/30(月)15時までに所定フォーマットにしたがって提出してください
- 最終評価データ部分の評価結果を返却します
- 開発されたシステムの概要や手法の特徴、評価結果の分析等を,シンポジウムにて発表(1チーム3分程度)して下さい
■ルール
- 利用可能なデータは、一般に無償公開されているデータのみとします
- 他チームが再現可能かを基準にして判断してください
- 独自に作成したデータであっても,無償公開すれば利用可能です
- 人手でのテストデータに対する解答を禁止します
- 計算リソースは参加者側で用意してください
- チーム内のコミュニケーションツールとしてYANS2021のslackを提供します
- それ以外のツールの使用については各チームに任せます
■重要日程
- 参加申し込み期間:
2021/07/01(木) 00:00 〜 2021/07/21(水) 15:00 - コンペ用データ募集期間:
2021/07/01(木) 00:00 〜 2021/07/21(水) 15:00 - ガイダンス(Slackにて投稿):
2021/08/16(月) 00:00 - コンペ開催期間:2021/08/16(月) 18:00 〜 2021/08/29(日) 21:00
- ターゲットデータ全てに対するシステム出力結果の提出:2021/8/27(金)9:00〜2021/8/30(月)15:00
- 発表スライドの提出:〜2021/8/30(月)21:00
- 成果報告会:2021/08/31(火)シンポジウム2日目
参加者募集(参加者・データ提供ともに募集は終了しました)
ハッカソン内容
特定の評価メトリックを用いたコンペ形式の競争になります。 コンペで使用するデータセットについては,参加フォームより募集を行います。 このため、コンペのデータとタスクについては後日告知させて頂きます。(公開時期は8/13(金)を予定しております) 以下ハッカソン詳細について目を通した上で,参加申し込みをお願いいたします。 ※成果物や提供されたデータに関する著作権等を守るため、ハッカソン開催前に参加者全員に同意書の提出をお願いする予定です.
参加形式
3人1組のチーム制です. ハッカソン参加希望者に後ほど配布するアンケートにて,「NLP経験年数」,「Kaggle等コンペ経験年数」,「プログラミング経験年数」などをお聞きし,チームのスキルレベルが偏らないように運営側でチームの編成を行います. またチーム内の所属が被らないように調整も行います. 場合により,一部4人チームを編成します. チーム編成の発表は8/13(金)を予定しております.
参加条件
計算資源は運営側で用意できないため,計算資源を用意できる方のみの参加とさせていただきます. 学生,社会人問わず奮ってご参加ください. シンポジウム2日目の8/31(火)にチームでの取り組みを1チーム3分程度で発表頂く予定です.
データ募集
本コンペで使用するデータを募集します. データの著作権,知財等は当該素材の提供元である企業に帰属する旨を,参加同意書にて参加者に提出していただきます. なお,データ提供希望者と運営委員で複数回の打ち合わせを予定しておりますので,ご了承の上,データ提供希望を申請してください.