ワークショッププログラム
戻る
8月6日(月)
13:30-13:40
ワークショップ開会
13:40-14:05
『現代日本語書き言葉均衡コーパス』に対する読文時間・視線情報アノテーションに向けて [pdf]
浅原正幸, 狩野芳伸, 小野創, 植田禎子
本研究では『現代日本語書き言葉均衡コーパス』に対する読文時間・視線情報アノテーションについて検討する。適切に言語の生産実態をサンプリングしたコーパス母集団に対して、実験言語学の手法に基づき再利用性のある言語の受容過程の研究のための言語資源の構築を行う。
14:05-14:30
医療分野における言語処理研究の環境整備に向けての提案 [pdf]
森田瑞樹, 荒牧英治
医療分野における言語処理研究は重要性および必要性が増しているにも関わらず,我が国では研究者の数がきわめて少なく,このままでは技術開発が追いつかないという事態も起こりうる。筆者らはこの主な原因の1つは研究に利用できるコーパスが不足していることだと考え,こうした現状を打開するために,研究者が入手できるアノテーション済みコーパスを整備し,さらにそのコーパスを利用したシェアドタスクを開催することを提案する。
14:30-14:50
―休憩(20分)―
14:50-15:15
学術論文検索の高度化のための論文アブストラクトのアノテーション [pdf]
冨浦洋一, 石田栄美
学術論文の検索サイト等で,論文を「課題」「目的」「実現法」などの多様な観点から検索できれば非常に便利である.このようなシステムの構築に向けて,英語で書かれた学術論文のアブストラクトに対して,「課題」「目的」「実現法」などの各文の役割を付与したコーパスを構築する.このコーパスは,アブストラクトの各文の役割を自動推定するシステムの作成のための学習データおよび評価データに用いる予定である.
15:15-15:40
アノテーション作業者の内省を顕在化するためのデータ収集 [pdf]
飯田龍, 徳永健伸
アノテーション作業において作業者がどのようなことを考えて作業を行っているかという内省を顕在化するために,作業者の作業結果とともに視線や行為の履歴を収集する非明示的なデータ収集法と,2人の作業者が対話的に作業を進めることで作業者の内省を自然に引き出す明示的なデータ収集法を提案する.また,それぞれの収集法で獲得した作業者の情報を利用し,作業者の客観的な質の評価などの応用について議論する.
15:40-16:05
日本語ゼロ照応関係に対する特徴分類とそのアノテーション [pdf]
飯田龍, 笹野遼平
本研究では,日本語書き言葉文章中に出現する多様なゼロ照応関係の特徴を人手で分類し,その分類に基づいてコーパス中のゼロ照応関係にアノテーションを行うことで,そもそもどのようなゼロ照応関係がどの程度出現し,それぞれがどのくらい解析が難しく,個別に解析できる見込みはあるかなどを検討する.
16:05-16:25
―休憩(20分)―
16:25-16:50
モダリティ論の意味構造に基づく議題設定とヘゲモニー形成の言説分析―国会の会議録と新聞記事に対する出来事・心的態度・社会的属性のアノテーション [pdf]
小橋洋平, 木島讓次
本プロジェクトでは,政治エリートや大衆が社会問題を議題設定し,社会的文脈との分節=節合を経て,ヘゲモニーを形成する過程の言説分析を目的としたアノテーションを実施する。2011年度の国会の会議録と新聞の全国紙を対象とし,①モダリティ論に基づく命題と心的態度の意味構造,②議題の分類,③発話者の属性を付与したコーパスを作成し,議題設定やヘゲモニーの形成に伴い文章・談話に生じる語彙,文法上の傾向を明らかにする。
16:50-17:15
テキストアノテーションを用いた料理レシピの検索 [pdf]
安川美智子
料理レシピには料理名、素材名、調理動作の類義語、多義語、表記揺れが含まれることから、検索の際に、検索クエリと料理レシピ中の文字列の間で不一致が生じるという問題がある。この問題を解決するため、料理レシピに含まれる任意の文字列に対するアノテーション付与の方法を提案する。また、スマートフォンを用いて料理レシピの検索を行う際に、簡単なタップ操作でアノテーション付与を行うアノテーション支援ツールを開発する。
17:15-17:40
科学史研究のための歴史的科学文献3カ国語対訳コーパスの作成 [pdf]
岡本里夏, 神門典子, 八木江里
本課題では19世紀の物理学における歴史的科学文献対訳コーパスの整備を行う。コーパスは独英日対訳で言語情報・科学史研究の参照情報・OCR処理時のノイズ情報をアノテートする。歴史的文献検索にはOCRエラー等の多くの課題がある。当コーパスの整備は歴史的科学文献を科学史研究環境として提供可能にする意義がある。これにより19世紀の物理学専門用語の変遷の研究進捗や、ノイズの多い文献の検索精度向上が期待される。
17:40-18:00
―休憩・移動(20分)―
18:00-20:00
意見交換会
8月7日(火)
10:00-10:25
MCNコーパス:モダリティ関連表現の曖昧性解消のためのアノテーションと言 語学的テストの利用 [pdf]
川添愛, 田中リベカ, 戸次大介
文の表現する中心的な命題の事実性、信頼性、話者の態度その他の情報を表すモダリティ関連表現(モダリティ表現、否定表現、条件表現等)の意味を記述したリソースを作ることは、深い意味処理のために重要である。しかし、そのような表現の多くは多様な意味・用法を持つため、曖昧性の解消が必要となる。本論文では、言語学的なテストにより実テキスト上でこれらの表現の曖昧性を解消し、語義を特定したコーパス(MCNコーパス)の概要と、そこで用いる意味アノテーションの方法論について述べる。
10:25-10:50
用例ベースアノテーションによる日本語助詞「で」コーパ スの作成 [pdf]
植松すみれ, 花岡洋輝, 増田勝也, 美馬秀樹
日本語の詳細な解析には助詞の役割弁別が不可欠である。助詞「で」の用法アノテーションコーパスを整備することで、既存リソースとあわせて高度な統語意味解析への条件が整うと考えられる。コーパス作成にはそのコストを下げるため、似た用法の例を選択することでアノテーションを行う用例ベースアノテーション手法を採用する。アノテータに対する専門知識の要求を緩和しながら正確性を確保するための注意点と共に説明する。
10:50-11:10
―休憩(20分)―
11:10-11:35
レシピテキストと調理映像からの実世界理解に向けて [pdf]
森信介, 舩冨卓哉
言語の基本的な機能として、実世界の事象の記述がある。これまで、自然言語解析として解析結果とテストコーパスの正解との比較が行われてきた。しかし、このような取り組みがコンピューターによる言語の理解に本当に向かっているのか甚だ疑問である。本発表では、調理手順指示文書(レシピ)を対象とし、各言語表現が映像中の何を指示しているかを推定するシステムの構築に向けた取り組みを紹介する。
11:35-12:00
構造化議事録のリライトに基づくテキストアノテーション [pdf]
長尾確, 竹島亮, 棚瀬達央,大平茂輝,松原茂樹
映像・音声・テキスト・イメージ等から成る会議記録のテキスト部分を意味構造化するためのアノテーションを収集する。それによって、会議記録に関するさまざまな応用のために有効な言語データが得られる。これまでの成果で、発言間の表層的な依存関係が得られているが、発言間の意味関係については手がかりが得られていない。そのため、発言内容のテキストをリライトすることで、発言間の意味関係を発見する手がかりとなるメタデータを取得する。
12:00-13:30
―昼食(90分)-
13:30-13:55
会議内容に対する構造化アノテーションとその評価 [pdf]
長尾確, 竹島亮, 棚瀬達央,大平茂輝,松原茂樹
我々は,長期間に渡って,人間同士の知識交換の場である会議の内容に関する,映像・音声・テキスト・イメージを詳細に記録し,さらに議論構造などのメタデータを獲得することで,再利用可能な会議コンテンツを作成する技術に関する研究・開発を行っている.本研究では,提案手法によって獲得されたメタデータの妥当性を検証するための評価を行い,有効な結果が得られたので,報告する.
13:55-14:20
日本語学習者の作文における誤用タグつきコーパスの構築について-NAIST誤用コーパスの開発- [pdf]
大山浩美, 小町守, 松本裕治
第二言語習得としての日本語学習者(JSL)の会話や作文を集めた学習者コーパスを利用して第二言語学習者の研究に役立てようという動きが有る。それらのコーパスには誤用文が含まれ、誤用の抽出、タグつけという作業が必要となる。国立国語研究所の「日本語学習者による日本語作文とその母語との対訳データベース(作文対訳DB)」に誤用タグを付与した。その誤用タグアノテーションの設計、方法論、タグつけの問題点について発表する。
14:20-14:45
述語概念をベースとした抽象名詞を含む文の意味構造アノテーション [pdf]
竹内孔一, 上野真幸
述語の分析から事態に対する書き換え操作(観測可能な状態変化)だけでなく,目的(「洗濯物を干す」ならば,「乾かすこと」),可能世界,義務世界といった主観との組み合わせで整理できる.そこで述語をベースに含意認識で必要な抽象名詞の意味構造を記述したテキストを作成する(例えば「雨の-峠/山-を超えた」や「XはYの作品」などを対象).
14:45-15:05
―休憩(20分)―
15:05-15:30
Keyaki Treebank: phrase structure with functional information for Japanese[pdf]
Alastair Butler, Zhu Hong, Tomoko Hotta, Ruriko Otomo, Kei Yoshimoto, Zhen Zhou
This paper describes our project of building a Treebank for Japanese following the Annotation manual for the Penn Historical Corpora and the PCEEC (Santorini 2010) with adaptations appropriate for Japanese. We have as a key goal the ambition to build a syntactic base able to support automatically deriving meaning representations for formal semantics research on a corpus linguistics scale.
15:30-15:55
人文学資料へのアノテーション~Text Encoding Initiativeの挑戦 [pdf]
永崎研宣
人文学資料へのアノテーションに関しては、1987年より、Text Encoding Initiative ( http://www.tei-c.org/ )による包括的なガイドラインが作成され、今なお改訂が続けられている。ガイドラインでは、対象となる資料の種類と研究手法の種類によって様々なアノテーションの仕方が提起されており、どちらか、あるいは両方が増えるたびに改訂されてきた。国際的にはデファクトスタンダードの地位を得ているにも関わらず日本ではまだあまり知られていない。そこで、本発表では、このガイドラインとそれにまつわる国内外の動向に関する紹介を行う。
15:55-16:20
学習者のテキストアノテーションによるアカデミックライティング支援 [pdf]
鈴木聡, 鈴木 宏昭
アノテーションは,アカデミックライティングのスキル獲得が大学教育の大きな課題のひとつとなっている現代においてきわめて重要性が高い.アノテーションという行為がテキストに対する学習者の能動的な働きかけと主張の形成を促すからである.我々はこの考え方に基づき文献読解によるライティング学習支援システムを開発・運用している.本発表ではこれに関する報告,およびアノテーション研究における今後の展望の議論を行う.
16:20-16:50
総括・ワークショップ閉会
戻る