Fourth SIGHAN Workshop on Chinese Language Processing



Similar documents
Identifying Prepositional Phrases in Chinese Patent Texts with. Rule-based and CRF Methods

The multilayer sentiment analysis model based on Random forest Wei Liu1, Jie Zhang2

Program 2014 Tsinghua-Sanya Workshop on Big Data: Opportunities, Challenges and Innovations Dec. 27 Dec. 30, 2014 Sanya, China

Chinese Open Relation Extraction for Knowledge Acquisition

PULLING OUT OPINION TARGETS AND OPINION WORDS FROM REVIEWS BASED ON THE WORD ALIGNMENT MODEL AND USING TOPICAL WORD TRIGGER MODEL

Tibetan-Chinese Bilingual Sentences Alignment Method based on Multiple Features

Workshop on Internet and BigData Finance (WIBF)

A Dynamic Approach to Extract Texts and Captions from Videos

Micro blogs Oriented Word Segmentation System

The Board of Directors

Automatic Mining of Internet Translation Reference Knowledge Based on Multiple Search Engines

International Conference on Education, Management and Computing Technology

Web Information Mining and Decision Support Platform for the Modern Service Industry

An Iterative Link-based Method for Parallel Web Page Mining

Open Access Research on Database Massive Data Processing and Mining Method based on Hadoop Cloud Platform

Search Engine Optimization for Improving Page Rank And Image Search Accuracy

en fi lm af Zhang Yang instruktøren bag den kinesiske fi lmperle Badeanstalten Premiere 31. oktober

Blog Post Extraction Using Title Finding

Appendix 1: Search strategies for randomized controlled trials on Chinese herbal medicine for symptom management in cancer palliative care

Adaptive Development Data Selection for Log-linear Model in Statistical Machine Translation

Modeling Risk Management in Sustainable Construction

Kaiquan Xu, Associate Professor, Nanjing University. Kaiquan Xu

Optimizing Chinese Word Segmentation for Machine Translation Performance

Research on the UHF RFID Channel Coding Technology based on Simulink

Transition-Based Dependency Parsing with Long Distance Collocations

A Systematic Cross-Comparison of Sequence Classifiers

A STUDY ON THE NARRATOR S VOICE IN THE CHINESE TRANSLATION OF A ROOM OF ONE S OWN (1929) LAW TSZ SANG

Zhejiang University SPIE Student Chapter Annual Report September 2014

HSBC Bank (China) Shanghai Branch Network

LIST OF ATTORNEYS PRACTICING CRIMINAL LAW

Emotion Detection in Code-switching Texts via Bilingual and Sentimental Information

Introduction. Research methodology

Towards SoMEST Combining Social Media Monitoring with Event Extraction and Timeline Analysis

CAO Jiming Professor

International Conference on Metropolitan Tourism

LIST OF CONFERENCE PARTICIPANTS

Microblog Sentiment Analysis with Emoticon Space Model

Efficient Techniques for Improved Data Classification and POS Tagging by Monitoring Extraction, Pruning and Updating of Unknown Foreign Words

Collecting Polish German Parallel Corpora in the Internet

1 Study of City-Level Management System of Air-Conditioning Information System Scm Rationality in the Decision Making... 9

SYLLABUS and Cambridge International Level 3 Pre-U Certificate in Mandarin Chinese (Principal and Short Course)

The Essential Chinese Language Teaching Sourcebook

Lifetime Achievement Award

Method of Fault Detection in Cloud Computing Systems

Metaheuristics in Big Data: An Approach to Railway Engineering

A SURVEY ON OPINION MINING FROM ONLINE REVIEW SENTENCES

Joint Word Segmentation and POS Tagging using a Single Perceptron

Date & Time: February 5 th (Monday), 10:00-17:00 Place: Main Entrance Foyer, DIT Kevin Street, Dublin 8

2015 CMB Request for Proposals (RFP) Innovations in e-learning for Health Professional Education

Pre-processing of Bilingual Corpora for Mandarin-English EBMT

Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation

The QoS of the Edge Router based on DiffServ

Study on Tacit Knowledge Identification of Independent Documentary Film Directors

Effective Product Ranking Method based on Opinion Mining

Automatic Speech Recognition and Hybrid Machine Translation for High-Quality Closed-Captioning and Subtitling for Video Broadcast

Deep Learning for Chinese Word Segmentation and POS Tagging

Development of a Web-based Information Service Platform for Protected Crop Pests

American Institute in Taiwan TAIPEI OFFICE

SU Qiang Professor

S-Sense: A Sentiment Analysis Framework for Social Media Sensing

Recent advances in security and privacy in big data

LAW103 Criminal Law (JD) Chandra Mohan LAW103 Criminal Law Chandra Mohan LAW103 Criminal Law Rathna Koman

JOURNAL OF COMPUTER SCIENCE AND ENGINEERING

ATTORNEYS IN THE TAIPEI AREA

Technical Program 26th ICTPA Annual Meeting, Tampa, Florida May 24-26, 2013

UNIT 1: NAMING AROUND THE WORLD. English Reading 1 for Foreign Students 2 nd week, Fall, 2012 Prof. Hyojin Chung Dongguk University

A New Method for Traffic Forecasting Based on the Data Mining Technology with Artificial Intelligent Algorithms

Customizing an English-Korean Machine Translation System for Patent Translation *

3 rd China Vehicle Insurance Summit 2014

How To Analyze Sentiment On A Microsoft Microsoft Twitter Account

A Load Balancing Algorithm based on the Variation Trend of Entropy in Homogeneous Cluster

PyCantonese: Cantonese linguistic research in the age of big data

Financial Time Series Forecasting with Machine Learning Techniques: A Survey

I. The Establishment and Development of Teaching of Traditional Chinese Instrumental Music Theory in the 20 th Century

Performance Evaluation and Prediction of IT-Outsourcing Service Supply Chain based on Improved SCOR Model

ANNUAL DINNER MEETING PROGRAM

Nian Gong, PhD. Department of Anesthesiology & Perioperative Care

Special Topics in Computer Science

Schneps, Leila; Colmez, Coralie. Math on Trial : How Numbers Get Used and Abused in the Courtroom. New York, NY, USA: Basic Books, p i.

CONCEPTUAL MODEL OF MULTI-AGENT BUSINESS COLLABORATION BASED ON CLOUD WORKFLOW

Beijing BISS International School Why BISS?

Technical Program 研 讨 会 程 序 手 册

BEIJING. Heat & Mass Transfer Society of China. 16th INTERNATIONAL HEAT TRANSFER CONFERENCE

How To Calculate Tunnel Longitudinal Structure

The Commons China Law and Business Mission

Principles of Cross-selling Page Design Based on Consumer Online Purchasing Behaviors --Take C to C E-commerce Website as an Example

ANNOUNCEMENT COMPLETION OF THE NON-PUBLIC ISSUANCE OF A SHARES

Linguistic Knowledge-driven Approach to Chinese Comparative Elements Extraction

Uniticket: A Third Party Universal E-Ticket System Based on Mobile Phone *

Contents. Preface. About Editors. Contributors. Acknowledgments I 1

ARABIC PERSON NAMES RECOGNITION BY USING A RULE BASED APPROACH

Transcription:

Fourth SIGHAN Workshop on Chinese Language Processing (IJCNLP 2005) Jeju Island, Korea 14-15 October 2005 ISBN: 978-1-62748-367-4

Printed from e-media with permission by: Curran Associates, Inc. 57 Morehouse Lane Red Hook, NY 12571 Some format issues inherent in the e-media version may also appear in this print version. Copyright (2005) by the Association for Computational Linguistics All rights reserved. Printed by Curran Associates, Inc. (2013) For permission requests, please contact the Association for Computational Linguistics at the address below. Association for Computational Linguistics 209 N. Eighth Street Stroudsburg, Pennsylvania 18360 Phone: 1-570-476-8006 Fax: 1-570-476-0860 acl@aclweb.org Additional copies of this publication are available from: Curran Associates, Inc. 57 Morehouse Lane Red Hook, NY 12571 USA Phone: 845-758-0400 Fax: 845-758-2634 Email: curran@proceedings.com Web: www.proceedings.com

Table of Contents Preface : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : i Organizers : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : ii Workshop Program : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : iii Detecting Segmentation Errors in Chinese Annotated Corpus Chengjie Sun, Chang-Ning Huang, Xiaolong Wang and Mu Li : : : : : : : : : : : : : : : : : : : : : : : : :1 Using Word-Pair Identier to Improve Chinese Input System Jia-Lin Tsai : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 9 Chinese Deterministic Dependency Analyzer: Examining Eects of Global Features and Root Node Finder Yuchang Cheng, Masayuki Asahara and Yuji Matsumoto : : : : : : : : : : : : : : : : : : : : : : : : : : : : :17 Chinese Classier Assignment Using SVMs Hui Guo and Huayan Zhong : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 25 Morphological features help POS tagging of unknown words across language varieties Huihsin Tseng, Daniel Jurafsky and Christopher Manning : : : : : : : : : : : : : : : : : : : : : : : : : : : :32 Product Named Entity Recognition Based on Hierarchical Hidden Markov Model Feifan Liu, Jun Zhao, Bibo Lv, Bo Xu and Hao Yu : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 40 Chinese Sketch Engine and the Extraction of Grammatical Collocations Chu-Ren Huang, Adam Kilgarri, Yiching Wu, Chih-Ming Chiu, Simon Smith, Pavel Rychly, Ming-Hong Bai and Keh-Jiann Chen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 48 Word Meaning Inducing via Character Ontology: A Survey on the Semantic Prediction of Chinese Two-Character Words Shu-Kai Hsieh : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :56 Domain Specic Word Extraction from Hierarchical Web Documents: A First Step Toward Building Lexicon Trees from Web Corpora Jing-Shin Chang : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 64 Turn-Taking in Mandarin Dialogue: Interactions of Tone and Intonation Gina-Anne Levow : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 72 Learning a Log-Linear Model with Bilingual Phrase-Pair Features for Statistical Machine Translation Bing Zhao and Alex Waibel : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 79 Integrating Collocation Features in Chinese Word Sense Disambiguation Wanyin Li, Qin Lu and Wenjie Li : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :87 NIL Is Not Nothing: Recognition of Chinese Network Informal Language Expressions Yunqing Xia, Kam-Fai Wong and Wei Gao : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 95 vi

The Robustness of Domain Lexico-Taxonomy: Expanding Domain Lexicon with CiLin Chu-Ren Huang, Xiang-Bing Li and Jia-Fei Hong : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 103 Some Studies on Chinese Domain Knowledge Dictionary and Its Application to Text Classication Jingbo Zhu and Wenliang Chen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 110 Resolving Pronominal References in Chinese with the Hobbs Algorithm Susan Converse : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 116 The Second International Chinese Word Segmentation Bakeo Thomas Emerson : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 123 Combination of Machine Learning Methods for Optimum Chinese Word Segmentation Masayuki Asahara, Kenta Fukuoka, Ai Azuma, Chooi-Ling Goh, Yotaro Watanabe, Yuji Matsumoto and Takashi Tsuzuki : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 134 Unigram Language Model for Chinese Word Segmentation Aitao Chen, Yiping Zhou, Anne Zhang and Gordon Sun : : : : : : : : : : : : : : : : : : : : : : : : : : : : 138 Report To BMM-based Chinese Word Segmentor with Context-based Unknown Word Identier for the Second International Chinese word Segmentation Bakeo Jia-Lin Tsai : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :142 An Example-Based Chinese Word Segmentation System for CWSB-2 Chunyu Kit and Xiaoyue Liu : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 146 Chinese Word Segmentation in FTRD Beijing Heng Li, Yuan Dong, Xinnian Mao, Haila Wang and Wu Liu : : : : : : : : : : : : : : : : : : : : : : : :150 Perceptron Learning for Chinese Word Segmentation Yaoyong Li, Chuanjiang Miao, Kalina Bontcheva and Hamish Cunningham : : : : : : : : : :154 Data-driven Language Independent Word Segmentation Using Character-Level Information Dong-Hee Lim and Seung-Shik Kang : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 158 A Maximum Entropy Approach to Chinese Word Segmentation Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 161 Description of the HKU Chinese Word Segmentation System for Sighan Bakeo 2005 Guohong Fu, Kang-Kwong Luke and Percy Ping-Wai Wong : : : : : : : : : : : : : : : : : : : : : : : : : 165 A Conditional Random Field Word Segmenter for Sighan Bakeo 2005 Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky and Christopher Manning : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :168 Chinese Word Segmentation with Multiple Postprocessors in HIT-IRLab Huipeng Zhang, Ting Liu, Jinshan Ma and Xiantao Liao : : : : : : : : : : : : : : : : : : : : : : : : : : : : 172 Maximal Match Chinese Segmentation Augmented by Resources Generated from a Very Large Dictionary for Post-Processing Ka-Po Chow, Andy C. Chin and Wing Fu Tsoi : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 176 vii

Chinese Word Segmentation based on Mixing Model Wei Jiang, Jian Zhao, Yi Guan and Zhiming Xu : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 180 Two-Phase LMR-RC Tagging for Chinese Word Segmentation Tak Pang Lau and Irwin King : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 183 Chinese Word Segmentation in ICT-NLP ShuangLong Li : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 187 Towards a Hybrid Model for Chinese Word Segmentation Xiaofei Lu : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 189 Chinese Word Segmentation Based On Direct Maximum Entropy Model Wu-Guang Shi : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 193 A Hybrid Approach to Chinese Segmentation around CRFs Jun-sheng Zhou, Xin-yu Dai, Rui-yu Ni and Jia-jun Chen : : : : : : : : : : : : : : : : : : : : : : : : : : :196 Author Index : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :200 viii