Monday, May 17, 2004

中文智能分词
中文分词技术的滞后是当前中文信息自动化处理技术发展的瓶颈。词是能独立活动的有意义的最小语言单位。分词是中文信息处理从字符处理水平向语义处理水平的关键,是中文智能计算技术的基础。中文自动分词准确率低主要受以下几个难题的困扰:
1)词表收录
2)分词规范
3)未登录词识别
4)歧义切分
海量科技以“砌词”为突破口,巧妙地解决困扰分词最大的问题——未登录词的识别问题,在其他问题上博采众长各个击破,采用复方概念平衡各算法,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,基本上达到实用要求。正因如此,海量科技承担了2000年度国家863计划课题——“智能信息内容分析方法研究”。

0 Comments:

Post a Comment

<< Home