标签:中文分词

JAVA

解剖 Lucene 的总体架构

herman 7年前 (2017-08-22) 3080浏览 0评论

Lucene 使用起来很简单,但是要搞懂它内部的一些算法就很难了。本文将从 Lucene 的架构图来介绍 Lucene 的特点和常用包。 Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,...

JAVA

Lucene 中文词汇分词(Word Segment)问题总结

herman 7年前 (2017-08-22) 2717浏览 0评论

对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大...