中文分词

  • 中文分词软件包 LibMMSeg

    中文分词软件包 LibMMSeg 2009-05-31

    LibMMSeg 网站 : http://www.coreseek.cn/opensource/mmseg/ LibMMSeg 简介 LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Ma

    关键词: C/C++, 中文分词库
  • 开源中文分词系统 HTTPCWS

    开源中文分词系统 HTTPCWS 2009-08-11

    HTTPCWS 网站 : http://code.google.com/p/httpcws/ HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议. 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根据作者自己补充的一个9万条词语的自定义词库,对ICTCLAS分词结果进行合并处理,输出最终分词结果.目前只支持GBK编码. 经过测试,局域网内 HTTPCWS 接口中文分词平均处理速度(Wait时

    关键词: C/C++, 中文分词库
  • 中文分词器 mmseg4j

    中文分词器 mmseg4j 2009-09-26

    mmseg4j 网站 : http://code.google.com/p/mmseg4j/ 1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用. 2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配.Complex 加

    关键词: 查看源码», Java, 中文分词库
  • 智能中文分词模块 imdict-chinese-analyzer

    智能中文分词模块 imdict-chinese-analyzer 2010-03-02

    imdict-chinese-analyzer 网站 : http://code.google.com/p/imdict-chinese-analyzer/ imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中 文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持. 主要特点: 1. 完全Unicod

    关键词: Java, 中文分词库
  • 简易中文分词系统 SCWS

    简易中文分词系统 SCWS 2010-05-23

    SCWS 网站 : http://hightman.cn/?scws SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统. 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词.词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开, 所以如何准确而又快速的分词一直是中文分词的攻关难点. SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称.人名.地名.数字年代等规则集,

    关键词: PHP, 中文分词库
  • 中科院中文分词 ICTCLAS

    中科院中文分词 ICTCLAS 2010-10-20

    中科院ICTCLAS (FreeICTCLAS)最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦 授权协议: 未知 开发语言: C/C++ 操作系统: Windows

    关键词: C/C++, 中文分词库
  • http协议中文分词 http-scws

    http协议中文分词 http-scws 2011-06-08

    http-scws 网站 : http://code.google.com/p/http-scws/ 2011-06-26更新至2.0版 1.增加规则 2.增加词性分词 3.JSON格式返回数据 http-scws(基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加.删除更方便 2.支持gbk与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生

    关键词: C/C++, PHP, 中文分词库
  • 中文分词器 RMMSeg

    中文分词器 RMMSeg 2011-08-01

    RMMSeg 网站 : http://rmmseg.rubyforge.org/ rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是"基于词典的最大匹配算法" $ echo "我们都喜欢用 Ruby" | rmmseg 我们 都 喜欢 用 Ruby 授权协议: MIT/X 开发语言: Ruby 操作系统: 跨平台

    关键词: ruby, 中文分词库
  • Ruby中文分词器 rmmseg-cpp

    Ruby中文分词器 rmmseg-cpp 2011-08-01

    rmmseg-cpp 网站 : http://rmmseg-cpp.rubyforge.org/ rmmseg的主要问题是性能和内存消耗.用纯ruby编写的rmmseg分词的速度非常慢,而且内存消耗非常惊人,当使用复杂分词算法的时候,内存呈线性上升的现象.为此rmmseg的作者pluskid再接再厉用C++重写了一遍rmmseg项目,这就是rmmseg-cpp.根据作者自己的简单测试表明:rmmseg-cpp的性能是rmmseg的400倍之多. 安装方法:gem install pluskid-

    关键词: ruby, C/C++, 中文分词库
  • 中文分词 Ansj

    中文分词 Ansj 2012-09-06

    Ansj 网站 : http://www.ansj.org Ansj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目. 如果你第一次下载只想测试测试效果可

    关键词: Java, 中文分词库
  • Python中文分词组件 jieba

    Python中文分词组件 jieba 2012-10-03

    jieba 网站 : https://github.com/fxsjy/jieba jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词. 支持繁体分词 支持自定义词典 在线演示 http:/

    关键词: python, 查看源码», 中文分词库
  • Java开源中文分词器 jcseg

    Java开源中文分词器 jcseg 2012-10-19

    jcseg 网站 : http://code.google.com/p/jcseg/ Jcseg[dʒɛ'ke'sɛ]是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口. 1.目前最高版本:jcseg 1.9.5. 2.三种切分模式: (1).简易模式:FMM算法,适合速度要求场合. (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%. (3)

    关键词: 查看源码», Java, 中文分词库
  • C语言开源高性能中文分词器 friso

    C语言开源高性能中文分词器 friso 2012-12-29

    friso 网站 : http://code.google.com/p/friso/ Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现.完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M. 1.目前最高版本:friso 1.6.1,同时支持对UTF-8/GBK编码的切分,绑定了php扩展和sphinx token插件 2.三种切分模式: (1).简易

    关键词: 查看源码», C/C++, 中文分词库
  • genius中文分词

    genius中文分词 2013-08-22

    genius中文分词 网站 : https://github.com/duanhongyi/genius Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法. Feature 支持python2.x.python3.x以及pypy2.x. 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or deb

    关键词: python, 中文分词库
  • 几款开源的中文分词系统

    几款开源的中文分词系统 2013-10-22

    中文分词是做好中文内容检索.文本分析的基础,主要应用于搜索引擎与数据挖掘领域.中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词 以下介绍4款开源中文分词系统. 1.ICTCLAS ? 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Le

    关键词: 中文分词
  • relaxlife.net发布一个自己开发的中文分词程序

    relaxlife.net发布一个自己开发的中文分词程序 2013-11-11

    近来因为工作原来,研究了一下中文分词,也就写了一个中文分词的程序.采用的是逆向最大匹配算算法. 使用示例: <%@ Page Language="C#"%> <%@ Import Namespace="Relaxlife.Xiaokui" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/

    关键词: relaxlife.net发布一个自己开发的中文分词程序
  • PHP中文分词 自动获取关键词介绍

    PHP中文分词 自动获取关键词介绍 2013-11-22

    用了大家熟知的scws 还有phpanalysis ,需要的朋友可以参考下 <?php header("Content-Type:text/html; charset=utf-8"); define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); $test = '这里是一段中文测试代码!'; function get_tags_arr($title) { require(APP_ROOT.'/pscws4.clas

    关键词: PHP中文分词
  • 开源php中文分词系统SCWS安装和使用实例

    开源php中文分词系统SCWS安装和使用实例 2014-01-29

    这篇文章主要介绍了开源php中文分词系统SCWS安装和使用实例,需要的朋友可以参考下 一.SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统). 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词. 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点. SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接

    关键词: shell, 游戏, 俄罗斯方块
  • 漫话中文自动分词和语义识别(上):中文分词算法

    漫话中文自动分词和语义识别(上):中文分词算法 2014-03-15

    记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法.最近在詹卫东老师的<中文信息处理导论>课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲.在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论. 中文分词的主要困难在于分词歧义."结婚的和尚未结婚的",应该分成"结婚/的/和/尚未/结

    关键词: 搜索引擎技术
  • PHP中文分词的简单实现代码分享

    PHP中文分词的简单实现代码分享 2014-05-03

    对于中文搜索引擎来说, 中文分词是整个系统最基础的部分之一, 因为目前基于单字的中文搜索算法并不是太好. 当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎. 本文是这个系统中的一篇. 我使用的分词工具是中科院计算所的开源版本的 ICTCLAS. 另外还有开源的 Bamboo, 我随后也会对该工具进行调研. 从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广泛, 有公开的学术文档, 并且编译简单, 库依赖少. 但目前只提供了 C/C++, Java

    关键词: 中文分词
  • 使用Discuz关键词服务器实现PHP中文分词

    使用Discuz关键词服务器实现PHP中文分词 2014-08-01

    这篇文章主要介绍了使用Discuz关键词服务器实现PHP中文分词的方法以及代码实例,需要的朋友可以参考下 不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的.在项目中,我们只需要一个函数即可方便地进行分词.关键词提取. 以下是根据Discuz!在线分词服务API写的函数,测试可正常运行: /** * DZ在线中文分词 * @param $title string 进行分词的标题 * @param $content string 进行分词的内容 * @para

    关键词: PHP, PHP中文分词, PHP分词
  • Python中文分词项目集合

    Python中文分词项目集合 2014-09-25

    前几天,发了一条围脖,咨询大家python中文分词的库,受到了一些反馈,自己google了一下,收集了一些,集中在这里,和大家分享,如果有别的,也希望大家告诉我. http://opensource.plurk.com/Loso_Chinese_Segmentation_System/ http://code.google.com/p/smallseg/ http://code.google.com/p/pymmseg-cpp/ https://github.com/victorlin/loso

    关键词: 数据库技术
  • 中文分词和TF-IDF

    中文分词和TF-IDF 2014-10-31

    中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词.中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果. TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术.在搜索.文献分类和其他相关领域有广泛的应用. TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认

    关键词: 搜索引擎技术
  • R语言中文分词 jiebaR

    R语言中文分词 jiebaR 2014-11-04

    jiebaR 网站 : https://github.com/qinwf/jiebaR "结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能.项目使用了Rcpp和CppJieba进行开发. 特性 支持 Windows , Linux操作系统(M

    关键词: C/C++, 中文分词库
  • 当前几个主要的Lucene中文分词器的比较

    当前几个主要的Lucene中文分词器的比较 2014-12-04

    1. 基本介绍: paoding :Lucene中文分词"庖丁解牛" Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的"正向迭代最细粒度切分算法",多子处理器分析模式 2. 开发者及开发活跃度: paoding :qieqie.wang, google code 上最后一次代码提交:2008-06-12,sv

    关键词: 搜索引擎技术
  • asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取

    asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取 2015-01-11

    比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫 集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了 用CSW中文分词组件 下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. fcon=split(htm," ") fcs=ubou

    关键词: asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取
  • 数学之美系列二:谈谈中文分词

    数学之美系列二:谈谈中文分词 2015-01-15

    谈谈中文分词----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词.例如把句子 "中国航天官员应邀到美国与太空总署官员开会." 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会. 最容易想到的,也是最简单的分词办法就是查字典.这种方法最早是由北京航天航空大学的梁南元教授提出的. 用 "查字典" 法,其实

    关键词: 程序员数学
  • 我的开源PHP中文分词扩展:PHPCWS 1.0.0

    我的开源PHP中文分词扩展:PHPCWS 1.0.0 2015-01-22

    名称:PHPCWS(PHP中文分词扩展) 协议:New BSD License 作者:张宴 网址:http://code.google.com/p/phpcws/ SVN:http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws 本文出自:http://blog.s135.com/read.php?398 一.PHPCWS 简介 1.什么是 PHPCWS ? PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/

    关键词: 搜索引擎技术
  • 中文分词入门之字标注法全文文档

    中文分词入门之字标注法全文文档 2015-02-10

    将"中文分词入门之字标注法"这个系列整理成了一个PDF文档放到微盘中了,感兴趣的同学可以下载: 微盘:中文分词入门之字标注法.pdf: 百度网盘:中文分词入门之字标注法.pdf 如果愿意看网页,也可以从这个标签进入:字标注中文分词. 另外在上一节关于CRF中文分词的介绍中,通过CRF++训练了一个CRF中文分词模型,实际训练的时间比较长,为了方便大家测试,也把这个CRF模型上传到微盘了,感兴趣的同学可以下载:crf_model.

    关键词: 搜索引擎技术
  • 推荐ruby中文分词器 - RMMSeg

    推荐ruby中文分词器 - RMMSeg 2015-02-28

    用RoR开发网站经常遇到的一个困扰就是Ruby缺乏良好的中文分词器,虽然ferret可以实现lucene的绝大部分功能,但是ferret自身并没有中文分词器,甚至连CJK两分分词器都没有,因此很多RoR网站不得不通过各种方式去访问lucene来解决分词问题,但RMMSeg项目发布以后,这一切已经成为历史. RMMSeg是pluskid(浙江大学的学生)开发的ruby中文分词器,在2008年2月份刚刚发布的.RMMSeg使用了基于词库的最大匹配算法进行中文分词,并且辅以相应的修正算法,而RMMSe

    关键词: 搜索引擎技术
  • rmmseg-cpp - 简洁高效的ruby中文分词程序

    rmmseg-cpp - 简洁高效的ruby中文分词程序 2014-01-29

    我在前一篇文章向大家介绍了libmmseg实现ruby的中文分词,在这篇文章当中向大家介绍另外一个优秀的ruby中文分词程序rmmseg-cpp. rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是"基于词典的最大匹配算法",rmmseg的相关介绍请看: <推荐ruby中文分词器 - RMMSeg > rmmseg的主要问题是性能和内存消耗.用纯ruby编写的rmmseg分词的速度非常慢,而且内存消耗非常惊人,当使用复杂分词算法的时候,

    关键词: 搜索引擎技术
  • 谷歌浏览器里的中文分词

    谷歌浏览器里的中文分词 2014-05-26

    谷歌浏览器里牛逼的中文分词 用过vim的都知道w和b键的功能. 深入Windows的都知道,通用文本框控件里,可以通过Ctrl+Left, Ctrl+Right来实现类似vim里w和b键的功能 但是大家都知道,这个小技巧对于中文是无效的. 但是今天突然发现谷歌浏览器(chrome/chromium)居然实现了中文词语之间的跳转 举个例子,一个文本框里放一句英文: 在文本框里,按 left 和 right 键,光标只会一个字一个字的左移或者右移:Ctrl+left和Ctrl+right,光标会一个

    关键词: 浏览器
  • Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器

    Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 2014-08-24

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger),命名实体识别工具(Named Entity Recognizer),句法分析器(Parser)等,可喜的事,他们还为这些工具训练了相应的中文模型,支持中文文本处理.在使用NLTK的过程中,发现当前版本的NLTK已经提供了相应的斯坦福文本处理工具接口,包括词性标注,命名实体识别和句法分析器的接口,不过

    关键词: 搜索引擎技术
  • 10大Java开源中文分词器的使用方法和分词效果对比

    10大Java开源中文分词器的使用方法和分词效果对比 2014-08-25

    本文的目标有两个: 1.学会使用10大Java开源中文分词器 2.对比分析10大Java开源中文分词器的分词效果 本文给出了10大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断. 10大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 /** *获取文本的所有分词结果,对比不同分词器结果

    关键词: 搜索引擎技术
  • 使用libmmseg实现Ruby的中文分词功能

    使用libmmseg实现Ruby的中文分词功能 2014-08-31

    libmmseg是李沫南用C++编写的开源的中文分词软件,libmmseg的分词算法采用的是"基于词库的最大匹配算法",分词速度为每秒300KB左右. libmmseg主要被作者用来实现Sphinx全文检索软件的中文分词功能,因此作者给Sphinx提供了一个补丁文件,可以让Sphinx集成libmmseg,从而支持对于中文文章的全文检索功能,关于这一点可以看:http://www.coreseek.cn/index.php?page=Sphinx的介绍. libmmseg从0.7.2版

    关键词: 搜索引擎技术
  • lucene.net 2.0 中文分词后语法高亮问题

    lucene.net 2.0 中文分词后语法高亮问题 2014-10-02

    lucene.net 2.0 src包里自带了Highlighter.Net-2.0.0,可以用来实现语法高亮. //定义多条件搜索分析器 BooleanQuery bquery = new BooleanQuery(); //定义分词器 Analyzer analyzer = new StandardAnalyzer(); //多条件搜索拆分器 MultiFieldQueryParser parser = new MultiFieldQueryParser(new string[] { "ti

    关键词: 搜索引擎技术
  • 中文搜索引擎四大技术揭密:中文分词

    中文搜索引擎四大技术揭密:中文分词 2014-11-23

    信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google.百度.中国搜索等大型搜索引擎一直是人们讨论的话题.随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索.8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点. 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista.overture.google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上

    关键词: 搜索引擎技术
  • CRF中文分词开源版发布啦

    CRF中文分词开源版发布啦 2010-09-02

    langiner@gmail.com 中文分词是互联网应用不可缺少的基础技术之一,也是语音和语言产品必不可少的技术组件. 自2003年第一届国际中文分词评测以来,由字构词的分词方法获得了压倒性优势,国内主要通过CRF++开源软件包来学习该分词方法,但是CRF++过于复杂的代码结构,导致了该算法的普及率. 本次首先发布了CRF中文分词开源版(http://xiazai.zol.com.cn/detail/41/407136.shtml)仅仅包含CRF++软件包中分词解码器部分,简化了CRF++复杂

    关键词: 条件随机场 中文分词 特征抽取 由字构词 CRF
  • nutch中文分词,改源码

    nutch中文分词,改源码 2010-09-15

    安装了nutch,但是默认的中文分词只能按照单个汉子分,使用起来十分不方便,于是到处查找资料,终于找到了几种中文分词插件,如ictcals,je,paoding,CJK等. 由于je分词java支持较好,且可以自定义字典单词,所以最后选用je分词最为nutch中文分词工具,主要步骤如下: (1)下载je分词包放到nutch的lib文件夹下 (2) 修改src/java/org/apache/nutch/analysis中的 NutchAnalysis.jj ,将 >改为:)+ >,即从解析单个

    关键词:
  • 为Nutch 1.0添加JE中文分词

    为Nutch 1.0添加JE中文分词 2010-09-15

    为Nutch 1.0添加JE中文分词 文章来源网络 属于java 分类 电脑编程网整理 20091223 简介:这是为Nutch 1.0添加JE中文分词的详细页面,介绍了和java,有关的知识,加入收藏请按键盘ctrl+D,谢谢大家的观看!要查看更多有关信息,请点击此处 先下载Nutch 1.0的源文件: svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变t

    关键词:
  • 在Hadoop上运行基于RMM中文分词算法的MapReduce程序

    在Hadoop上运行基于RMM中文分词算法的MapReduce程序 2012-01-29

    我知道这个文章标题很"学术"化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分 词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学习hadoop分享出来的 一些个人经验. 实验目标 学习编写 Hadoop 上的 MapReduce 程序. 使用 Hadoop 分布式计算小说<倚天屠龙记>里的中文单词频率,比较张无忌身边的两个女人周芷若与赵敏谁在小

    关键词: python, hadoop
  • 转载-数学之美-系列二-谈谈中文分词

    转载-数学之美-系列二-谈谈中文分词 2012-09-17

    2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到 利用统计语言模型进行语言处理 ,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词.例如把句子 "中国航天官员应邀到美国与太空总署官员开会." 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会. 最容易想到的,也是最简单的分词办法就是查字典.这种方

    关键词: 数学之美, 谈谈中文分词
  • lucene集成IK实现中文分词检索

    lucene集成IK实现中文分词检索 2012-09-20

    接上篇,解决lucene中文分词问题. 这里采用IK分词器. IKAnalyzer2012_u5.zip下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer2012_u5.zip&can=2&q= 解压缩后,有如下文件: 1.将IKAnalyzer2012.jar导入工程: 2.将IKAnalyzer.cfg.xml.stopword.dic文件拷贝到src根目录下(编译后在classes根目录

    关键词: lucene, 中文分词, 分词器, IKAnalyzer
  • IKAnalyzer中文分词快速入门

    IKAnalyzer中文分词快速入门 2012-11-09

    IK Analyzer是一个基于Java的中文分词工具包.起初是基于Apache的Lucene项目,目前已经成为一个独立的分词组件.下文仅实现利用IK Analyzer分词(采用的包为IKAnalyzer2012_u5). String text = "在中国进入全面建成小康社会决定性阶段,胡锦涛同志所作的十八大报告,浓缩了改革开放以来特别是最近十年来党领导中国发展建设的经验与启示,勾画出中国未来发展的蓝图.报告中的新表述.新思想.新论断,引发了与会代表和各界干部群众的广泛关注.";

    关键词: 教程, 中文分词, IKAnalyzer
  • sphinx中文分词搜索coreseek windows下安装与基本使用简介

    sphinx中文分词搜索coreseek windows下安装与基本使用简介 2013-05-04

    这是半年前没有对外写的文章,现在拿出来分享下.可能会有一些不正确或不严谨的地方,某些语言可能比较轻浮,请见谅. 首先说明一下coreseek其实就是基于sphinx的中文分词版本,sphinx本身并没有提供中文分词功能,需要自行安装中文词库比较麻烦,coreseek提供了中文分词功能,提供了完整的官方中文使用文档,并且在使用上和官方的sphinx并没有差别.以coreseek-4.1版本为例 下载地址 http://www.coreseek.cn/news/14/54/ 帮助手册 http://

    关键词: sphinx, 中文分词, coreseek, 全文检索
  • Lucene中文分词

    Lucene中文分词 2013-06-22

    今天闲着没事弄了下IK Analyzer,由于mydict.dic和/mydict.dic纠结了半天,加"/"扩展分词和停用词都不起作用,特此记录下 lucene的中文分词不好用,所以从https://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer2012_u6.zip&can=2&q=这里下载了 IKAnalyzer2012_u6.zip @Test public void testChin

    关键词: lucene, Java, 开源, IKAnalyzer
  • Solr环境配置.中文分词.数据库做为索引源及索引操作

    Solr环境配置.中文分词.数据库做为索引源及索引操作 2013-06-26

    一.配置solr环境 1. 下载solr http://www.apache.org/dyn/closer.cgi/lucene/solr/ 此处用的是4.6 解压到D盘D:/solr/apache-solr-4.6.0 2.修改tomcat conf/server.xml <Connector connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort=&q

    关键词:
  • 全文检索lucene中文分词的一些总结

    全文检索lucene中文分词的一些总结 2013-08-13

    全文检索几乎是所有内容管理系统软件(CMS)必备的功能,在对公司的CMS产品的开发维护过程中,全文检索始终是客户重点关注的模块,为满足客户各式各样越来越高的要求,对全文检索曾做过一段时间相对深入的研究,尤其是对分词机制. 1. 什么是中文分词 学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开.而中文则以字为单位,字又组成词,字和词再组成句子.所以对于英文,我们可以简单以空格判断某个字符串是否为一个单词,比如I love China,love 和 China很容易被程序

    关键词: lucene, 中文分词
  • Linux 下配置 Sphinx(coreseek) 中文分词

    Linux 下配置 Sphinx(coreseek) 中文分词 2013-11-23

    http://blog.aboutc.net/linux/47/linux-configure-sphinx-chinese-word-segmentation 系统环境 CentOS 6.4 x86_64 下载 $ wget http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz coreseek-4.1-beta.tar.gz 包含了 mmseg-3.2.14 和 csft-4.1. 安装 mmseg $ cd /us

    关键词:
  • JavaScript: 实现简单的中文分词

    JavaScript: 实现简单的中文分词 2014-02-21

    中文分词在大数据横行的今天是越来越有用武之地了.它不仅被广泛用于专业的中文搜索引擎中,而且在关键词屏蔽.黑白名单以及文本相似度等方面也能大显身手.中文分词最简单也最常用的方式是基于字典查找的方式,通过遍历待分词字符串并在字典中进行查找匹配以达到分词的目的.本文即是采用这种方式. 字典 在本文中,完全依赖于字典,因此需要准备好字典.一般面对不同的领域用不同的字典.比如面向医学的,则字典会添加许多医学术语方面的词.可以很容易的找到常用词的字典,比如搜狗输入法自带的字典等. 停止词 停止词不能用于成词

    关键词: trie, JavaScript, 中文分词

iOS 开发

Android 开发

Python 开发

JAVA 开发

开发语言

PHP 开发

Ruby 开发

搜索

前端开发

数据库

开发工具

开放平台

Javascript 开发

.NET 开发

云计算

服务器

Copyright (C) codeweblog.com, All Rights Reserved.

CodeWeblog.com 版权所有 闽ICP备15018612号

processed in 0.048 (s). 9 q(s)