文檔說明

自定義 SCWS 詞庫

如之前所說,我們所有的索引分詞器默認為 scws,這也是我們開發的開源分詞系統, 內置的詞庫基本上能滿足絕大多數應用。但總有例外,這也就是即將說的如何自定義詞庫。

1. 全局自定義詞庫

這是針對同一個 xunsearch 安裝實例來講,該服務端下的所有項目都將共用這個自定義詞庫。 嚴格來講,這是 SCWS 本身就提供的功能,xunsearch 只是做了整合和規范。涉及的相關文件如下 (假設 $prefix 是您的安裝目錄)

$prefix/etc/dict_user.txt

打開上述文件,文件開頭已經有了相關注釋和說明。這個文件就是自定義詞庫文件, 如果您同一臺機器上裝有多個 xunsearch 服務端,那么每個服務端獨自使用自己的自定義詞典文件。

添加刪除修改自定義詞庫只要編輯該文件即可,以下為相關規范:

  • 文件為純文本文件,編碼必須是 UTF-8,可用任何編輯器修改
  • 每行一條記錄表示一個詞,每行包含 1~4 個字段,字段之間用空格或制表符(\t)分隔
  • 字段含義依次表示 “詞語”,“詞頻(TF)”,“逆詞頻率(IDF)”,“詞性(ATTR)”
  • 后面三個字段如果省略依次使用 scws 的默認值
  • 特殊詞性 ! 可用于表示刪除該詞
  • 自定義詞典優先于內置詞典加載和使用,以 # 開頭的行為注釋

Note: 該功能自 1.2.0 版本起方可使用,源自網友建議。

2. 項目自定義詞庫

某些情況下,不同的項目需要不同的特殊詞庫。每個搜索項目的自定義詞庫文件如下:

$prefix/data/項目名稱/dict_user.txt

文件內容及格式與全局自定義詞庫是一致的,在此不再贅述。此外,這個文件還可以通過相關的 SDK API 讀取和修改。

Note: 該功能自 1.3.4 版本起方可使用。

$Id$

6條評論!

#72 報告
bfeng at 2016-02-02 13:22:51
自定義詞語沒有啊

自定義詞語沒有啊

#68 報告
guojia at 2015-12-08 19:03:58
這個還有用么?為什么按照步驟做了完全看不到效果

rt

#40 報告
xxx555 at 2014-05-29 16:35:17
我搜索單字“茶”搜不出結果,搜“茶葉”才搜的出

我搜索單字“茶”搜不出結果,搜“茶葉”才搜的出,這算正常?

#38 報告
Sense at 2013-09-06 13:49:28
20萬詞的詞庫如何制作?

我們有個20萬詞的詞庫,如何生成xdb?怎么生成后老是不能用?

#15 報告
bevin1984 at 2012-06-28 10:58:08
有動態增加的方法嗎?

不需要重啟,且可以動態增加的方法嗎?

#12 報告
moxie at 2012-05-03 14:10:55
生效需要重啟服務

編輯后需要重啟服務才可以生效。 sh $prefix/bin/xs-ctl.sh -b inet -s search restart

請到論壇 登錄 后刷新本頁面!

青海快三开奖走势图_ 江西福彩快3开奖查询 陕西11选5中奖规则 恒瑞财富网 炒股散户能赚钱吗 股票融资买入的步骤视频 重庆快乐10分计划大全 北京十一选五走势图手机 辽宁11选五一定牛 预测 内盘和外盘 彩票甘肃11选5