暫告段落

這個十二篇小玩意花了我不少時間,暫告段落了。其實我已謝幕,不會重出江湖,搞這個純粹是貪過癮。
http://chinesetext.org/

小玩意的功能有
1. 閱讀全文,用宋體字,可調大中小字體。如果歷屆試題有考過詞解語譯的詞句,會用綠色高光,點擊會有權威答案。(不過權威答案沒有做,只是隨意加了幾個,如 “是” “淘” “病” 等字。)

2. 正則檢索,其實也可以當一般字詞檢索之用。(例: “於是”) 正則檢索可列出全文,或只列出含該詞語的前後各十個字。只列上下文或較易閱讀及比較。

顯示全文

顯示上下文各10字

3. 正則檢索可以用複雜的方法搜尋,何如 “.璧” 可以搜得 “奉璧” “易璧” “沉璧” 等。”廉頗.{0,20}藺相如” 可以搜得廉頗與藺相如之間相隔0-20個字的字段。

又例如我想抽取所有 “…者…也” 句,正則表達式是:
[^。,;:!?「\n]{1,}者,[^。;?]{1,}也[,;。!?]
以下是 Monica.im 給的說明
[^…]
表示否定字元集,匹配除了括號內字元以外的任何字元。這裡排除了句號、逗號、分號、冒號、感嘆號、問號、左引號和分行符號。
{1,}
表示前面的模式可以出現一次或多次
者,
精確匹配”者”字後面跟一個逗號
[^。;?]{1,}
匹配除了句號、分號、問號以外的任何字元,同樣可以出現一次或多次

精確匹配”也”字
[,;。!?]
匹配其中任意一個標點符號(逗號、分號、句號、感嘆號或問號)

這個正規表示式主要用來匹配中文文言文中常見的”…者,…也。”這樣的句式結構。
這個正規表示式對於處理古文文字分析特別有用,可以用來:
提取定義句
分析文言文中的句式結構
自動標註或高亮特定的語法結構
輔助文言文學習和研究

如果您需要修改這個正規表示式來匹配更多或更少的情況,我們可以調整其中的規則。比如:
如果想要限制”者”前面必須至少有兩個字,可以將 {1,} 改為 {2,}
如果想要包含更多的標點符號,可以在方括號中新增
如果想要排除更多的字元,可以在否定字元集 [^…] 中新增