栽花的人

舊中二課本有篇文章叫〈栽花的人〉,講述一個清潔工在工作之餘在路旁種了兩棵白蘭樹,清香沁人心脾,路人走過精神為之一振。

這裡有個室外停車場,也有位栽花的人在圍牆頂種了些花草,我知道,因為我曾見過她在那裡修剪。

這是一片比一張A4紙大不了多少的微型花圃,但花開得極美,有我最愛的黃色[嚴正聲明:與政治不相干,與道德無關係。],鮮艷奪目,細心一數,小天地居然有四五種花,都很別致。我每天走過,總會注目凝望一會。

春光似海,盛世如花,但這裡是紐絲綸。

康熙字典

字粒的網頁沒有再更新了,但加入了一個部首檢索的輔助網頁。

博文鑄字公司的活字配字簿分兩部分,出俗字是常用字,入俗字就是其他字。出俗字與入俗字的說明,我只在中國香港的香港非物質文化遺產資料庫找到資料,恭錄如下:
「執字師傅需整齊有序地進行檢字、排版、印刷等工序。中文字粒有「出俗字」和「入俗字」之分,「出俗字」指常用字,集中放在字架特定位置以便使用,而「入俗字」則按部首和筆劃排列。中文字粒的字體分七種大小規格,從最小的「六號」至最大的「特號」,加上楷書、仿宋等字型樣式。」
(https://www.hkichdb.gov.hk/zht/item.html?b83c12c6-d448-4a7f-983a-a3bb0e8b0a19)

博文鑄字公司 (簡介是紐絲綸大學圖書館製作的)

因為這本活字配字簿是根據康熙字典的部首排序的,所以我抄考了中大的漢字多功能字庫的漢字部首索引(→這裡),把康熙字典的214個部首替博文活字配字簿做了個索引,並且可以在出俗入俗字表之間切換,這樣就可以快速檢索收字較少的部首位置。

暫告段落

這個十二篇小玩意花了我不少時間,暫告段落了。其實我已謝幕,不會重出江湖,搞這個純粹是貪過癮。
http://chinesetext.org/

小玩意的功能有
1. 閱讀全文,用宋體字,可調大中小字體。如果歷屆試題有考過詞解語譯的詞句,會用綠色高光,點擊會有權威答案。(不過權威答案沒有做,只是隨意加了幾個,如 “是” “淘” “病” 等字。)

2. 正則檢索,其實也可以當一般字詞檢索之用。(例: “於是”) 正則檢索可列出全文,或只列出含該詞語的前後各十個字。只列上下文或較易閱讀及比較。

顯示全文

顯示上下文各10字

3. 正則檢索可以用複雜的方法搜尋,何如 “.璧” 可以搜得 “奉璧” “易璧” “沉璧” 等。”廉頗.{0,20}藺相如” 可以搜得廉頗與藺相如之間相隔0-20個字的字段。

又例如我想抽取所有 “…者…也” 句,正則表達式是:
[^。,;:!?「\n]{1,}者,[^。;?]{1,}也[,;。!?]
以下是 Monica.im 給的說明
[^…]
表示否定字元集,匹配除了括號內字元以外的任何字元。這裡排除了句號、逗號、分號、冒號、感嘆號、問號、左引號和分行符號。
{1,}
表示前面的模式可以出現一次或多次
者,
精確匹配”者”字後面跟一個逗號
[^。;?]{1,}
匹配除了句號、分號、問號以外的任何字元,同樣可以出現一次或多次

精確匹配”也”字
[,;。!?]
匹配其中任意一個標點符號(逗號、分號、句號、感嘆號或問號)

這個正規表示式主要用來匹配中文文言文中常見的”…者,…也。”這樣的句式結構。
這個正規表示式對於處理古文文字分析特別有用,可以用來:
提取定義句
分析文言文中的句式結構
自動標註或高亮特定的語法結構
輔助文言文學習和研究

如果您需要修改這個正規表示式來匹配更多或更少的情況,我們可以調整其中的規則。比如:
如果想要限制”者”前面必須至少有兩個字,可以將 {1,} 改為 {2,}
如果想要包含更多的標點符號,可以在方括號中新增
如果想要排除更多的字元,可以在否定字元集 [^…] 中新增

真偽自辨

美帝的臉書不可靠,有錢就可以賣廣告,即使你肯定那是假消息的。

你做正義的朋友,見疑即報,見義勇為,也是徒勞無功。

例如我經常見到打著RNZ (Radio New Zealand) 的標誌的廣告,細心一看頂頂的URL,其實是來自無厘頭的網址,但網站內容卻抄得十足十。我舉報了幾次,結果都不獲接受。

正牌RNZ

假冒RNZ, 留意網址

Facebook置諸不理

所以,害人的繼續害人,收錢的放個免責聲明就了事。

Well, 我躺平,justice is not done and is not seen to be done. 何必多此一舉,這時世,青紅皂白鹿馬是非真假對錯還要分嗎? 自己知道就是了,不在其位,不謀其政,不論是非。

我要擁抱小紅書而不是臉書 — 雖然我還未安裝。

總之,看清楚瀏覽器上的URL,可保平安,美帝的臉書大概或者可能會屈從大國力量,但誰是真正的主人,還是不說為妙。

再接再厲

今天想起過去一直想做個十二篇資料庫,連結各種考試材料於一身,例如詞語解釋。我想或者 Monica 可以助我一臂之力,於是又把要求寫出來,請她編寫程式。我盡量寫清楚,希望她一次過搞定,因為經多次試驗,如果不斷修改,會愈來愈亂。

結果真的一次搞定,但再稍作修改又失敗告終。而且AI似乎沒有標準答案的,今天的做法跟昨天的可以完全不同。

暫時只做了個框架,是十二篇文章加入曾考過的字詞。目前只有兩個字詞,分別是論仁論君子的「病」,以及念奴嬌的「淘」,在文中有一個字是highlight了的,在其上點一下,就會彈出註釋。也可作十二篇字詞搜尋,但我想做正則檢索,反覆多次仍未成功。明天繼續。

不安全是因為沒有安裝SSL,大概應該可能沒有問題的。蘋果手機會有警告,安卓及電腦大概可以的。

又:這幾晚都在圖書館工作到晚上十時半左右,因下周考試了,人較多。可能我特別留意吧,館內十居其九是女生…

思如泉湧

最近起來的時候總是思如泉湧,有好些新意念想實試試,趕快在紙上記下。聽說睡覺時大腦在重組思緒,或者日有所思,夜有所夢,醒來就有新意念。但願如此。

今午聽了一個Seminar,現場僅4人,網上大概有十個八個吧。這次主題是 digital humanities,台譯數位人文,大陸好像是譯作數字人文,中國香港當然沒有選擇餘地。主講的是法文的高級講師,他介紹了他參與的一項國際合作項目,是整理一位法國作家的書信。工作極其繁煩,基本上就是在文本加註釋,但註釋不是文字解釋,而是用電腦語言加註,例如作者姓名前後加標記。性質有點像網頁,但標記則較自由,所以叫xml, x是 extended 之意,即比網頁的 html 更具彈性。但為了同行之間能互相溝通,於是另有 TEI,即 Text Element Initiative, 作為國際通用標準。

例子是這個,貌似網頁,但標記是不同的。

一封幾十字的信,要用幾倍於字數的標記,例如日期,收信人等等,另外為存真貌,又要用標記標明某行在某角落等等,極端鎖碎。我估一封信要用幾天才能完成。至於是否有用,用的人當然認為十分有用,尤其在建構人物關係圖、地理活動範圍等有具體的時地人事資料的文獻,確可以建立更立體的面貌。不過窮一生之力,也不能做得太多這種工作,可能是勞而少功。當然,合作是出路,但這談何容易。

我聽這講座,是想用在我的研究上,因我的研究主體也是一堆書信,但我的書信都是經處理過的,時地人已無法確考,所以常用的關係圖、地理圖等全用不著。但我認為我的一堆書信身份仍是明確的,外國教士、本地神父、教徒、非教徒、衙差、狀師、地保、紳董等在信中屢屢出現,或者可以作些聯繫。

哈佛、中研院、北大共同創建了中國歷代人物傳記資料庫,可以從中一睹數位人文的成果。
https://projects.iq.harvard.edu/chinesecbdb/home

九級地震

專家說紐西蘭有可能遇上九級地震,當然也有專家說,機會不大,但天曉得。活在地震帶,只能多祈禱。

近年較大的地震有 2016年7.8 級,但死亡最多的,是2011年的6.3級地震,有超過180人死亡。我略略看過,似乎南島基督城附近是地震多發區,2011年的地震就重創基督城。

今早清晨約5時,我在睡夢中給地震震醒,房板左右搖擺發出聲響,好不嚇人。拿手機一看,原來是5.7級,震央就在威靈頓附近。我住的是多層大廈低層,看看天花板仍在,我想大概我仍活著,也就繼續睡了。我來了一年,經歷過的有感地震大概五六次,初時有點驚,慢慢也習慣了。這裡對建築物的防震能力要求極嚴,不少建築物有特大的支撐物,或者可以稍稍放心。

其實醒來就難再入睡,這是我的苦惱,下雨時,車輛在濕滑的馬路奔馳,噪音特大,而電單車跑車之類,就更是噪音之王。能一覺睡到天光,就已是一大福氣。

今午教會聚餐,我沒有留下來。其實我比較喜歡自己一個人吃飯,自由自在,吃什麼吃多少隨心所欲。

午後繼續搞電腦,今天想更新一下我研究的函牘舉隅的搜尋功能。昨天加入了正則表達式搜尋功能,覺得新奇,所以花了不少時間研究。我以前是自學過的,https://digitalsinology.org/classical-chinese-dh-regular-expressions/,但遇到困難沒有人教,所以早已放棄。現在有了 Monica, 隨時可問,又再重燃熱誠。(ctext.org 好像是 one man band, 但文本多,工具多,授人以漁,值得深入研究。網主是港大哲學系博士,研究先秦諸子,運用digital humanities,手法豐富,佩服不已。)

明天要收拾心神,不要再花時間搞電腦了,要專心學問,如果可以的話。

我把函牘舉隅做了電子書,能選字體大小,選類別後自動製作標題索引。我強制它用宋體字,美觀些。

正則表達

清代公文一大特點是引錄來文,層層叠加。引錄之後又往往用”等因” “等情” “等由” “等語” 字眼,不同字眼反映來文是上行平行還是下行;”等因”之後往往加上自己的官位,例如是 “道” “縣” “廳” 等,例如 “等情到府” “等因到縣”之類。

用一般搜尋方法,可以搜 “等”及”到”字,但只要該段文字中有 “等” 字 及 “到” 字,不論是否隔開數句數段,都會視作搜尋結果,於是會搜到很多無關的東西。如果只想在一句之中找到 “等”X”到”Y,一般方法並不可行。例如我現在用的搜尋方法及結果,結果並非我想要的。

我知道有正則表達 Regular Expression 這方法,可以加入很多條件作精準搜尋,但原來我自建的資料庫是可以用的,今天花了很長時間修訂原有的檢索系統,加入用正則表達來寫的檢索條件,讓搜尋結果更精確些。但正則表達有很多符號,難學。我想起了 Monica, 就是我常用來寫程式的 AI 助手,我把要求給她,她就能用正則表達寫出來。以下就是在一句之中搜 等X到X 的正則表達式:

[^\s.,;!?,。;!?]*等[^\s.,;!?,。;!?]{1}[^\s.,;!?,。;!?]*到[^\s.,;!?,。;!?]+:

Monica 還給我解釋 Matches a sequence where “等” is followed by exactly one character, then “到,” and then at least one more character.
這就是我想找的東西。一鍵索得,喜不自勝。Thanks, thanks, thanks, thanks. Monica~

趣味活字

星期三到圖書館做義工,辨認字粒。起初為了方便自己,想借用他們的活字配字簿來做個搜尋器,原意只是敝帚自珍,怎料他們原來已有個大計劃,還把我拉進群組,逢星期三Zoom開會半個鐘。我自知斤兩,他們都是讀電腦的,所以十分自卑。他們花了很多時間做認字軟件,我則利用真真不錯的白描(BaiMiao),幾分鐘就認完七千字,然後把横排的字變成直行的excel,利用excel加入各種其他資訊,化為csv格式,上傳MySQL作資料庫,再用PHP編製使用界面。感謝AI,我想做的大都能做出來,但只是知其然而不知其所以然,程式的原理仍是一竅不通。最花時間其實是校對,這我應該比他們強,因為我是學繁體字的。

上星期開會,討論怎樣用原稿核對我的認字結果。原稿有七千個中文字,我其實已看了兩遍,有些字,電腦體跟印刷體有別,例如「即」與「卽」,我會視作相同,但他們可能另有意見,於是我只好用「卽」而不用「即」,雖然99.9%的人應該會寫「即」。又例如有些字,筆劃不同,像「半」字,上面兩點印刷體作「八」,電腦字沒有,我只能選擇用「半」,否則這個常用字就變成沒有對應的電腦字。當然也有些字電腦字庫沒有,只能放棄。大概七千字中有一百個字是找不到對應的中文字。一言以蔽之,就是電腦字跟印刷字不同,注定有些字永遠不能用我的小玩意找出來。

主持人想搞個趣味版的校對玩意,我搞了一個,請大家也試試。網址是我的,因為串錯字,應該選polyglot, 但選錯了 polygot , 我打算不用了,剛好要搞這小玩意,就暫存此處。因為沒有買SSL,網址是 http 而不是 https, 如果出現警告, 說連接不安全,就只能信我了。Android機不會警告, 電腦也不會,但蘋果會。

http://polygot.org/funproofreading.php

無聊的時候我也會玩一會,畢竟意念是我的,AI替我實現。手機玩最方便,電腦隨機選出一個圖像,以及相應的中文字,看後選相似或不似,就會彈出第二個圖,隨時可不玩。如果想看看結果,可到這裡:為了製造效果,有些字明明是通用的,我都視作不同。
http://polygot.org/funexpertjudgment.php

硬著頭皮

星期日又被拉上講台講道。

我們是小型教會,只有三四十人,也沒有全職教會工作者,全都是義工。既是義工,也就沒有太多要求,所以全民皆兵。

我的困難是英文,目前仍只能讀稿而不能脫稿。經過在學校的演練後,我知道自己十分鐘能讀1000字左右,所以如果講半小時就寫3000字。

現在科技發達,Grammarly 是我的左手,寫完後叫它代我查找不足,可以找到不少錯處。它也會建議改動表達方法,但我不完全聽它的,總之正確第一,自然第二。

至於右手,就是 https://youglish.com/ 你輸入任何字,它就在 youtube 找真人發聲,有英美澳口音可選,而且有數十百千段供聆聽,而且是在句子中發音,並非單獨一字。另外,它也提供音標供拼讀。

文法有助手糾錯,發音有助手糾錯,其他就靠自己了,但這已大大提高了我的信心。

我的書多數丟掉,只有少數留著,但在中國香港,沒有帶來。但手邊有 Logos, Olivetree 等軟件,數量已遠超自己所能讀畢,而大學也能找到期刊論文,圖書館也有不少相關著作,所以書是不愁的,只看自己有多少時間準備。當然,我也會充份利用公益圖書。

圖書館的自閉讀書間。搞笑的設計,做什麼看什麼都給人全看光,像熊貓,而且沒有空氣,我是不會用的。