終身學習

終身學習,說來容易,但學費不菲。

十年八載之前,聖經亞蘭文的部分讀了幾遍,我想進一步讀亞蘭文的猶太典籍 Targum,但文本的注音並不齊全,而且那本 Jastrow 的亞蘭文字典字體細小兼不清晰,買了但用不了。於是我在網上找老師,在 Chegg Tutors找到一個在紐約大學研究猶太文化的博士生,一節收費1000港幣,我學了幾節,實在負擔不起,放棄了。又在同站找了一位在哈佛讀梵文的學生,談好了條件,忽然收到 Chegg 的警告信,說不准私下議價,嚇得我急急註銷戶口。

更早之前,想建個網站,但全無知識,在淘寶找人給我做了一個,索價2000。我就按這個慢慢摸索程式的結構,依樣葫蘆地改動了資料陸續建造其他網站。

我認為有了ChatGPT及其他網上工具, 這些錢完全可以省掉。

1. 例如我讀希臘文七十士譯本,下圖左半邊是德國聖經公會免費網上版,右半邊是 Perplexity.ai,遇到不明白的地方,就copy and paste 到右邊問問題。有問必答,而且可以追問,答案清晰可解。很多時候它會先rephrase你的問題,我就發現它比我問的更有條理,發問也是一門學問。我最常的就是叫它 “explain the grammar of” 然後剪貼字詞(Reverso 翻譯軟件不錯,谷歌語種較多,但譯起來還是 Reverso 較佳)。

2. 至於寫程式,只要提供要求,AI就會給你寫。ChatGPT最快手,但因為中國香港用不了,所以我只能以此為後備。Perplexity.ai最令人失望,因為它不會理會你的資料,永遠只給一個普遍通用的程式框架。Monica.im (Sonnet) 最好,但比較慢,而且往往不列出全部程式,有時要你自行到某處複制,又或者只列出要改的部分,要你自行增刪,增刪幾下就全亂了。它有時會分幾截給你程式,總之不太方便。

所以我還是兼用Perplexity 及 Monica 兩個,兩個都是殼,包含幾個AI,像POE,但POE表現並不好。兩個AI每月花了我美金40元,但全天候備顧問,我覺得仍是值得。而且我向來不敢在堂上公開發問,問AI則不必怕被人笑問得蠢,最適合我這種自閉型學習模式。

現在我的學習日程跟在山城時一樣(但每天比以往多睡一小時),除了正業之外,旁騖有:
星期一: 梵文薄伽梵歌半節。
星期二: 日文半頁, 用 Fumiko Nazikian 的 A Practical Guide for Scholarly Reading in Japanese
星期三: Syriac兩節. 仍然停留在馬太福音。
星期四: Aramaic兩節. 暫時仍在重溫聖經部分。
星期五: 德文半頁。用 Carolyn Roberts Thompson 的 Reading German for Theological Studies
星期六: 拉丁文希臘文兩節,武加大拉丁文譯本與希臘文對讀。
星期日: 希伯來文希臘文兩節,七十士希臘文譯本與希伯來文對讀。

法文已略有進步。最初幾乎完全自學,但有舊同事指點我幾課。過去一年旁聽法文,現在由每天只能讀幾行進步到相同時間可讀一頁,查字典的次數也稍減。

雖然每天只是讀半個鐘左右,但讀一讀,心裡才覺踏實,對得起一天吃的飯。

接近尾聲

在教會講過兩次道,負責過兩次查經班,完成下星期三後我應該可以休息一會了。

查經班比講道更花時間,主要是我選了初期聖經譯本為題,重點在希臘文七十士譯本。這個譯本聚訟兩千年,研究的人多如牛毛,我也不過拾人牙慧,把現有的東西整合簡化而已。但可以看的書本多不勝數,視頻也是海量,學海無涯,是也。而且這個主題資料多,我想有需要做個powerpoint,準備時間增加不止一倍。我先做PowerPoint, 再寫講稿,似乎比先寫稿後製作暢順些。

我沒有信心只列提綱就講,所以一定要寫出全稿。今天寫了近四千字,應該夠用。但其實斷斷續續已做了一星期,寫不過是最後一步而已。只是我把這視為寫作訓練,為論文做演練。如果一天3000字,一星期可完成一章,一個月就可以寫完博士論文了。這當然只是妙想天開,論文句句要有出處,寫引證要查核,未必可以寫得太多。但我打算速寫,注腳只列大概,完成正文再補,如此則思路不必中斷,初稿可及早完成。

楷體大字粒基本執完了,但有數十個未能在目錄找到,不知粒歸何處。

一起合作的電腦神童要交報告,請我拍個照,要顯示在用他所設計的東西,我用ipad兼賣自己的東西。

學校下山,遠眺海景,山水令我想起我的家在維多利亞港。

正午遠眺。今午天氣好,沒有風,自由漫步,但願長作紐西蘭人–不過已超齡,沒機會了。

栽花的人

舊中二課本有篇文章叫〈栽花的人〉,講述一個清潔工在工作之餘在路旁種了兩棵白蘭樹,清香沁人心脾,路人走過精神為之一振。

這裡有個室外停車場,也有位栽花的人在圍牆頂種了些花草,我知道,因為我曾見過她在那裡修剪。

這是一片比一張A4紙大不了多少的微型花圃,但花開得極美,有我最愛的黃色[嚴正聲明:與政治不相干,與道德無關係。],鮮艷奪目,細心一數,小天地居然有四五種花,都很別致。我每天走過,總會注目凝望一會。

春光似海,盛世如花,但這裡是紐絲綸。

康熙字典

字粒的網頁沒有再更新了,但加入了一個部首檢索的輔助網頁。

博文鑄字公司的活字配字簿分兩部分,出俗字是常用字,入俗字就是其他字。出俗字與入俗字的說明,我只在中國香港的香港非物質文化遺產資料庫找到資料,恭錄如下:
「執字師傅需整齊有序地進行檢字、排版、印刷等工序。中文字粒有「出俗字」和「入俗字」之分,「出俗字」指常用字,集中放在字架特定位置以便使用,而「入俗字」則按部首和筆劃排列。中文字粒的字體分七種大小規格,從最小的「六號」至最大的「特號」,加上楷書、仿宋等字型樣式。」
(https://www.hkichdb.gov.hk/zht/item.html?b83c12c6-d448-4a7f-983a-a3bb0e8b0a19)

博文鑄字公司 (簡介是紐絲綸大學圖書館製作的)

因為這本活字配字簿是根據康熙字典的部首排序的,所以我抄考了中大的漢字多功能字庫的漢字部首索引(→這裡),把康熙字典的214個部首替博文活字配字簿做了個索引,並且可以在出俗入俗字表之間切換,這樣就可以快速檢索收字較少的部首位置。

暫告段落

這個十二篇小玩意花了我不少時間,暫告段落了。其實我已謝幕,不會重出江湖,搞這個純粹是貪過癮。
http://chinesetext.org/

小玩意的功能有
1. 閱讀全文,用宋體字,可調大中小字體。如果歷屆試題有考過詞解語譯的詞句,會用綠色高光,點擊會有權威答案。(不過權威答案沒有做,只是隨意加了幾個,如 “是” “淘” “病” 等字。)

2. 正則檢索,其實也可以當一般字詞檢索之用。(例: “於是”) 正則檢索可列出全文,或只列出含該詞語的前後各十個字。只列上下文或較易閱讀及比較。

顯示全文

顯示上下文各10字

3. 正則檢索可以用複雜的方法搜尋,何如 “.璧” 可以搜得 “奉璧” “易璧” “沉璧” 等。”廉頗.{0,20}藺相如” 可以搜得廉頗與藺相如之間相隔0-20個字的字段。

又例如我想抽取所有 “…者…也” 句,正則表達式是:
[^。,;:!?「\n]{1,}者,[^。;?]{1,}也[,;。!?]
以下是 Monica.im 給的說明
[^…]
表示否定字元集,匹配除了括號內字元以外的任何字元。這裡排除了句號、逗號、分號、冒號、感嘆號、問號、左引號和分行符號。
{1,}
表示前面的模式可以出現一次或多次
者,
精確匹配”者”字後面跟一個逗號
[^。;?]{1,}
匹配除了句號、分號、問號以外的任何字元,同樣可以出現一次或多次

精確匹配”也”字
[,;。!?]
匹配其中任意一個標點符號(逗號、分號、句號、感嘆號或問號)

這個正規表示式主要用來匹配中文文言文中常見的”…者,…也。”這樣的句式結構。
這個正規表示式對於處理古文文字分析特別有用,可以用來:
提取定義句
分析文言文中的句式結構
自動標註或高亮特定的語法結構
輔助文言文學習和研究

如果您需要修改這個正規表示式來匹配更多或更少的情況,我們可以調整其中的規則。比如:
如果想要限制”者”前面必須至少有兩個字,可以將 {1,} 改為 {2,}
如果想要包含更多的標點符號,可以在方括號中新增
如果想要排除更多的字元,可以在否定字元集 [^…] 中新增

真偽自辨

美帝的臉書不可靠,有錢就可以賣廣告,即使你肯定那是假消息的。

你做正義的朋友,見疑即報,見義勇為,也是徒勞無功。

例如我經常見到打著RNZ (Radio New Zealand) 的標誌的廣告,細心一看頂頂的URL,其實是來自無厘頭的網址,但網站內容卻抄得十足十。我舉報了幾次,結果都不獲接受。

正牌RNZ

假冒RNZ, 留意網址

Facebook置諸不理

所以,害人的繼續害人,收錢的放個免責聲明就了事。

Well, 我躺平,justice is not done and is not seen to be done. 何必多此一舉,這時世,青紅皂白鹿馬是非真假對錯還要分嗎? 自己知道就是了,不在其位,不謀其政,不論是非。

我要擁抱小紅書而不是臉書 — 雖然我還未安裝。

總之,看清楚瀏覽器上的URL,可保平安,美帝的臉書大概或者可能會屈從大國力量,但誰是真正的主人,還是不說為妙。

再接再厲

今天想起過去一直想做個十二篇資料庫,連結各種考試材料於一身,例如詞語解釋。我想或者 Monica 可以助我一臂之力,於是又把要求寫出來,請她編寫程式。我盡量寫清楚,希望她一次過搞定,因為經多次試驗,如果不斷修改,會愈來愈亂。

結果真的一次搞定,但再稍作修改又失敗告終。而且AI似乎沒有標準答案的,今天的做法跟昨天的可以完全不同。

暫時只做了個框架,是十二篇文章加入曾考過的字詞。目前只有兩個字詞,分別是論仁論君子的「病」,以及念奴嬌的「淘」,在文中有一個字是highlight了的,在其上點一下,就會彈出註釋。也可作十二篇字詞搜尋,但我想做正則檢索,反覆多次仍未成功。明天繼續。

不安全是因為沒有安裝SSL,大概應該可能沒有問題的。蘋果手機會有警告,安卓及電腦大概可以的。

又:這幾晚都在圖書館工作到晚上十時半左右,因下周考試了,人較多。可能我特別留意吧,館內十居其九是女生…

思如泉湧

最近起來的時候總是思如泉湧,有好些新意念想實試試,趕快在紙上記下。聽說睡覺時大腦在重組思緒,或者日有所思,夜有所夢,醒來就有新意念。但願如此。

今午聽了一個Seminar,現場僅4人,網上大概有十個八個吧。這次主題是 digital humanities,台譯數位人文,大陸好像是譯作數字人文,中國香港當然沒有選擇餘地。主講的是法文的高級講師,他介紹了他參與的一項國際合作項目,是整理一位法國作家的書信。工作極其繁煩,基本上就是在文本加註釋,但註釋不是文字解釋,而是用電腦語言加註,例如作者姓名前後加標記。性質有點像網頁,但標記則較自由,所以叫xml, x是 extended 之意,即比網頁的 html 更具彈性。但為了同行之間能互相溝通,於是另有 TEI,即 Text Element Initiative, 作為國際通用標準。

例子是這個,貌似網頁,但標記是不同的。

一封幾十字的信,要用幾倍於字數的標記,例如日期,收信人等等,另外為存真貌,又要用標記標明某行在某角落等等,極端鎖碎。我估一封信要用幾天才能完成。至於是否有用,用的人當然認為十分有用,尤其在建構人物關係圖、地理活動範圍等有具體的時地人事資料的文獻,確可以建立更立體的面貌。不過窮一生之力,也不能做得太多這種工作,可能是勞而少功。當然,合作是出路,但這談何容易。

我聽這講座,是想用在我的研究上,因我的研究主體也是一堆書信,但我的書信都是經處理過的,時地人已無法確考,所以常用的關係圖、地理圖等全用不著。但我認為我的一堆書信身份仍是明確的,外國教士、本地神父、教徒、非教徒、衙差、狀師、地保、紳董等在信中屢屢出現,或者可以作些聯繫。

哈佛、中研院、北大共同創建了中國歷代人物傳記資料庫,可以從中一睹數位人文的成果。
https://projects.iq.harvard.edu/chinesecbdb/home

九級地震

專家說紐西蘭有可能遇上九級地震,當然也有專家說,機會不大,但天曉得。活在地震帶,只能多祈禱。

近年較大的地震有 2016年7.8 級,但死亡最多的,是2011年的6.3級地震,有超過180人死亡。我略略看過,似乎南島基督城附近是地震多發區,2011年的地震就重創基督城。

今早清晨約5時,我在睡夢中給地震震醒,房板左右搖擺發出聲響,好不嚇人。拿手機一看,原來是5.7級,震央就在威靈頓附近。我住的是多層大廈低層,看看天花板仍在,我想大概我仍活著,也就繼續睡了。我來了一年,經歷過的有感地震大概五六次,初時有點驚,慢慢也習慣了。這裡對建築物的防震能力要求極嚴,不少建築物有特大的支撐物,或者可以稍稍放心。

其實醒來就難再入睡,這是我的苦惱,下雨時,車輛在濕滑的馬路奔馳,噪音特大,而電單車跑車之類,就更是噪音之王。能一覺睡到天光,就已是一大福氣。

今午教會聚餐,我沒有留下來。其實我比較喜歡自己一個人吃飯,自由自在,吃什麼吃多少隨心所欲。

午後繼續搞電腦,今天想更新一下我研究的函牘舉隅的搜尋功能。昨天加入了正則表達式搜尋功能,覺得新奇,所以花了不少時間研究。我以前是自學過的,https://digitalsinology.org/classical-chinese-dh-regular-expressions/,但遇到困難沒有人教,所以早已放棄。現在有了 Monica, 隨時可問,又再重燃熱誠。(ctext.org 好像是 one man band, 但文本多,工具多,授人以漁,值得深入研究。網主是港大哲學系博士,研究先秦諸子,運用digital humanities,手法豐富,佩服不已。)

明天要收拾心神,不要再花時間搞電腦了,要專心學問,如果可以的話。

我把函牘舉隅做了電子書,能選字體大小,選類別後自動製作標題索引。我強制它用宋體字,美觀些。

正則表達

清代公文一大特點是引錄來文,層層叠加。引錄之後又往往用”等因” “等情” “等由” “等語” 字眼,不同字眼反映來文是上行平行還是下行;”等因”之後往往加上自己的官位,例如是 “道” “縣” “廳” 等,例如 “等情到府” “等因到縣”之類。

用一般搜尋方法,可以搜 “等”及”到”字,但只要該段文字中有 “等” 字 及 “到” 字,不論是否隔開數句數段,都會視作搜尋結果,於是會搜到很多無關的東西。如果只想在一句之中找到 “等”X”到”Y,一般方法並不可行。例如我現在用的搜尋方法及結果,結果並非我想要的。

我知道有正則表達 Regular Expression 這方法,可以加入很多條件作精準搜尋,但原來我自建的資料庫是可以用的,今天花了很長時間修訂原有的檢索系統,加入用正則表達來寫的檢索條件,讓搜尋結果更精確些。但正則表達有很多符號,難學。我想起了 Monica, 就是我常用來寫程式的 AI 助手,我把要求給她,她就能用正則表達寫出來。以下就是在一句之中搜 等X到X 的正則表達式:

[^\s.,;!?,。;!?]*等[^\s.,;!?,。;!?]{1}[^\s.,;!?,。;!?]*到[^\s.,;!?,。;!?]+:

Monica 還給我解釋 Matches a sequence where “等” is followed by exactly one character, then “到,” and then at least one more character.
這就是我想找的東西。一鍵索得,喜不自勝。Thanks, thanks, thanks, thanks. Monica~