暫告段落

這個十二篇小玩意花了我不少時間,暫告段落了。其實我已謝幕,不會重出江湖,搞這個純粹是貪過癮。
http://chinesetext.org/

小玩意的功能有
1. 閱讀全文,用宋體字,可調大中小字體。如果歷屆試題有考過詞解語譯的詞句,會用綠色高光,點擊會有權威答案。(不過權威答案沒有做,只是隨意加了幾個,如 “是” “淘” “病” 等字。)

2. 正則檢索,其實也可以當一般字詞檢索之用。(例: “於是”) 正則檢索可列出全文,或只列出含該詞語的前後各十個字。只列上下文或較易閱讀及比較。

顯示全文

顯示上下文各10字

3. 正則檢索可以用複雜的方法搜尋,何如 “.璧” 可以搜得 “奉璧” “易璧” “沉璧” 等。”廉頗.{0,20}藺相如” 可以搜得廉頗與藺相如之間相隔0-20個字的字段。

又例如我想抽取所有 “…者…也” 句,正則表達式是:
[^。,;:!?「\n]{1,}者,[^。;?]{1,}也[,;。!?]
以下是 Monica.im 給的說明
[^…]
表示否定字元集,匹配除了括號內字元以外的任何字元。這裡排除了句號、逗號、分號、冒號、感嘆號、問號、左引號和分行符號。
{1,}
表示前面的模式可以出現一次或多次
者,
精確匹配”者”字後面跟一個逗號
[^。;?]{1,}
匹配除了句號、分號、問號以外的任何字元,同樣可以出現一次或多次

精確匹配”也”字
[,;。!?]
匹配其中任意一個標點符號(逗號、分號、句號、感嘆號或問號)

這個正規表示式主要用來匹配中文文言文中常見的”…者,…也。”這樣的句式結構。
這個正規表示式對於處理古文文字分析特別有用,可以用來:
提取定義句
分析文言文中的句式結構
自動標註或高亮特定的語法結構
輔助文言文學習和研究

如果您需要修改這個正規表示式來匹配更多或更少的情況,我們可以調整其中的規則。比如:
如果想要限制”者”前面必須至少有兩個字,可以將 {1,} 改為 {2,}
如果想要包含更多的標點符號,可以在方括號中新增
如果想要排除更多的字元,可以在否定字元集 [^…] 中新增

真偽自辨

美帝的臉書不可靠,有錢就可以賣廣告,即使你肯定那是假消息的。

你做正義的朋友,見疑即報,見義勇為,也是徒勞無功。

例如我經常見到打著RNZ (Radio New Zealand) 的標誌的廣告,細心一看頂頂的URL,其實是來自無厘頭的網址,但網站內容卻抄得十足十。我舉報了幾次,結果都不獲接受。

正牌RNZ

假冒RNZ, 留意網址

Facebook置諸不理

所以,害人的繼續害人,收錢的放個免責聲明就了事。

Well, 我躺平,justice is not done and is not seen to be done. 何必多此一舉,這時世,青紅皂白鹿馬是非真假對錯還要分嗎? 自己知道就是了,不在其位,不謀其政,不論是非。

我要擁抱小紅書而不是臉書 — 雖然我還未安裝。

總之,看清楚瀏覽器上的URL,可保平安,美帝的臉書大概或者可能會屈從大國力量,但誰是真正的主人,還是不說為妙。

再接再厲

今天想起過去一直想做個十二篇資料庫,連結各種考試材料於一身,例如詞語解釋。我想或者 Monica 可以助我一臂之力,於是又把要求寫出來,請她編寫程式。我盡量寫清楚,希望她一次過搞定,因為經多次試驗,如果不斷修改,會愈來愈亂。

結果真的一次搞定,但再稍作修改又失敗告終。而且AI似乎沒有標準答案的,今天的做法跟昨天的可以完全不同。

暫時只做了個框架,是十二篇文章加入曾考過的字詞。目前只有兩個字詞,分別是論仁論君子的「病」,以及念奴嬌的「淘」,在文中有一個字是highlight了的,在其上點一下,就會彈出註釋。也可作十二篇字詞搜尋,但我想做正則檢索,反覆多次仍未成功。明天繼續。

不安全是因為沒有安裝SSL,大概應該可能沒有問題的。蘋果手機會有警告,安卓及電腦大概可以的。

又:這幾晚都在圖書館工作到晚上十時半左右,因下周考試了,人較多。可能我特別留意吧,館內十居其九是女生…

思如泉湧

最近起來的時候總是思如泉湧,有好些新意念想實試試,趕快在紙上記下。聽說睡覺時大腦在重組思緒,或者日有所思,夜有所夢,醒來就有新意念。但願如此。

今午聽了一個Seminar,現場僅4人,網上大概有十個八個吧。這次主題是 digital humanities,台譯數位人文,大陸好像是譯作數字人文,中國香港當然沒有選擇餘地。主講的是法文的高級講師,他介紹了他參與的一項國際合作項目,是整理一位法國作家的書信。工作極其繁煩,基本上就是在文本加註釋,但註釋不是文字解釋,而是用電腦語言加註,例如作者姓名前後加標記。性質有點像網頁,但標記則較自由,所以叫xml, x是 extended 之意,即比網頁的 html 更具彈性。但為了同行之間能互相溝通,於是另有 TEI,即 Text Element Initiative, 作為國際通用標準。

例子是這個,貌似網頁,但標記是不同的。

一封幾十字的信,要用幾倍於字數的標記,例如日期,收信人等等,另外為存真貌,又要用標記標明某行在某角落等等,極端鎖碎。我估一封信要用幾天才能完成。至於是否有用,用的人當然認為十分有用,尤其在建構人物關係圖、地理活動範圍等有具體的時地人事資料的文獻,確可以建立更立體的面貌。不過窮一生之力,也不能做得太多這種工作,可能是勞而少功。當然,合作是出路,但這談何容易。

我聽這講座,是想用在我的研究上,因我的研究主體也是一堆書信,但我的書信都是經處理過的,時地人已無法確考,所以常用的關係圖、地理圖等全用不著。但我認為我的一堆書信身份仍是明確的,外國教士、本地神父、教徒、非教徒、衙差、狀師、地保、紳董等在信中屢屢出現,或者可以作些聯繫。

哈佛、中研院、北大共同創建了中國歷代人物傳記資料庫,可以從中一睹數位人文的成果。
https://projects.iq.harvard.edu/chinesecbdb/home

九級地震

專家說紐西蘭有可能遇上九級地震,當然也有專家說,機會不大,但天曉得。活在地震帶,只能多祈禱。

近年較大的地震有 2016年7.8 級,但死亡最多的,是2011年的6.3級地震,有超過180人死亡。我略略看過,似乎南島基督城附近是地震多發區,2011年的地震就重創基督城。

今早清晨約5時,我在睡夢中給地震震醒,房板左右搖擺發出聲響,好不嚇人。拿手機一看,原來是5.7級,震央就在威靈頓附近。我住的是多層大廈低層,看看天花板仍在,我想大概我仍活著,也就繼續睡了。我來了一年,經歷過的有感地震大概五六次,初時有點驚,慢慢也習慣了。這裡對建築物的防震能力要求極嚴,不少建築物有特大的支撐物,或者可以稍稍放心。

其實醒來就難再入睡,這是我的苦惱,下雨時,車輛在濕滑的馬路奔馳,噪音特大,而電單車跑車之類,就更是噪音之王。能一覺睡到天光,就已是一大福氣。

今午教會聚餐,我沒有留下來。其實我比較喜歡自己一個人吃飯,自由自在,吃什麼吃多少隨心所欲。

午後繼續搞電腦,今天想更新一下我研究的函牘舉隅的搜尋功能。昨天加入了正則表達式搜尋功能,覺得新奇,所以花了不少時間研究。我以前是自學過的,https://digitalsinology.org/classical-chinese-dh-regular-expressions/,但遇到困難沒有人教,所以早已放棄。現在有了 Monica, 隨時可問,又再重燃熱誠。(ctext.org 好像是 one man band, 但文本多,工具多,授人以漁,值得深入研究。網主是港大哲學系博士,研究先秦諸子,運用digital humanities,手法豐富,佩服不已。)

明天要收拾心神,不要再花時間搞電腦了,要專心學問,如果可以的話。

我把函牘舉隅做了電子書,能選字體大小,選類別後自動製作標題索引。我強制它用宋體字,美觀些。

正則表達

清代公文一大特點是引錄來文,層層叠加。引錄之後又往往用”等因” “等情” “等由” “等語” 字眼,不同字眼反映來文是上行平行還是下行;”等因”之後往往加上自己的官位,例如是 “道” “縣” “廳” 等,例如 “等情到府” “等因到縣”之類。

用一般搜尋方法,可以搜 “等”及”到”字,但只要該段文字中有 “等” 字 及 “到” 字,不論是否隔開數句數段,都會視作搜尋結果,於是會搜到很多無關的東西。如果只想在一句之中找到 “等”X”到”Y,一般方法並不可行。例如我現在用的搜尋方法及結果,結果並非我想要的。

我知道有正則表達 Regular Expression 這方法,可以加入很多條件作精準搜尋,但原來我自建的資料庫是可以用的,今天花了很長時間修訂原有的檢索系統,加入用正則表達來寫的檢索條件,讓搜尋結果更精確些。但正則表達有很多符號,難學。我想起了 Monica, 就是我常用來寫程式的 AI 助手,我把要求給她,她就能用正則表達寫出來。以下就是在一句之中搜 等X到X 的正則表達式:

[^\s.,;!?,。;!?]*等[^\s.,;!?,。;!?]{1}[^\s.,;!?,。;!?]*到[^\s.,;!?,。;!?]+:

Monica 還給我解釋 Matches a sequence where “等” is followed by exactly one character, then “到,” and then at least one more character.
這就是我想找的東西。一鍵索得,喜不自勝。Thanks, thanks, thanks, thanks. Monica~

趣味活字

星期三到圖書館做義工,辨認字粒。起初為了方便自己,想借用他們的活字配字簿來做個搜尋器,原意只是敝帚自珍,怎料他們原來已有個大計劃,還把我拉進群組,逢星期三Zoom開會半個鐘。我自知斤兩,他們都是讀電腦的,所以十分自卑。他們花了很多時間做認字軟件,我則利用真真不錯的白描(BaiMiao),幾分鐘就認完七千字,然後把横排的字變成直行的excel,利用excel加入各種其他資訊,化為csv格式,上傳MySQL作資料庫,再用PHP編製使用界面。感謝AI,我想做的大都能做出來,但只是知其然而不知其所以然,程式的原理仍是一竅不通。最花時間其實是校對,這我應該比他們強,因為我是學繁體字的。

上星期開會,討論怎樣用原稿核對我的認字結果。原稿有七千個中文字,我其實已看了兩遍,有些字,電腦體跟印刷體有別,例如「即」與「卽」,我會視作相同,但他們可能另有意見,於是我只好用「卽」而不用「即」,雖然99.9%的人應該會寫「即」。又例如有些字,筆劃不同,像「半」字,上面兩點印刷體作「八」,電腦字沒有,我只能選擇用「半」,否則這個常用字就變成沒有對應的電腦字。當然也有些字電腦字庫沒有,只能放棄。大概七千字中有一百個字是找不到對應的中文字。一言以蔽之,就是電腦字跟印刷字不同,注定有些字永遠不能用我的小玩意找出來。

主持人想搞個趣味版的校對玩意,我搞了一個,請大家也試試。網址是我的,因為串錯字,應該選polyglot, 但選錯了 polygot , 我打算不用了,剛好要搞這小玩意,就暫存此處。因為沒有買SSL,網址是 http 而不是 https, 如果出現警告, 說連接不安全,就只能信我了。Android機不會警告, 電腦也不會,但蘋果會。

http://polygot.org/funproofreading.php

無聊的時候我也會玩一會,畢竟意念是我的,AI替我實現。手機玩最方便,電腦隨機選出一個圖像,以及相應的中文字,看後選相似或不似,就會彈出第二個圖,隨時可不玩。如果想看看結果,可到這裡:為了製造效果,有些字明明是通用的,我都視作不同。
http://polygot.org/funexpertjudgment.php

硬著頭皮

星期日又被拉上講台講道。

我們是小型教會,只有三四十人,也沒有全職教會工作者,全都是義工。既是義工,也就沒有太多要求,所以全民皆兵。

我的困難是英文,目前仍只能讀稿而不能脫稿。經過在學校的演練後,我知道自己十分鐘能讀1000字左右,所以如果講半小時就寫3000字。

現在科技發達,Grammarly 是我的左手,寫完後叫它代我查找不足,可以找到不少錯處。它也會建議改動表達方法,但我不完全聽它的,總之正確第一,自然第二。

至於右手,就是 https://youglish.com/ 你輸入任何字,它就在 youtube 找真人發聲,有英美澳口音可選,而且有數十百千段供聆聽,而且是在句子中發音,並非單獨一字。另外,它也提供音標供拼讀。

文法有助手糾錯,發音有助手糾錯,其他就靠自己了,但這已大大提高了我的信心。

我的書多數丟掉,只有少數留著,但在中國香港,沒有帶來。但手邊有 Logos, Olivetree 等軟件,數量已遠超自己所能讀畢,而大學也能找到期刊論文,圖書館也有不少相關著作,所以書是不愁的,只看自己有多少時間準備。當然,我也會充份利用公益圖書。

圖書館的自閉讀書間。搞笑的設計,做什麼看什麼都給人全看光,像熊貓,而且沒有空氣,我是不會用的。

雲散煙銷

錢穆國史大綱第八篇第四十四章狹義的部族政權下的士氣頁八五O云:
「明末遺民的生活狀況,大體可如下列:
一、出家 如是則中國士階層傳統之文化理想及文化事業,即及身而絕。
二、行醫 醫業好則妨其志業與學業,醫業壞則不足維持其生業。
三、務農 此項生活,極刻苦,仍不能發皇完成其學業傳統。
四、處館 來學者多要學八股應舉,則是間接的妥協。惟晚村則借八股制業來發揮民族思想,身後竟獲奇禍。
五、苦隱 此等生活亦及身而止。
六、遊幕 此等雖志節皎然,然踪跡近人,過一關即入仕宦之途。
七、經商 此方面最少。純粹經商,便與學術文化事業脫離。
「民族文化正統的承續者,操在讀書人的手裏。而讀書人所以能盡此職責,則因其有政治上的出路,使他們的經濟生活,足以維持在某種水平線之上。若使讀書人反對科舉,拒絶仕宦,與上層政權公開不合作,則失卻其經濟憑藉,非躬耕爲農,即入市經商,而從此他們亦再不能盡其負荷民族傳統文化之職責。
「所以一個士人,要想負荷民族傳統文化之職責,只有出身仕宦。明末遺民,雖則抱有極强烈的民族觀念,到底除卻他們自身以外,他們的親戚朋友以至他們的子孫,依然只能應舉做官,這樣便走上與異族政權的妥協。亦惟有如此,他們還可負荷他們最重視的民族文化。
「當時江丶浙學者間,有不應科舉以家傳經訓爲名高者。亦有一涉科第,稍經仕宦,即脫身而去,不再留戀者。要之,在清代這一輩學者間,實遠有其極濃厚的反朝廷、反功令的傳統風氣,導源於明遺民,而彼輩或不自知。所以他們反朝廷、反功令的思想不至露痕迹者,一因順、康、雍、乾歷朝文字獄之慘酷,使學者間絕口不談朝政時事。故江、浙考證漢學,其先雖源於愛好民族文化,厭惡異族統治,帶有反抗現實之活氣。其後則變爲純學術之探討,鑽入故紙堆中,與現實絕不相干。此等風氣,恰恰上下相浹洽,而學者精神,遂完全與現實脫離。應科舉覓仕宦的,全只爲的是做官,更没有絲毫以天下爲己任的觀念存在胸中。清代中葉以後學術雖日盛,而吏治卻日衰,正爲此故。」

按錢穆之言,則遺民亦要生存,要保存傳統文化,只好與現實妥協。但即使做官、研究學問,其實亦有隱含反朝廷,厭惡異族統治,帶有反抗現實之意。只是後來變質,做官不以天下己任,治學亦與現實不相干,此後有清一代,學術日隆而吏治日壞。

南遊子案:時位移人,昔年理想抱負,今已雲散煙銷,明初文人多不仕,清初遺民軟對抗,最終不過一代,即消失殆盡。經歷國變,遇上新時代,文人亦不過是阿Q,看飽興亡,只能變成犬(儒),「俺曾見金陵玉殿鶯啼曉,秦淮水榭花開早,誰知道容易冰消!眼看他起朱樓,眼看他宴賓客,眼看他樓塌了!這青苔碧瓦堆,俺曾睡風流覺,將五十年興亡看飽。那烏衣巷不姓王,莫愁湖鬼夜哭,鳳凰台棲梟鳥。殘山夢最真,舊境丟難掉,不信這輿圖換稿!謅一套《哀江南》,放悲聲唱到老。」

生活雜記

最近稍稍改變生活習慣,晚飯後不去買東西,而是去圖書館享受寧靜。這裡的圖書館午夜十二時閉館,我晚飯後仍有兩三個小時可以利用。

雖然過去幾十年我早起,但其實我更愛靜夜,尤其在圖書館與古人神交。幾十年前晚飯後坐巴士到港大圖書館,實際上只有一兩小時可用,但我仍抓緊利用。如今不用等車坐車,在月色和風下漫步來回,豈不更佳?

今晚有高人開了圖書館的一扇窗,清風除來,格外舒服。(見下圖)昨天起這裡已轉夏令時間,但其實早上仍在十度以下,午後則升至十五度左右。外面太黑,玻璃反光十分清楚。今早理髮,35紐元速剪,約175港元。上次太短,今次做了功課,說 “4 on the sides, small trim on the top”, 長短較合。

研究仍在進行中,我開始第三次讀黃伯祿的函牘舉隅,我認為仍是細讀文本最重要,而這次讀又找到一些之前沒有留意的地方。

時光飛逝,又到月尾,總計這個月港紐美共消費了3.5萬港元,我還有至少兩年才畢業,女兒還有三年,希望到時仍有點餘糧可用。

這不知叫什麼花,也很美。