Category: 電腦

人算天算

今天是10月1日,我正式開始第三年在紐西蘭的學業。中國香港正在放假,齊歡唱同慶賀。

人算不如天算?有可能。但數字人文投入的工夫多,實際出品未必是重大突破。

最近又想用些數字人文去包裝論文,例如想過做函牘舉隅書信的標籤 (TEI),但這是世紀工程,之前法文教授開過講座,一封短信也要加數十百個標籤,自己匹馬走天涯,沒可能完成;又想過做尺牘與真信的比較,不過樣本不多,信度成疑。

其實現在 AI 發達,可以自動判斷信函用語的性質,而且頗準確。(現實的用途是秒速找到負能量帖子然後馬上截斷傳播鏈。) 這些圖表頗嚇人的,但我有點懷疑有沒有意義。以下用Python製圖:

(案: 報章報導紐西蘭的大學多半放棄用AI檢查學生有沒有使用AI生成習作,原因是誤判太多。這我可以作見證,明明是自己寫的東西,Grammarly 居然被判我的文章有 10% 用了AI,其中有的是我引用別人的,有註腳,莫非是別人用了AI令我受累??)

至於書信反映的人脈關係,應該有看點的。

完美修復

最近決心結束在美國的機房,搬回亞洲,一來省幾個錢,二來獨立自主,由自己控制,當然,一切責任全在自己。

因為看錯了一項指示,一來一回花了400中國港元才能搞定。
提示: nameservers.

然後又因為一個設定,花了一個早上的時間才搞通。主要是密碼未能成功設定,有些網頁似乎混淆了。
提示:www 要 redirect 為 無 www. 因為 SSL 的 domain name 是沒有 www.

有些程式已是2017年寫的,我早已忘得一乾二淨。在機器上運作,又出現諸般問題,只好求諸AI,一鍵修復。

今早一事無成。

昨晚在網上參加了中國港大中文學院的講座,講者是法國教授,講的是清代禁教,正是我研究範圍的前傳。他的資料不錯,也把中日韓越同時比較。我的導師也有出席,但跟上次張西平的講座比較,今次冷清得多。上次網上有七、八十人,今次高峰期也只有十多個。

他提的問題有趣,在禁教期殉教的比開放期殉教的人數更少;禁教期間居然容許在北京有教堂,並有傳教士活動。

我想到幾句說話:講一套、做一套;上有政策、下有對策;靈活運用;modus vivendi;way of operating…

再度搬家

幾經考慮,為了省幾個錢,再度搬家,把幾個網誌放在一處,一旦要自行銷毀也較迅速。

網誌搬家不是想像中容易,用了幾個聲稱可行的方案,最終還是要手動完成。

也不能說已完成搬妥,因為早期的圖片連結失效,但文字能完全保留,也就夠了。

數字人文

王東波主編:《數字人文教程 Python 自然語言處理》(南京:南京大學出版社,2022年), 181頁,人民幣40元。

對於數字人文,我是實用主義、拿來主義,總之,是用得著的,我懂用的,就拿來用。

這書顯然是我用得著,但我不懂用,只能奉若天書,束置高閣了。

數字人文,處理的是文本,這書由字詞起講,快速介紹字形字型字體編號等概念後,就進入繁簡互譯、字體自動辨識的內容。字之後是詞,包括如何自動分詞、自動標注詞性等。再後是文本提取、特徵(如情感、意境等)分類。最後是典籍的機器中英、文白翻譯。我每頁都翻過,但大概只能略懂最初的10頁而已。

所有程式都是用Python來寫的,即是說,只要學懂這種語言,就可以用機器處理不少字詞句段篇的辨識、分類、分析、翻譯等工序,省下腦細胞做更高深的研究,是治學神器。

可惜,我不懂。

大功半成

南遊錄成功獨立了。昨晚新加坡機房又死機,一週一次,令人苦惱,所以今天5點起床,一早回校重新在全球布局。

如今南遊錄在雪梨落戶,其他網址在墨爾本,彼此分割,各安天命。原來在新加坡的機房規格偏高,性價比太差,已全面撤出獅城。現在用的是最低配置,比新加坡的平一半。我另外還有一個行 windows 的虛擬機在美國 Arizona, 因為我只帶了部 Macbook Air 來, 學校提供的 Windows 機諸多限制,有些常用軟件不能安裝,只好在虛擬世界創建一個,放些常用軟件,有需要時用 remote desktop 連上。而且虛擬機在美國,可以自由用 ChatGPT, GooglebookLM 等,日後回中國香港,也毋須翻牆。這些虛擬機,幾個指令就可以從南極搬到北極,十分方便。

這次用了另一個方法搬網誌,結果在一個問題上困擾了很久,原來只要重新上載圖像即何解決問題,不過在過程中又學到一些新東西。這次學懂怎樣申請SSL證書,即是 https:// 的 s ,我一直以來都交年費 45 美元,幾個網址的話費用不菲。原來這個 S 可以免費獲取!

可是荒廢了學業,要急起直追了。

這一章寫了11,000字,還有一半…

搬家啟事

可能已太臃腫,搬家不成,因為上傳時出現內部錯誤,分割獨立註定是死路一條,但死因不明,機房也註銷了。

以下撤回:

南遊錄又會搬家了,原因是佔用空間愈來愈大,想把它分割出來,獨立發展。

南遊錄會連同永久封閉的牢騷集等安置在新加坡的機房裡,網址不會改,期間或有點斷斷續續,但明天會更好。(補:事實證明,並非事實。)

指日可待

智能取代人工,似乎指日可待。

最近多用了 AI, 我覺得最有用的是:

1. 認字OCR, 截圖認字幾乎100%全中。繁簡直排横排它自動檢測。它的附加能力多,比一般只做OCR的軟件出色,例如我把一本中文書的版權頁截圖給它,叫它用Chicago Manual of Style 的格式做書目,要求拼音、繁體漢字、英文,它會分辨作者、書名、出版資料等,自動提取秒速完美完成,拼音也合符中华人民共和国国家标准 GB/T 16159—2012 汉语拼音正词法基本规则拼詞法。

2. 翻譯,我的函牘舉隅已放網上,高亮一段即可利用 Monica 的 toolbar 翻譯。它用字比我準確,但文言文還是要小心不要全靠它。因為文言文主語常省略,被動句未必有標記,它會有幻覺。

3. 綜合。現在我寫教案分類,我讀完函牘舉隅後,先人腦綜合案件性質,教會處理方法,州縣官處理方法,案件結果,重大案件等,再叫AI按我的大綱抽取案件內容,並附出處,以及翻譯案件標題。基本上它做得到,我再加整理即成大綱。但它給的東西繁簡未必合度,Claude 和 DeepSeek 各有千秋,但DeepSeek 要應付十四億人使用,經常躺平,ChatGPT 和 Grok 名過其實。有時AI能給我點子,但基本上它不能自行完成任務。

國產的東西不容小覷。隔了一段日子沒有用 KIMI,最近用過,叫它查找資料,果然能提供海量材料,而且能顯示學報的PDF。其實中國香港公共圖書館免費提供的中國知網已十分不錯,一網打盡期刊論文之外,也有列出該文的參考文獻、相似文獻,以及研究節點,點來點去又會有新的發現。也許這是因為我要抄考很多中文材料之故吧,所以樂意貢獻數據給國家,至於歷史上的今天之類的問題,還是美帝比較坦白。

後悔莫及

昨天發現了一個比 ABBYY 好用的東西,早知的話可以省掉澳元99年費,有點後悔。

昨天試用了 Monica 自帶的 ChatPDF,可以上傳文件,瞬間 OCR 認字,除了直接下載調用外,也可以跟 PDF 對話。即使上傳的是法文、拉丁文等檔案,也可以用英文就檔案對話。這有點似 NotebookLM,但 NotebookLM 只能顯示PDF的文字,Monica則可顯示PDF的頁面,更可靠清楚。不同之處是,NotebookLM一次過跟多個檔案對話,Monica只有一個;NotebookLM可能只是用自家的Gemini作對話工具,Monica則可選例如Claude, DeepSeek等,答得比較詳盡。

單 OCR 比 ABBYY 快這一點已很吸引,尤其我這裡的大學電腦不能自行安裝 ABBYY,要上虛擬機器用,十分不便。

例: 與黃伯祿法文版大清律摘譯婚姻門律例註釋,黃氏用拉丁文寫,由 Bussy 神父譯為法文。

一鍵全書譯為英文,原文與譯文平排,可資核對。

另有一個 ChatPDF,功能與 NotebookLM 一樣,能一次讀多個PDF,用 ChatGPT 回答,速度較快,也可跳到PDF的相關頁面,也能翻譯。可設定回答時用段落或更簡明的點列,另框選PDF可翻譯,已課金一年,試試看。(用了一會,發現不行,速度超快,但理解力低,捶胸後悔。人生過後唯存悔,又得一證。)
例:黃伯祿拉丁文版置產權。

搜索利器

終於下單買了 PowerGrep5, 盛惠美金 159, 連同日前訂購 ABBYY FineReader 16 一年美金 99, 用了港幣近二千元,足供我飛到澳洲。

搜索是電子文本最大好處,但檔案不一定能搜,如果逐個搜也費時失事。現在的流程是,如果 PDF 不是 searchable 的話,就先用 FineReader OCR 認字。如果單獨一個檔案,我用 PDF-XChange 的 Ctrl-Shift-F 功能 (不要忘記 Shift) ,一次搜得關鍵字的所有結果,並有上下文及會顯示頁面,易於閱讀。搜索的高級選項有關鍵詞的 and or 配搭,以及可選關鍵詞的 and or 在相鄰或同段出現。PDF-XChange 的搜索功能也可以搜整個檔案夾,但速度不及PowerGrep,也不能用 Regular Expression 來搜。

如果有數十百千個 PDF,我會用 PowerGrep 先搜一遍,一來可以一鍵搜多檔,而且PowerGrep 支援 Regular Expression 方式搜尋,可以用複雜的搜尋條件,但因為 PowerGrep 只顯示已認出的文字,未能顯示 PDF 原圖,閱讀不便,有需要時仍要用 PDF-XChange 閱讀。

當然,這只是查資料的方法,查資料不是讀書,讀書要一頁一頁地揭。但我過目即忘,要用工具補救。例如今天讀到一封教會向知府申請把縣的接嬰所的孤兒運送到府的育嬰所的信,以前沒有留意接嬰、育嬰,於是用 PowerGrep 搜一搜,又牽出一種中外矛盾,尤其可以解釋為何運送兒童也要申請,可以填充數百字。

Notebooklm

Google 的 Notebooklm, 理論上好用,可以餵50個檔案給它,然後要它在這些檔案中回答問題。這個工具最大的好處是知之為知之,不知為不知,是知也,不會出現幻覺,無中生有,指鹿為馬,畫餅充飢,癡人說夢。

但我覺得它有點懶,經常只在一個source找答案,找到就交差,而並非綜合各家,成一家之言。有時它答得很快,好像只是個索引而非獨立思考。所以我暫時覺得,它可以 1.做總索引,即50個檔案的總索引,方便查找遺忘了出處的材料; 2. 提供點子,但只能算是初步。

而且它刻意不在網上找答案,結果坐井觀天,答案未算全面。不過它免費,我就肆意用了。可惜谷歌這玩意不支援中國香港。

我認為 DeepSeek 其實是不錯的,同樣的中國歷史問題,它似乎最懂得,當然你要知道紅線所在。我經常用它來翻譯字詞。又因為免費,所以伺服器似乎應付不了,經常斷片。我曾嘗試部署在一個虛擬機器,但硬件不夠勁,結果完全凍結不動。聽說中國香港推出自家品牌的,我拭目以待,並問它一個歷史上的今天的問題,看它如何答。

例: 我開了個清代政府架構的文件夾,上傳了蕭公權、瞿同祖、黃宗智等人的中英著作,然後問何以士紳階級支持州縣官依法施政? Notebooklm整理了幾項原因,圖中帶圈的數字是材料出處,鼠標停在圈上就出現材料的文字版節錄,點擊圈後的點可以看完整的材料。但即使原稿是PDF,它也只顯文字版而不是PDF原稿。換句話說,一切PDF都要先認字OCR才可以用它。我的公益版PDF不太夠力,所以斥鉅資買了新版的ABBYY FineReader 16。我一直以為這是個俄國軟件,原來該公司因為俄國特別軍事行動而遷到美國,並把俄籍僱員全炒。考慮到之前買的PDF-XChange因反對中國香港依法立法執法而拒絕中國香港用戶購買,前車有鑑,所以我用了已被作廢的身份、英帝地址、愛莎尼亞信用卡、美元付款,安裝在設在美國機房的虛擬機器上,用紐西蘭電郵地址和電話操作,總之沒有半點跟中國香港有關。誰會想到強力賦與的中國香港的身份,居然到處碰壁,蟻民的遭遇,不是說好中國香港故事的人所能體會到的。活在平行時空,唯有玩穿越,學伊索寓言(或新伊索寓言)的蝙蝠。