跳到主要內容

客家如何面對數位化的公共傳播及資料的開放性

 

How Hakka Faces the Challenges of Digitalization of Public Communication and Open Data

一、從客家聲音媒體到數位資訊傳播的開放
二、古文書裡的口說詞彙及客語拼音文字
三、中文常用輸入法中的客語拼音挑戰
四、資訊使用介面整合及跨平台對話

從客家聲音媒體到數位資訊傳播的開放

客語是活的語言,客傳會經營全國首個以客語為主的講客廣播電臺,自 2017年 6 月 23 日創台開播以來,製播超過 3 萬小時的客語節目音檔,我們共享來自土地的聲音記憶,預計籌劃採集地方故事、民謠及諺語的客家聲音銀行,開始思考如何將這些客家聲音資料,以公共財形式釋出並貢獻給公眾使用。

為了喚起公眾對客家資料開放性、跨領域協作等議題的關注及參與,2020 年12 月起連結客庄夥伴,一起梳理地方累積的一手二手珍貴田野資料,學習使用新的介面操作形成新的客家開放社群,在中文維基平台上陸續上傳客家相關文史資料,過程發現如天下第一字「𠊎」(日常用語的「我」)等客語字及拼音在跨平台的顯示,「我手寫我口」新世代客語跨平台輸入法的發展等課題亦亟需解決及重視。

古老的客語口說詞彙、客語拼音字口說,在民間識字能力未在普及前,是人與人日常互動、聯繫溝通時的主要表達方式,影響了寫在書簡上文字辭彙的選用,形成「我手寫我口」的現象;加上地理環境條件多元,山區連絡不易形成該地語言的慣用方式,甚至同物件的不同說法、或異音同義語料辭彙紛雜等現象。因此,從不同的地域、人群、腔調等語料資料中,不難發現口語和書寫文字在拼音詞意同異等,這些都反應在流傳至今的口傳文學藝術及古文書裡。

客委會投入古老客音的調查研究,近年梳理土地買賣的契約書、家族分家的鬮書、口傳老師傅話民間文學,及傳統民謠山歌等,由龐雜史料中整理出臺灣客音古字,這些客家語料歷史資源未來若系統化對外公開,將是客傳會推展向下扎根客家話的重要基礎。古老客音的口說決定文書及口傳的方式,提供了文字影響

口說的不同視野,對於了解客語拼音隨社會文化的變遷,與他文化互動的腔調多元將有所助益,藉此次參與 COSCUP 開源年會與語言相關技術對話,關注古老客語的開放和應用等議題,期待形成更多在當代客家、新世代觀點的討論及現代工具使用介面的人性化、友善化,讓這個有時間縱深的古老語言,融合當代新生命力的新日常客語,往下流傳。

中文常用輸入法中的客語拼音挑戰

在電腦上要輸入客語,其實是一件不算太簡單的事情,目前在市場上,有教育部在 10 年前開發,4 年前改版的客語拼音輸入法,支援 Windows、Mac 與 Linux 平台, 在 Linux 平台上是採用 SCIM 的架構來處理。還有民間人士烏衣行開發的客語輸入法,只支援 Windows 平台,以及由教會製作,可透過台灣羅馬拼音輸入客語的信望愛台語客語輸入法,支援 Windows 與 Mac OS 平台。

而在手機中,要輸入客語,則是有之前的好客拼音輸入法 (但目前並無在 Google Play Store 上架),以及透過在 Android 上先安裝已經是開源的 Lime 萊姆輸入法,再下載閩客原語 LIME 輸入法詞庫安裝,才有辦法在 Android 手機上面輸入客語。而 iOS 裝置 iPhone、iPad 上的客語輸入法目前是沒有的。以台灣閩南語來說,iOS 上至少還有兩種輸入法可以使用如 Lohankha 羅漢跤台語輸入法、Phah Tâi-gí 台語輸入法,但 iOS 上台灣並沒有適合的客語輸入法 APP 可下載使用。

但電腦和手機的客語資訊問題,還不是只有輸入法而已,最早的問題就是客語字的顯示。所謂客語的天下第一字「𠊎」,在很多人的手機中是無法顯示的,如各位手上的 iPhone 手機,如果沒有安裝能支援客語造字集的字體,就不能顯示這些客語字。而 Android 手機,在 Android 更早的版本之前,也是要下載更換使用如台灣楷體或宋體等具備客語字擴充字集的字型才能夠正確在 Line 顯示這些客語字。所幸,Google 在新版的 Android 10、Android 11 系統中內建的新版本預設字形就已經有具備顯示這些客語字的字集。我們期待蘋果的 iOS 裝置未來也能夠內建具備能顯示客語字的字型。

除了前述問題外,客語輸入在手機與電腦上還有「聲調符號」輸入的問題,電腦上的客語輸入法通常可以裝客語聲調鍵盤來為鍵盤上增加「ˊˇˋˆ⁺」聲調符號的功能,或者是輸入法本身就有內建。但在手機上得安裝類似 codeboard 這樣的 APP,來自定一個有客語拼音符號的鍵盤。類似這樣的主題,其實在輸入原住民族語言上,也有類似的自訂特殊字母鍵盤需求。

至於客語語音輸入,那又是另一個大哉問了。目前台灣已經有團隊在進行中,

而客語有包括「永樂四海大平安」等多種腔調,這些腔調的聲音辨識資源、機器學習訓練模型,很多都還在努力中。

諸君可以發現,目前並未有一個客語輸入法能夠跨手機與電腦等平台,延續使用習慣、詞彙庫等等可共通拓展使用者經驗的解決方案。自然語意、字頻、詞頻與智慧型客語輸入,這些都還需要空間和時間與資源來逐步完成。

客傳會的立場,我們除了推動節目、文化、傳播方面的客家文化發展,數位平台上的客語相關解決方案,客傳會也願意提供自己包括薪傳師、資金、空間等資源來協助,以及大量的五種腔調節目音檔作為公共財加速客語各種應用的開發使用,更希望能夠促成採用新輸入法引擎的跨平台客語輸入法能夠誕生,希望能解決 iOS、Android 兩平台上沒有跨平台客語輸入法的問題,假設能透過類似的輸入法框架,共通相同的客語詞彙庫、字庫,定期能維護和擴充,讓Windows、Mac 與 Linux 等平台也能共下使用是很棒的。如果開源人社群能夠提供我們一些建議與指引,我們會萬分感謝。

資訊使用介面整合及跨平台對話

目前聽聞 Phah Tâi-gí 台語輸入法在 Android、iOS 兩平台的共通性上有了很好的發展,我們也很希望與這樣的團隊做交流與合作,協助打造出優秀的母語輸入法來,讓更多使用者可以在台語(台灣閩南語)、台灣客語、台灣原住民語的資訊應用發展上有更多經驗的傳承,並減少繞路前行的時間。

而線上的華語轉客語、客語轉華語的自動文字翻譯功能,現在已經有人製作 了,但還是需要有系統性地去維護資料庫,這也是我們希望能夠有機會協助的方向,設法完善各種使用者會用到的需求。

面對未來的更多智慧型應用,包括語音輸入、語音辨識,從衛福部關於疫情的指揮中心記者會現在已經有客語同步口譯轉播,華語在 Youtube Live 已經有提供線上自動語音轉文字輸入顯示的頻道,那是否有機會有客語語音自動轉換為文字的顯示呢?這也是我們期許的未來面向之一 。

目前客委會正在草擬《客家語言發展法》,期望以更廣泛、更具體的面向推動客語,以及參預了「國家語言發展會議」,相信未來會有更多語言相關的議題。而我們客傳會在針對客語資訊方面,在公共傳播與資訊領域能夠先做的,有哪些呢?

如果有興趣參與客家資料相關議題的,可以洽各地的客家 Wiki 寫作團隊,也可以和我們聯繫,我們會協助尋找適合的在地社群來一起攜手客家資訊的維基百科條目撰寫。這是個常年的資料編寫計畫,我們相信長期的耕耘,會對我們這塊土地與全球的連結,以及深化保存我們的文化,會一點一滴帶來更有幫助。

針對客語在電腦與手機等平台碰到的問題,我們會建立一個客語輸入與相關顯示議題的網頁,以及專屬信箱ime@hpcf.tw,提供給大家報名參與,亦能討論現況與未來的發展。

現有的問題就是我們需要盤點現有的客語輸入法資源,協助我們決定客語輸入法的框架與走向,我們會整備資源、參與社群對相關專案提供貢獻。

我們歡迎各界有興趣的人幫忙,同時也沒有語言上的限制,我們會適度安排參與的人員,以及協調出可行的專案來。以跨平台客語輸入法來說,是否能夠參考 Phah Tâi-gí 台語輸入法的框架與模式,我們透過建立詞庫的方式,以及選定或加入適當的輸入法,來實現跨平台客語輸入法的誕生。相關的聯絡方式與議題的討論,都可先寫信到 ime@hpcf.tw,我們也設立了 https://ime.hpcf.tw 這個網頁來當作我們的前進點,需要大家的提點或建議。

目前手機平台上還沒有開放原始碼授權的跨平台客語輸入法,以及搭配的客語字集,因此透過群募、我們提供資源等方式,會很期待它能夠在未來順利誕生,也會是開放原始碼授權的形式,提供給公共使用。

下午的議程,有:

五溝工作站的林品軒及劉晉坤站長

五溝聚落位在屏東萬巒,是全國第一個指定保存的客家聚落。五溝水駐地工作站長期在地方進行水文生活及生態調查、環境復育、客家伙房、殲炮城及產業文化的有關工作的經營和推展,與在地人共同守護濕地水圳多年,嘗試在經濟活動與文化、生態保育間取得平衡。隨著工作站陸續有年輕夥伴加入,漸漸意識到過去累積豐厚的一手資料,面臨資料的建置、資料如何分類的問題,也發現客語傳承的挑戰,除了日常生活的使用外,也存在著語言如何透過網際網路流通、與人互動溝通的挑戰。

桃園市客家文化基金會的蔡濟民

在文學與生活間擺渡的家鄉敘事,2019年4月正式對外開放的鍾肇政文學生活園區,在歷經多年保存行動,從策劃龍潭魯冰花藝術季開始,便跟著「跨語言世代」代表之一的鍾老,他將龍潭家鄉的山、水及生活寫進文學作品,無論是乳姑山、龍潭大池、九座寮泉水窟等地景,從人的生活場域轉化成文學地景。而隨著園區的開放,桃園市客家文化基金會延續過去所累積的基礎,以文學作品、多媒體、文化展覽及推廣連結社區,同時也思考數位時代,以鍾老、文學作品及相關文物為核心建構雲端博物館,並順應客家開放資料S計畫的推展,嘗試將一手二手資料推向公眾共享的文化財。

大茅埔調查團的吳哲銘

成軍四年餘的大茅埔調查團,長期在地方蹲點做地方文史、水圳生態等的調查,一邊做社造一邊聽耆老講述東勢大茅埔的生活文化記憶。2020年10月起與團員訂出一天調查日在外面跑,一天維基日共讀資料的定期聚會,想好好面對觀點紛紜的眾聲。隨著大量圖文資料的系統化、維基化的整理過程,一天天累積的新發現、新線索日益龐雜,我們意識到越來越多在地口述與既有文獻立論觀點存在著矛盾,也更加好奇近期找到的老石碑,如果它會講客語,將如何改變近代中臺灣客家聚落發展的歷史觀點!?以及維基客語拼寫書寫的可能性。

他們講述的故事與內容也都是非常值得大家參與,我們下午見。

承蒙大家~~

希望客傳會與講客廣播電台前行的偉大航道上,能夠有你有我,共下一起飛~~

哪裡有客家,哪裡就有客傳會。

留言

這個網誌中的熱門文章

利用 Jitsi 建立個人化的視訊會議平台

  近期因為疫情的關係,越來越多企業開始實施分流或在家工作,視訊會議的需求也日益增加。 在商用解決方案選擇上,有不少企業會選擇知名品牌的產品,例如  Cisco Webex 、 Google Meet 、 Microsoft Teams 、 Zoom  都是很不錯的方案。 KKBOX 集團在去年便試行及做好充分 work from home 的準備,今年五月也因應疫情升溫,全員 work from home 至今兩個月有餘。 當然,取之 Open Source,也要對社群有些貢獻。在這一屆 COSCUP,我們要來介紹 Open Source 圈中也很知名,效果也很不錯的一套視訊會議平台: Jitsi 。 除了基本的視訊會議功能外,在最後我們也會示範如何透過 Jitsi 畫面輸出到 YouTube/Twitch 或其他支援 RTMP 的平台進行直播。 由於篇幅有限,且 Jitsi 可以調整的細節非常多。今天我們純粹很快速的示範,如何簡單的建置出一個 Jitsi 環境,並提供單場會議內容錄影或直播。 Jitsi 的文件可以在 這裡 找到。 今天透過 AWS Lightsail 的 $10/month instance(1 core CPU + 2GB RAM + 60GB SSD),作業系統則是 Ubuntu 20.04 來示範。當然,使用其他 VPS 亦可,大同小異,這邊直接跳過 VPS 相關的建置過程。 *firewall 相關資料參考 這裡 及 這裡 。 針對系統做必要的更新 基本的 apt repository 更新: $ sudo apt update 因為後面要示範的會議錄影及直播需要使用 ALSA loopback device,如果是 EC2 or Lightsail 則需要額外安裝 generic kernel( 註 ): $ sudo apt install linux-image-generic linux-headers-generic linux-image-extra- virtual 接著做系統套件們的更新: $ sudo apt dist-upgrade $ sudo apt autoremove 如果是 AWS EC2 or Lightsail 則需要另外再將預設的 AWS optimized kernel...

鑽石級贊助商 - KKBOX 帶你打造具備 NLP 功能的 Telegram Bot (上)

打造具備 NLP 功能的 Telegram Bot(上) 最近因為一些契機學了 Python 3,用它做了一個 Telegram Bot ( GitHub 連結 ),裡面用到 NLP Service,用上下兩篇文章記錄一下實作過程還有眉角。上篇首先教大家如何做一個最基本的回聲 Chatbot,接下來我們可以透過 NLP 服務,讓 Chatbot 根據使用者不同的訊息做回答,這樣就變成更加人性化的聊天機器人囉! 使用的工具及服務: Python 3 (for develop) pipenv (for dependency management) OLAMI (for NLP) ngrok (for testing) Step 1. Creating new bot Telegram 很有趣的地方在於,與其他通訊軟體(Line、Messenger)相比,開發者管理 Bot 的方式也是透過官方提供的一位 Bot 在處理的,它叫做 BotFather (眾 Bot 之父 XD)。如果已經有 Telegram 帳號,只要加 BotFather 為好友,就可以開始管理你的 Bot。 加入 BotFather 好友後,它會親切地問候,並告訴你他能為你提供什麼服務。 I can help you create and manage Telegram bots. If you're new to the Bot API, please see the manual ([https://core.telegram.org/bots](https://core.telegram.org/bots)). You can control me by sending these commands: /newbot - create a new bot /mybots - edit your bots [beta] /mygames - edit your games ([https://core.telegram.org/bots/games](https://core.telegram.org/bots/games)) [beta] Edit Bots /setname - change a bot's name /setdescr...

機器學習的五大實務問題:對企業的影響與相應的化解方式

Appier 首席機器學習科學家 林守德博士 正如 Jason Jennings 及 Laurence Haughton 在《以快吃慢–如何藉速度在商戰中克敵制勝》一書中指出──未來,不是大公司吃掉小公司,而是速度快的公司吃掉速度慢的公司。 從現在開始,唯有善用適當的資訊快速做出決策的企業,才能成為戰場上的贏家。 機器學習技術驅動了這場變革。無論企業是嘗試向顧客提出建議、改進生產製造流程或應對市場的變動,都能運用機器學習技術處理大量的資料,進而提高自身的競爭優勢。 然而,機器學習雖能創造大好機會,卻也同時帶來了相應的挑戰。機器學習系統需要大量的資料,以及執行複雜的運算能力。顧客期望改變、出乎意料的市場波動等等外部因素,都意味著機器學習模型的運作並不是百分之百的自動,往往仰賴許多外部的資源來作監控及維護。 此外,機器學習也有不少尚待解決的實務問題。以下將深入探討機器學習的五大實務問題,以及這些問題對企業應用會產生的影響。 1. 資料品質 機器學習系統仰賴資料進行訓練,而訓練資料在廣義上可分為「特徵」及「標籤」兩種類別。 「特徵」是輸入機器學習模型的資料,像是來自感測器、顧客問卷、網站 cookie 或歷史資訊等等。 然而這些特徵的品質可能良莠不齊。舉例而言,顧客在填寫問卷時可能會隨便填寫,或對題目略而不答;感測器可能因失靈而回傳錯誤資料;即使使用者的網頁行為明確,網站 cookie 回報的資訊也可能不完整。 此外,資料也可能包含雜訊,當無謂的資訊夾雜其中時,機器學習模型將會受到誤導而做出不正確的預測。 相較於「特徵」,「標籤」的正確性與穩定度更為重要。標籤是機器學習模型最後輸出的結果。所以需要在訓練的時間利用正確的結果教導機器學習模型。標籤的稀疏性也是個問題,這是當系統已掌握大量輸入的資料卻對輸出的結果沒有把握時出現的現象。在這樣的情況下,將難以針對該模型偵測其特徵與標籤之間的關聯性優化,甚至需要耗費額外的人力干預,將標籤與輸入資料關聯起來。 機器學習需仰賴輸入與輸出資料的關聯,才能具備足夠的泛化能力以預測未來行動並提供相關建議。因此,如果輸入資料過於雜亂、殘缺或有所偏差時,將可能難以理解某輸出/標籤的產出原因。近年來機器學習也開發出許多先進的方法如半指導式學習,轉移學習來處理這樣的問題。 2. 複雜性與品質的取捨 建立強大的機器學習模型需要大量的計算資源來處理特徵和...