跳到主要內容

客家如何面對數位化的公共傳播及資料的開放性

 

How Hakka Faces the Challenges of Digitalization of Public Communication and Open Data

一、從客家聲音媒體到數位資訊傳播的開放
二、古文書裡的口說詞彙及客語拼音文字
三、中文常用輸入法中的客語拼音挑戰
四、資訊使用介面整合及跨平台對話

從客家聲音媒體到數位資訊傳播的開放

客語是活的語言,客傳會經營全國首個以客語為主的講客廣播電臺,自 2017年 6 月 23 日創台開播以來,製播超過 3 萬小時的客語節目音檔,我們共享來自土地的聲音記憶,預計籌劃採集地方故事、民謠及諺語的客家聲音銀行,開始思考如何將這些客家聲音資料,以公共財形式釋出並貢獻給公眾使用。

為了喚起公眾對客家資料開放性、跨領域協作等議題的關注及參與,2020 年12 月起連結客庄夥伴,一起梳理地方累積的一手二手珍貴田野資料,學習使用新的介面操作形成新的客家開放社群,在中文維基平台上陸續上傳客家相關文史資料,過程發現如天下第一字「𠊎」(日常用語的「我」)等客語字及拼音在跨平台的顯示,「我手寫我口」新世代客語跨平台輸入法的發展等課題亦亟需解決及重視。

古老的客語口說詞彙、客語拼音字口說,在民間識字能力未在普及前,是人與人日常互動、聯繫溝通時的主要表達方式,影響了寫在書簡上文字辭彙的選用,形成「我手寫我口」的現象;加上地理環境條件多元,山區連絡不易形成該地語言的慣用方式,甚至同物件的不同說法、或異音同義語料辭彙紛雜等現象。因此,從不同的地域、人群、腔調等語料資料中,不難發現口語和書寫文字在拼音詞意同異等,這些都反應在流傳至今的口傳文學藝術及古文書裡。

客委會投入古老客音的調查研究,近年梳理土地買賣的契約書、家族分家的鬮書、口傳老師傅話民間文學,及傳統民謠山歌等,由龐雜史料中整理出臺灣客音古字,這些客家語料歷史資源未來若系統化對外公開,將是客傳會推展向下扎根客家話的重要基礎。古老客音的口說決定文書及口傳的方式,提供了文字影響

口說的不同視野,對於了解客語拼音隨社會文化的變遷,與他文化互動的腔調多元將有所助益,藉此次參與 COSCUP 開源年會與語言相關技術對話,關注古老客語的開放和應用等議題,期待形成更多在當代客家、新世代觀點的討論及現代工具使用介面的人性化、友善化,讓這個有時間縱深的古老語言,融合當代新生命力的新日常客語,往下流傳。

中文常用輸入法中的客語拼音挑戰

在電腦上要輸入客語,其實是一件不算太簡單的事情,目前在市場上,有教育部在 10 年前開發,4 年前改版的客語拼音輸入法,支援 Windows、Mac 與 Linux 平台, 在 Linux 平台上是採用 SCIM 的架構來處理。還有民間人士烏衣行開發的客語輸入法,只支援 Windows 平台,以及由教會製作,可透過台灣羅馬拼音輸入客語的信望愛台語客語輸入法,支援 Windows 與 Mac OS 平台。

而在手機中,要輸入客語,則是有之前的好客拼音輸入法 (但目前並無在 Google Play Store 上架),以及透過在 Android 上先安裝已經是開源的 Lime 萊姆輸入法,再下載閩客原語 LIME 輸入法詞庫安裝,才有辦法在 Android 手機上面輸入客語。而 iOS 裝置 iPhone、iPad 上的客語輸入法目前是沒有的。以台灣閩南語來說,iOS 上至少還有兩種輸入法可以使用如 Lohankha 羅漢跤台語輸入法、Phah Tâi-gí 台語輸入法,但 iOS 上台灣並沒有適合的客語輸入法 APP 可下載使用。

但電腦和手機的客語資訊問題,還不是只有輸入法而已,最早的問題就是客語字的顯示。所謂客語的天下第一字「𠊎」,在很多人的手機中是無法顯示的,如各位手上的 iPhone 手機,如果沒有安裝能支援客語造字集的字體,就不能顯示這些客語字。而 Android 手機,在 Android 更早的版本之前,也是要下載更換使用如台灣楷體或宋體等具備客語字擴充字集的字型才能夠正確在 Line 顯示這些客語字。所幸,Google 在新版的 Android 10、Android 11 系統中內建的新版本預設字形就已經有具備顯示這些客語字的字集。我們期待蘋果的 iOS 裝置未來也能夠內建具備能顯示客語字的字型。

除了前述問題外,客語輸入在手機與電腦上還有「聲調符號」輸入的問題,電腦上的客語輸入法通常可以裝客語聲調鍵盤來為鍵盤上增加「ˊˇˋˆ⁺」聲調符號的功能,或者是輸入法本身就有內建。但在手機上得安裝類似 codeboard 這樣的 APP,來自定一個有客語拼音符號的鍵盤。類似這樣的主題,其實在輸入原住民族語言上,也有類似的自訂特殊字母鍵盤需求。

至於客語語音輸入,那又是另一個大哉問了。目前台灣已經有團隊在進行中,

而客語有包括「永樂四海大平安」等多種腔調,這些腔調的聲音辨識資源、機器學習訓練模型,很多都還在努力中。

諸君可以發現,目前並未有一個客語輸入法能夠跨手機與電腦等平台,延續使用習慣、詞彙庫等等可共通拓展使用者經驗的解決方案。自然語意、字頻、詞頻與智慧型客語輸入,這些都還需要空間和時間與資源來逐步完成。

客傳會的立場,我們除了推動節目、文化、傳播方面的客家文化發展,數位平台上的客語相關解決方案,客傳會也願意提供自己包括薪傳師、資金、空間等資源來協助,以及大量的五種腔調節目音檔作為公共財加速客語各種應用的開發使用,更希望能夠促成採用新輸入法引擎的跨平台客語輸入法能夠誕生,希望能解決 iOS、Android 兩平台上沒有跨平台客語輸入法的問題,假設能透過類似的輸入法框架,共通相同的客語詞彙庫、字庫,定期能維護和擴充,讓Windows、Mac 與 Linux 等平台也能共下使用是很棒的。如果開源人社群能夠提供我們一些建議與指引,我們會萬分感謝。

資訊使用介面整合及跨平台對話

目前聽聞 Phah Tâi-gí 台語輸入法在 Android、iOS 兩平台的共通性上有了很好的發展,我們也很希望與這樣的團隊做交流與合作,協助打造出優秀的母語輸入法來,讓更多使用者可以在台語(台灣閩南語)、台灣客語、台灣原住民語的資訊應用發展上有更多經驗的傳承,並減少繞路前行的時間。

而線上的華語轉客語、客語轉華語的自動文字翻譯功能,現在已經有人製作 了,但還是需要有系統性地去維護資料庫,這也是我們希望能夠有機會協助的方向,設法完善各種使用者會用到的需求。

面對未來的更多智慧型應用,包括語音輸入、語音辨識,從衛福部關於疫情的指揮中心記者會現在已經有客語同步口譯轉播,華語在 Youtube Live 已經有提供線上自動語音轉文字輸入顯示的頻道,那是否有機會有客語語音自動轉換為文字的顯示呢?這也是我們期許的未來面向之一 。

目前客委會正在草擬《客家語言發展法》,期望以更廣泛、更具體的面向推動客語,以及參預了「國家語言發展會議」,相信未來會有更多語言相關的議題。而我們客傳會在針對客語資訊方面,在公共傳播與資訊領域能夠先做的,有哪些呢?

如果有興趣參與客家資料相關議題的,可以洽各地的客家 Wiki 寫作團隊,也可以和我們聯繫,我們會協助尋找適合的在地社群來一起攜手客家資訊的維基百科條目撰寫。這是個常年的資料編寫計畫,我們相信長期的耕耘,會對我們這塊土地與全球的連結,以及深化保存我們的文化,會一點一滴帶來更有幫助。

針對客語在電腦與手機等平台碰到的問題,我們會建立一個客語輸入與相關顯示議題的網頁,以及專屬信箱ime@hpcf.tw,提供給大家報名參與,亦能討論現況與未來的發展。

現有的問題就是我們需要盤點現有的客語輸入法資源,協助我們決定客語輸入法的框架與走向,我們會整備資源、參與社群對相關專案提供貢獻。

我們歡迎各界有興趣的人幫忙,同時也沒有語言上的限制,我們會適度安排參與的人員,以及協調出可行的專案來。以跨平台客語輸入法來說,是否能夠參考 Phah Tâi-gí 台語輸入法的框架與模式,我們透過建立詞庫的方式,以及選定或加入適當的輸入法,來實現跨平台客語輸入法的誕生。相關的聯絡方式與議題的討論,都可先寫信到 ime@hpcf.tw,我們也設立了 https://ime.hpcf.tw 這個網頁來當作我們的前進點,需要大家的提點或建議。

目前手機平台上還沒有開放原始碼授權的跨平台客語輸入法,以及搭配的客語字集,因此透過群募、我們提供資源等方式,會很期待它能夠在未來順利誕生,也會是開放原始碼授權的形式,提供給公共使用。

下午的議程,有:

五溝工作站的林品軒及劉晉坤站長

五溝聚落位在屏東萬巒,是全國第一個指定保存的客家聚落。五溝水駐地工作站長期在地方進行水文生活及生態調查、環境復育、客家伙房、殲炮城及產業文化的有關工作的經營和推展,與在地人共同守護濕地水圳多年,嘗試在經濟活動與文化、生態保育間取得平衡。隨著工作站陸續有年輕夥伴加入,漸漸意識到過去累積豐厚的一手資料,面臨資料的建置、資料如何分類的問題,也發現客語傳承的挑戰,除了日常生活的使用外,也存在著語言如何透過網際網路流通、與人互動溝通的挑戰。

桃園市客家文化基金會的蔡濟民

在文學與生活間擺渡的家鄉敘事,2019年4月正式對外開放的鍾肇政文學生活園區,在歷經多年保存行動,從策劃龍潭魯冰花藝術季開始,便跟著「跨語言世代」代表之一的鍾老,他將龍潭家鄉的山、水及生活寫進文學作品,無論是乳姑山、龍潭大池、九座寮泉水窟等地景,從人的生活場域轉化成文學地景。而隨著園區的開放,桃園市客家文化基金會延續過去所累積的基礎,以文學作品、多媒體、文化展覽及推廣連結社區,同時也思考數位時代,以鍾老、文學作品及相關文物為核心建構雲端博物館,並順應客家開放資料S計畫的推展,嘗試將一手二手資料推向公眾共享的文化財。

大茅埔調查團的吳哲銘

成軍四年餘的大茅埔調查團,長期在地方蹲點做地方文史、水圳生態等的調查,一邊做社造一邊聽耆老講述東勢大茅埔的生活文化記憶。2020年10月起與團員訂出一天調查日在外面跑,一天維基日共讀資料的定期聚會,想好好面對觀點紛紜的眾聲。隨著大量圖文資料的系統化、維基化的整理過程,一天天累積的新發現、新線索日益龐雜,我們意識到越來越多在地口述與既有文獻立論觀點存在著矛盾,也更加好奇近期找到的老石碑,如果它會講客語,將如何改變近代中臺灣客家聚落發展的歷史觀點!?以及維基客語拼寫書寫的可能性。

他們講述的故事與內容也都是非常值得大家參與,我們下午見。

承蒙大家~~

希望客傳會與講客廣播電台前行的偉大航道上,能夠有你有我,共下一起飛~~

哪裡有客家,哪裡就有客傳會。

留言

這個網誌中的熱門文章

Kronos 如何做到世界級的成績

  由資深華爾街投資人領軍於 2018 年成立,Kronos Research 結合人工智慧、機器學習、高速網路等先進技術,透過進階的資料分析開發出獨家的量化交易預測模型,並使用全自動的交易策略自營,同時作為加密貨幣造市商,提供全球加密貨幣商品的即時報價。至今四年的時間,便擠身全球前五大的加密貨幣量交易團隊,創下 2021 年每日平均交易額 50 億美金,單日最高交易額 230 億美金的記錄。 人才和技術是 Kronos 最重要的兩大要素,團隊採開放式合作、解決問題導向、美式工作風格,Kronos 期許任何職位的夥伴,都能信任彼此、安心發問、共同快速解決問題。主管的管理策略,不同於傳統上對下的管理,而是以幫助者的角色,解決不同的需求,放大每個職位的生產力。我們希望這個產業在台灣能夠茁壯,讓台灣的技術人才知道有這個國際舞台可以發揮。 一窺量化交易技術及團隊 高頻交易跟一般大家熟知的交易最大的差距在於自動化。我們熟知的交易模式多半透過人工,由交易員綜合市場資訊後向交易所下單;高頻交易則是由程式自動判斷市場資訊並且下單。高頻交易多半關注短時間的市場波動,在收到市場報價後,在極短時間透過預先訓練的統計模型做出買賣決策。在高額報酬的背後,結合了不同專業:包括資料科學、統計與機器學習、底層系統優化、以及分散式系統。 高頻交易的流程,從 Market Data Parser 作為源頭持續搜集來自交易所的歷史資料,交由 Alpha Modeling 訓練出可預測未來短時間市場變動的模型。接著交易團隊撰寫策略程式,並依據策略需要套用選擇合適的 Alpha 模型,由極低延遲的交易程式向交易所下單。以下是各模塊的介紹: Market Data Parser(Data Team):高頻交易是一個資料驅動的行業,全面且高正確率的資料對於後續訓練很重要。Kronos Research 在全球十多個機房內有數百台服務器,每天 24 小時不間斷錄製來自交易所的報價單。面對每天 10TB+ 的巨量資料,data team 大量使用雲端分散技術以及自動化技術確保資料流的穩定。 Alpha Modeling(Alpha Team):在投資市場中,Alpha 代表著高於大盤的超額收益,Alpha Model 則代表預測將來市場的數學模型。Alpha Team 透過統計以及機器學習,以敏銳的邏輯跟觀...

2025 議程人氣大揭密!

COSCUP 2025 議程人氣大揭密! 7/9 議程測試上線,今年的 COSCUP 大家最關注的究竟是哪些議程?為了滿足(我們自己也很好奇)大家的好奇心,我們分析了一下 Google Analytics (GA) 報表的排行榜:「最多關注(瀏覽數)」、「最高人氣(活躍使用者數)」及「最具深度(每位活躍使用者的平均參與時間)」來啦! 不管你是第一次參加 COSCUP 的新朋友,還是每年都熱情參與的忠實社群夥伴,都歡迎來瞧瞧這份議程人氣大揭密! 三大指標,看懂關注焦點 我們這次的分析分為「台灣」、「國際」以及「加總」三個區塊,每一個都分別整理出前幾名的議程,讓你快速掌握不同參與者的興趣點。 最多關注(瀏覽數): 最直觀地告訴我們,哪些議程最吸引大家的目光。 最高人氣(活躍使用者數): 讓我們了解,哪些議程讓最多人真正點進去、一探究竟。 最具深度(每位活躍使用者的平均參與時間): 幫助我們發現,哪些議題讓大家停留最久,深入了解內容。 從數據看趨勢,今年的議題熱點 從這份資料中,我們可以觀察到今年 COSCUP 大家感興趣的話題,不僅有傳統開源軟體與程式語言,更有不少議程圍繞在 AI、資料治理、安全合規,以及社群經營等熱門趨勢。 以瀏覽量最高的議程來看,許多朋友依然熱烈追蹤知名講者與經典技術主題。而從參與時間的深度指標來看,一些議題雖然未必獲得大量瀏覽,卻能讓點進去花更多時間細細品味。 同時,我們特別針對國際觀眾的喜好進行分析,也看出國際社群更偏好具有跨國經驗分享、全球趨勢分析與技術實踐經驗的內容,讓我們更加理解國際與在地社群的共同性與差異性。 一起掌握開源潮流!  國際大家看什麼? 最多關注 排名 作者 議程標題 Track 日期時間 議程教室 1 王良丞/LCWang 4色小尺寸電子紙的DRM驅動程式開發之旅 System Software 08-10 09:30 TR213 2 John Ho 何重義、Jessie.D Chang 聊心茶室媽媽桑、Joanna Chen陳芸緻、Bernice Ch...

COSCUP 2023 徵稿辦法 / COSCUP 2023 Call for Proposals

今年 COSCUP 一如往常,徵求各式各樣不同的 Open Source 相關稿件。請於 5 月 22 日 (UTC-12) 前投稿,或可參考本頁下方各議程軌資訊。 請注意, 每場議程長度預設為 30 分鐘 , 惟指定議程軌開放其他議程長度進行選擇 ,會在報名表單第二頁進行填寫,報名表單第一頁的提交型態中,請選擇預設值。 為了追求與全球社群更良好地溝通, 今年所有選中的議程都必須提供英文版的資訊 。一旦您的議程入選,我們會請您提供議程資訊的英文版翻譯。您仍可以自己偏好的語言演講或撰寫 CfP 稿件。 提醒您,COSCUP 是一個倡導開放的研討會,所有演講將錄影並以創用 YouTube CC 姓名標示-相同方式分享 4.0 釋出。如果您的演講有任何不能錄影或不願以此條款釋出的狀況,請務必於投稿表單上註明。 We are looking for talks in several open-source related areas, please submit your proposal before May 22th, 2023 UTC-12. After the review process from the coordinators, we will publish the full programme in early June. Please note that the length of each agenda is preset to 30 minutes, only the specific tracks are open to other agenda lengths for selection, which will be filled in on the second page of the registration form. In the submission type on the first page of the submission form, please select the default value (30 mins) . For better communication with the global community, we require En...