跳到主要內容

機器學習的五大實務問題:對企業的影響與相應的化解方式

Appier 首席機器學習科學家 林守德博士

正如 Jason Jennings 及 Laurence Haughton 在《以快吃慢–如何藉速度在商戰中克敵制勝》一書中指出──未來,不是大公司吃掉小公司,而是速度快的公司吃掉速度慢的公司。

從現在開始,唯有善用適當的資訊快速做出決策的企業,才能成為戰場上的贏家。

機器學習技術驅動了這場變革。無論企業是嘗試向顧客提出建議、改進生產製造流程或應對市場的變動,都能運用機器學習技術處理大量的資料,進而提高自身的競爭優勢。

然而,機器學習雖能創造大好機會,卻也同時帶來了相應的挑戰。機器學習系統需要大量的資料,以及執行複雜的運算能力。顧客期望改變、出乎意料的市場波動等等外部因素,都意味著機器學習模型的運作並不是百分之百的自動,往往仰賴許多外部的資源來作監控及維護。

此外,機器學習也有不少尚待解決的實務問題。以下將深入探討機器學習的五大實務問題,以及這些問題對企業應用會產生的影響。

1. 資料品質

機器學習系統仰賴資料進行訓練,而訓練資料在廣義上可分為「特徵」及「標籤」兩種類別。

「特徵」是輸入機器學習模型的資料,像是來自感測器、顧客問卷、網站 cookie 或歷史資訊等等。

然而這些特徵的品質可能良莠不齊。舉例而言,顧客在填寫問卷時可能會隨便填寫,或對題目略而不答;感測器可能因失靈而回傳錯誤資料;即使使用者的網頁行為明確,網站 cookie 回報的資訊也可能不完整。

此外,資料也可能包含雜訊,當無謂的資訊夾雜其中時,機器學習模型將會受到誤導而做出不正確的預測。

相較於「特徵」,「標籤」的正確性與穩定度更為重要。標籤是機器學習模型最後輸出的結果。所以需要在訓練的時間利用正確的結果教導機器學習模型。標籤的稀疏性也是個問題,這是當系統已掌握大量輸入的資料卻對輸出的結果沒有把握時出現的現象。在這樣的情況下,將難以針對該模型偵測其特徵與標籤之間的關聯性優化,甚至需要耗費額外的人力干預,將標籤與輸入資料關聯起來。

機器學習需仰賴輸入與輸出資料的關聯,才能具備足夠的泛化能力以預測未來行動並提供相關建議。因此,如果輸入資料過於雜亂、殘缺或有所偏差時,將可能難以理解某輸出/標籤的產出原因。近年來機器學習也開發出許多先進的方法如半指導式學習,轉移學習來處理這樣的問題。

2. 複雜性與品質的取捨

建立強大的機器學習模型需要大量的計算資源來處理特徵和標籤,編寫複雜的模型更需要AI科學家和軟體工程師投入大量心力,同時也需要強大的計算能力、較長的執行時間,才能夠得出可用的結果。

而企業必須在這樣的情況下權衡利弊。可以選擇較快的開發速度或響應速度,但是結果可能不夠精確;或是可以接受較慢的速度或使用比較多的資源,但是獲得相對精準的產出。不過,無論是以較高成本換得精確模型或選擇以速度取勝,整體而言仍需視應用的情況而定,企業未必會因取捨而吃虧。

舉例而言,由於零售購物網站對顧客進行推薦需要即時應對,則此時成果即使出現意料外的變化,也仍在可接受範圍。然而,金融交易系統則會需要較可靠的判定結果。由於不需要即時產出結果,系統能運用更多資料讓模型執行更精密的計算,以便產出更理想的結果。

隨著「機器學習即服務」(Machine Learning as a Service,簡稱「MLaaS」)進入市場後,模型複雜性和品質間的利弊權衡開始受到更多關注。芝加哥大學的研究人員深入分析機器學習即服務的成效後,發現「如果能為關鍵決策(如分類器和特徵選擇)產出足夠的洞察,則其所能達到的效益相當於另一個獨立的分類器。」

3. 資料的樣本偏差

許多企業會借助機器學習的演算法進行員工招聘。不過,Amazon卻發現用於輔助挑選適任應徵者的演算法其實並不公正。此外,普林斯頓的研究人員也指出,有些系統彷彿像人類般擁有好惡,傾向選擇帶有歐洲色彩的姓名。

這不僅是模型發生問題,更多來自用以訓練模型的資料本身帶有偏見。幸好,在察覺資料出現偏差後,科學家便能設法將其導正,或盡可能降低偏差對資料的影響。

第一項挑戰便是判定資料是否含有偏見,這表示須執行額外的前置作業。雖然不可能將資料的偏見全數消除,但仍可藉由導入人類知識將影響降至最低。近年來也有許多帶有公平性原則的機器學習模型被提出,希望能夠處理這樣的問題。

而在部分情況下,也可能需要限制模型中可以使用的特徵數量。例如,在模型產出結果時,忽略某些特徵(如種族或膚色)將有助於減少偏差資料的影響。

4. 變化多端的顧客期望與概念漂移

機器學習模型會在特定情境下運作,而顧客追求的也不一定一樣。以數位廣告為例,有些客戶在乎的是點擊率,有些客戶在乎的是購買數量,有些客戶在乎總營收,有些客戶甚至有更複雜的評估機制。如果機器學習模型無法與時俱進地跟上顧客需求,則可能被淘汰。

模型可能因不同原因而出現衰退的現象。當新資料引入模型時發生漂移,即稱為「資料漂移」。或者,當人們對資料的解讀以及需求有所改變時也會發生漂移,即為「概念漂移」。

而為了適應上述的漂移現象,模型必須善用不斷新增的資料持續自我更新和進步。這也意味著必須定期對於模型作一些偵測與測試,讓機器學習的模型有「自我修正」的能力。

持續收集特徵及標籤並即時應對變化,才能讓模型適時更新並維持最佳狀態。雖然模型能夠自動執行某些層面的再訓練,但有時候人為的介入還是有其必要性,例如常常我們需要考慮新的特徵,或是更換學習的目標函數。

5. 監測與維護

建模其實不難,甚至可以將整個流程自動化。然而,許多模型的維護及線上服務需要完善的計畫與相應的資源。

機器學習模型只是系統產生結果流程中的一部分,這個流程包含前端的資料蒐集與校正,以及模型結果產生後的後製與顯示,再加上對於模型結果的回饋也需要重新回到模型本身來調整。這整個系統中任何一個環節都可能出錯,尤其是當企業有數以千計甚至萬計的模型在線上服務的時候。

所以在MLaaS的使用情境下,當模型產出的結果出乎預期時,有時不是源於機器學習的模型預測錯誤,而是作業鏈中出現問題。舉例而言,推薦引擎需與線上網頁建立連結以向顧客展示商品;而當連結中斷或是有延遲的時候,客戶的點擊率就會被影響。這樣的結果並不是模型推薦錯誤造成的,而且往往要花上一段時間才能找出錯誤。所以,如何能夠快速的找出可能的問題所在,反而是MLaaS相關企業非常需要的能力。

機器學習可為企業帶來不少益處。預測未來結果以推斷並影響顧客行為,以及協助企業運作等等,都是機器學習能提供的實質效益。然而,機器學習同時也為企業帶來了不少挑戰。企業應對相關挑戰有所了解並發展因應的解決策略,準備周全之下才能安心地運用機器學習。

強力徵求

Machine Learning Scientist

Responsibilities

  1. Use machine learning and analytical techniques to build prediction models for advertising/enterprise solutions.
  2. Experience in analyzing and extracting valuable information from large amounts of business data.
  3. Design, develop and test advanced models for predictive consumer behavior.
  4. Co-operate with software engineering teams to drive real-time model implementations and new feature creations.
  5. Design efficient, scalable, automated processes for large scale data analyses, model development, model validation and model implementation.
  6. Research and evaluate pioneering machine learning and statistical models.

Backend Engineer

Responsibilities

  1. Developing and operating scalable, reliable and maintainable service-based softwares and related components.
  2. Cowork with team members to design system architecture, choose proper technologies and plan development.
  3. Design & develop server-side architecture & function logic of new services.
  4. Design and maintain database schemas for new services.
  5. Ensures the scalability of the system.
  6. Ensure the high performance of responsiveness to requests from the front-end.
  7. Integrate the front-end modules built by your coworkers into new services.
  8. Responsible for laying the foundation for the platform as well as proposing solutions to ease software development, monitoring of software, etc.
  9. Profiling and performance tuning of critical components.
  10. Deploy system to production and monitor service health.
  11. Participate in idea brainstorming and contribute ideas to technology, algorithms and products.
  12. Participate on-call rotation within the Backend team to ensure product reliability and scalability.

Frontend Engineer

Responsibilities

  1. Design & develop front-end architecture & interactive user interfaces.
  2. Integrate the back-end modules built by your coworkers into new services.
  3. Ensures the flexibility of front-end architecture.
  4. Ensure the high performance of responsiveness.
  5. Build reusable code and libraries for future use.
  6. Build unit tests and test automation.
  7. Perform code reviews to ensure existing code stays high-quality, fast, and flexible.
  8. Handle and resolve issues escalated from the production operational environment.
  9. Participate in idea brainstorming and contribute ideas to technology, algorithms and products.

其他職缺更多職缺資訊,請見 Appier網站

  • Data Backend
  • Technical Program Manager
  • Product Manager
  • QA Engineer
  • Mobile Development
  • DevOps Engineer
  • Technical Solution Engineer

留言

這個網誌中的熱門文章

COSCUP 啄事今蜚會前快報 第一期

COSCUP 啄事今蜚會前快報 第一期 2014年06月18日發行 距離大會剩下一個月的時間, 精彩的議程內容即將就定位,讓小啄帶大家來看看今年有些什麼精彩的吧! 從沒有人到超多人: g0v社群經驗 g0v.tw 是一個跨界的開源社群,由一些熟悉軟體開源文化的人開始,從最初期就致力拓展到其他非資訊領域,因此在社群的推動上有各種不同努力。將近兩年來,關注社群人數爆炸性成長,社群因此經歷數次危機。但透過 g0v 與NGO、政府等實體組織互動、加強社群基礎建設、深化參與的文化,社群核心價值與開幹精神至今能量依然不減。此 talk 將以 g0v 為例,分享跨界社群的成長經驗,以及從開源社群拓展到民主深化的初步成果。 State of the unison: g0v 村情咨文 從 2012 底開始的 g0v 運動,成功集結開放源碼社群,並輸出開源文化至各領域,促使公民高效率協作,解決問題。本次演講將回顧 g0v 社群的成果,包括專案、與 gov 合作、國際交流,以及未來展望。 DevRel 的再思考   俺可以来讲讲大陆开源技术社区这12年. 相似演讲: - 幻灯: https://speakerdeck.com/ zoomquiet/140330-ostc-just4fun - 录音: http://zoomq.qiniudn.com/ CPyUG/140330-OSTC/ 140330_ostc_pm1_zoomquiet.MP3 - 录像: http://v.youku.com/v_show/ id_XNjk2OTcyODQ4.html" 更多議程請見 http://coscup.org/2014/zh-tw/program/

COSCUP 2023 會後感謝 | Post-COSCUP 2023 Appreciation

👋 [English below] COSCUP 2023 已在 7/29、7/30 舉辦完畢,在此感謝或有來參與活動的您! COSCUP 2024 目前還未有確切的舉辦時間,但我們會很有默契的知道,它會在七月底或八月初舉辦,地點依舊在臺灣科技大學。 雖然籌備團隊部分已進入冬眠階段,但各組仍然有人維持著最低限度看守著。如果對於 2024 年有任何想要合作的可能,我們都歡迎在此刻與我們繼續保持順暢的對話。 以下是各組的專用信箱或直接寄送到會眾信箱,帶著您的想法或提案與我們分享! 會眾信箱: attendee@coscup.org 贊助組: sponsorship@coscup.org 行銷組: marketing@coscup.org 議程組: program@coscup.org 或在活動期間有任何違反社群守則事宜,也請寄信到 coc@coscup.org 。 2023 下半年擺攤計畫 擺攤組目前在下半年還有擺攤任務進行,歡迎在參與活動的時候過來攤位逛逛!如有擺攤活動邀約,可以寄信到擺攤組信箱: booth@coscup.org HITCON (08/18, 19) PyCon TW (09/02, 03) MOPCON (11/11, 12) (未確定出攤) 行政組整地期招募 今年行政組無 2023 休耕期,歡迎持續與我們精實的整備再出發。 整地期預計 2023.09.18 開始,將招募行政組員培訓與規劃 2024。整地期間需要大量的腦力運算,招募對象來自於各專長領域均可,如果想要與我們一同辛勤耕耘,歡迎申請加入整地農事! 詳細的招募說明與申請,請參考: https://volunteer.coscup.org/docs/zh_TW/secretary_team/recruit/#2023-preparation 活動後 大會活動結束後,可以持續參與社群平時辦的小聚活動,我們鼓勵大家回到社群貢獻或是回饋,讓開源領域更佳熱鬧!(可以參考與我們一起合辦的 社群夥伴 喔!) 以下有幾個管道可以持續關注: 訂閱電子報 :我們會在下一屆啟動時第一時間告知! 加入志工 :想要與我們一起籌備 COSCUP 2024 嗎?直接登入志工平台,各組成立開始招募時也將發送通知!

COSCon 中國開源年會特別軌:「COSCUP 議程軌」徵稿開始!

COSCUP 於中國的國際交流特別議程軌開跑了!! 想從台灣交換至中國演講的朋友們別錯過了! COSCon 2023 官網 業界最具影響力的開源年度盛會 2023 第八屆中國開源年會 (COSCon’23) 將於 2023 年 10 月 28 日(星期六)- 29 日(星期日)在四川省成都市高新區菁蓉匯由開源社舉辦。 COSCon 以其獨特定位及日益增加的影響力,吸引越來越多的頂級企業和國際基金會的大力支持。與一般企業、IT 媒體、行業協會或國外基金會在國內所舉辦的行業大會大不相同的是,COSCon 除了吸引跨企業和跨項目社區的不同用戶之外,也專註於吸引國內外大咖開源開發者、貢獻者和提交者的關註及參與項目及其社區。 今年的 COSCon 以「開源:川流不息、山海相映」為主題。 我們相信,開源之水將如山川間的溪流,生生不息,永不枯竭,無論是「峰會」還是「海會」,總有一個能容納心向開源的你。 在「後新冠時代」的第一年,我們將採用「烽火模式」,即在主會議後再在有意向的城市舉辦 After Party,將全球聚集而來「開源火種」在全國傳遞,以促進各個城市的開源文化傳播和開源人交流。 目前擬舉辦 After Party 的城市有北京、上海、成都(如果您所在的城市也希望舉辦 Affer Party 歡迎和我們取得聯系)…… 我們策劃的論壇主題包括但不限於:人工智能、開源商業、雲計算、大數據、區塊鏈、物聯網、開源教育、開源文化、開源治理、開源硬件、開源操作系統、女性論壇、開源公益、Web應用開發、開源百寶箱以及閃電演講等。除了各種會議,我們還將舉辦極具特色的“開源市集”,“開源市集”除了有展商的展台,還有各種有意思的小活動、小遊戲,通過遊戲化、娛樂化的方式普及開源文化,倡導開源精神。 COSCUP 今年與 COSCon 進行講者交流合作,於台灣及中國之間交換講者,建立國際交流的重要機會,讓雙方講者都能夠來往交流,特別是提供台灣的開源人更有機會到中國發表演講。 我想要投稿✋ 徵稿期間:即日起~9/13 止 徵稿對象:願意配合 COSCUP / COSCon 對此專案相關宣傳及訪問者; (及需要有被中國接受的證件才能出國。) 徵稿內容:各式 Open Source 相關議題皆可投稿; 請參考 COSCon 今年徵稿論壇類別 (上述) 。 演講