跳到主要內容

加入玉山 Data Engineer,打造新世代 AI 平台

玉山銀行自 2018 年成立智能金融處,至今已執行超過半百的 AI 專案,建立了 AI 研發雲提供 Data Analyst 訓練模型與開發 AI 服務,並大量使用開源專案打造機器學習即服務平台(Machine Learning as a Service, MLaaS)提供部署 AI 模型與服務。在 2020 年開始啟動了 MLaaS 2.0 升級計劃,將 AI 服務容器化,透過容器叢集管理平臺 K8s 管理,使用了 FaskAPI 作為模型推論 API 的框架,並導入 Apache Airflow 作為特徵工程、模型訓練流程管理框架。

玉山銀行的 Data Engineer 們正朝向透過開源專案推行 MLOps 與 SRE,致力於回饋開源社群,如果你對打造新世代 AI 平台有熱情並有以下特質,歡迎一起加入玉山 Data Engineer 的行列!

  • 對於分散式系統架構(設計或原理)有強烈好奇心
  • 具有強烈學習慾望,不排斥新工具及新觀念
  • 對於系統平台穩定具有捨我其誰的使命感,並願意說服團隊認同降低故障成本是一件值得驕傲的成就
  • 熟悉 Python / golang,具有開發 WebService API(REST)經驗
  • 對程式碼有潔癖,且開發過程一定會搭配測試程式
  • 對於重複執行的瑣事會忍不住寫程式自動化

機器學習平台工程師

Job Description

  1. 巨量結構化資料、半結構化資料甚至非結構化資料的分析、處理與儲存
  2. 打造機器學習平台及系統軟體框架,將機器學習建構在分散式系統及微服務系統(docker)之上
  3. 參與機器學習 (Machine Learning) 專案開發、資料特徵工程、規劃設計次世代機器學習平台發展與藍圖等任務
  4. 具備 SQL 技術能力,熟悉 Linux、 Python 程式開發、Git 版本控制,略懂資訊安全及網路傳輸相關基礎知識
  5. 具備金融/金流/支付相關知識和興趣,且有專案管理及良好溝通協作能力

Requirements

  1. 3 年以上系統管理及維護經驗,具備技術架構規劃能力與制定技術規範(大數據傳輸及倉儲等)
  2. 具備機器學習、深度學習框架(Tensorflow, Keras)經驗
  3. 熟悉 Django / uWSGI / Flask框架開發與應用
  4. 認同 DevOps 文化與 Open Source 理念,願意挑戰高流量 MLOps 相關工作
  5. 具備以下系統建置、調校維護實務經驗之一尤佳,PostgreSQL/ElasticSearch, Fluentd, Kibana/Kafka/Nginx/ Kubernetes/CEPH/ JupyterHub

Developer, Data Engineering

Job Description

  1. 運用分散式儲存與運算技術挑戰巨量結購化資料、半結購、非結購化資料的分析、處理與處存與建立 data pipeline

Requirements

  1. 具備 SQL 技術能力
  2. 熟悉 Linux、Python 程式開發、Git版本控制
  3. 略懂資訊安全及網路傳輸相關基礎知識
  4. 具備以下任一系統建置、調校維護實務經驗尤佳:PostgreSQL, ElasticSearch, Kafka
  5. 具備 Airflow 經驗

後端工程師 Back-end Enginee

Job Description

  1. 內部 API 系統串接整合
  2. 將機器學習產品中的各模組給與打包整合
  3. 開發機器學習人機互動回饋程式

Requirements

  1. Python 後端開發經驗
  2. 至少熟悉一項 Backend Framework (Django、Flask or Fast API)
  3. 熟悉API開發與設計(RESTful API)
  4. 熟悉關聯式資料庫(PostgreSQL 尤佳)
  5. 熟悉 Git 版本控管
  6. 熟悉 Linux 基礎指令
  7. 對程式碼的設計有自我要求,重視個人的開發品質
  8. (加分條件)任何機器學習框架有相關經驗
  9. (加分條件)有使用 Docker or K8s 的經驗
  10. (加分條件)有使用 Airflow 的經驗
  11. (加分條件)熟悉 Unit test、TDD 開發流程
  12. (加分條件)有高流量系統架構設計經驗
  13. (加分條件)有 Open Source 相關經驗
  14. (加分條件)Kaldi 使用經驗

更多職缺資訊,請見玉山銀行網站

  • Developer, ML Service Platform
  • System Administrator, Data Analysis Platform
  • 資料庫管理工程師
  • 前端工程師 Front-end engineer

留言

這個網誌中的熱門文章

利用 Jitsi 建立個人化的視訊會議平台

  近期因為疫情的關係,越來越多企業開始實施分流或在家工作,視訊會議的需求也日益增加。 在商用解決方案選擇上,有不少企業會選擇知名品牌的產品,例如  Cisco Webex 、 Google Meet 、 Microsoft Teams 、 Zoom  都是很不錯的方案。 KKBOX 集團在去年便試行及做好充分 work from home 的準備,今年五月也因應疫情升溫,全員 work from home 至今兩個月有餘。 當然,取之 Open Source,也要對社群有些貢獻。在這一屆 COSCUP,我們要來介紹 Open Source 圈中也很知名,效果也很不錯的一套視訊會議平台: Jitsi 。 除了基本的視訊會議功能外,在最後我們也會示範如何透過 Jitsi 畫面輸出到 YouTube/Twitch 或其他支援 RTMP 的平台進行直播。 由於篇幅有限,且 Jitsi 可以調整的細節非常多。今天我們純粹很快速的示範,如何簡單的建置出一個 Jitsi 環境,並提供單場會議內容錄影或直播。 Jitsi 的文件可以在 這裡 找到。 今天透過 AWS Lightsail 的 $10/month instance(1 core CPU + 2GB RAM + 60GB SSD),作業系統則是 Ubuntu 20.04 來示範。當然,使用其他 VPS 亦可,大同小異,這邊直接跳過 VPS 相關的建置過程。 *firewall 相關資料參考 這裡 及 這裡 。 針對系統做必要的更新 基本的 apt repository 更新: $ sudo apt update 因為後面要示範的會議錄影及直播需要使用 ALSA loopback device,如果是 EC2 or Lightsail 則需要額外安裝 generic kernel( 註 ): $ sudo apt install linux-image-generic linux-headers-generic linux-image-extra- virtual 接著做系統套件們的更新: $ sudo apt dist-upgrade $ sudo apt autoremove 如果是 AWS EC2 or Lightsail 則需要另外再將預設的 AWS optimized kernel...

鑽石級贊助商 - KKBOX 帶你打造具備 NLP 功能的 Telegram Bot (上)

打造具備 NLP 功能的 Telegram Bot(上) 最近因為一些契機學了 Python 3,用它做了一個 Telegram Bot ( GitHub 連結 ),裡面用到 NLP Service,用上下兩篇文章記錄一下實作過程還有眉角。上篇首先教大家如何做一個最基本的回聲 Chatbot,接下來我們可以透過 NLP 服務,讓 Chatbot 根據使用者不同的訊息做回答,這樣就變成更加人性化的聊天機器人囉! 使用的工具及服務: Python 3 (for develop) pipenv (for dependency management) OLAMI (for NLP) ngrok (for testing) Step 1. Creating new bot Telegram 很有趣的地方在於,與其他通訊軟體(Line、Messenger)相比,開發者管理 Bot 的方式也是透過官方提供的一位 Bot 在處理的,它叫做 BotFather (眾 Bot 之父 XD)。如果已經有 Telegram 帳號,只要加 BotFather 為好友,就可以開始管理你的 Bot。 加入 BotFather 好友後,它會親切地問候,並告訴你他能為你提供什麼服務。 I can help you create and manage Telegram bots. If you're new to the Bot API, please see the manual ([https://core.telegram.org/bots](https://core.telegram.org/bots)). You can control me by sending these commands: /newbot - create a new bot /mybots - edit your bots [beta] /mygames - edit your games ([https://core.telegram.org/bots/games](https://core.telegram.org/bots/games)) [beta] Edit Bots /setname - change a bot's name /setdescr...

機器學習的五大實務問題:對企業的影響與相應的化解方式

Appier 首席機器學習科學家 林守德博士 正如 Jason Jennings 及 Laurence Haughton 在《以快吃慢–如何藉速度在商戰中克敵制勝》一書中指出──未來,不是大公司吃掉小公司,而是速度快的公司吃掉速度慢的公司。 從現在開始,唯有善用適當的資訊快速做出決策的企業,才能成為戰場上的贏家。 機器學習技術驅動了這場變革。無論企業是嘗試向顧客提出建議、改進生產製造流程或應對市場的變動,都能運用機器學習技術處理大量的資料,進而提高自身的競爭優勢。 然而,機器學習雖能創造大好機會,卻也同時帶來了相應的挑戰。機器學習系統需要大量的資料,以及執行複雜的運算能力。顧客期望改變、出乎意料的市場波動等等外部因素,都意味著機器學習模型的運作並不是百分之百的自動,往往仰賴許多外部的資源來作監控及維護。 此外,機器學習也有不少尚待解決的實務問題。以下將深入探討機器學習的五大實務問題,以及這些問題對企業應用會產生的影響。 1. 資料品質 機器學習系統仰賴資料進行訓練,而訓練資料在廣義上可分為「特徵」及「標籤」兩種類別。 「特徵」是輸入機器學習模型的資料,像是來自感測器、顧客問卷、網站 cookie 或歷史資訊等等。 然而這些特徵的品質可能良莠不齊。舉例而言,顧客在填寫問卷時可能會隨便填寫,或對題目略而不答;感測器可能因失靈而回傳錯誤資料;即使使用者的網頁行為明確,網站 cookie 回報的資訊也可能不完整。 此外,資料也可能包含雜訊,當無謂的資訊夾雜其中時,機器學習模型將會受到誤導而做出不正確的預測。 相較於「特徵」,「標籤」的正確性與穩定度更為重要。標籤是機器學習模型最後輸出的結果。所以需要在訓練的時間利用正確的結果教導機器學習模型。標籤的稀疏性也是個問題,這是當系統已掌握大量輸入的資料卻對輸出的結果沒有把握時出現的現象。在這樣的情況下,將難以針對該模型偵測其特徵與標籤之間的關聯性優化,甚至需要耗費額外的人力干預,將標籤與輸入資料關聯起來。 機器學習需仰賴輸入與輸出資料的關聯,才能具備足夠的泛化能力以預測未來行動並提供相關建議。因此,如果輸入資料過於雜亂、殘缺或有所偏差時,將可能難以理解某輸出/標籤的產出原因。近年來機器學習也開發出許多先進的方法如半指導式學習,轉移學習來處理這樣的問題。 2. 複雜性與品質的取捨 建立強大的機器學習模型需要大量的計算資源來處理特徵和...