訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
大數據背景挑戰精準醫療拼圖!亞大基因催生基因定序的軟體應用
數位時代James Huan
獲取產業訊息零時差!立即訂閱電電公會電子報。
潛心研究資訊安全大數據演算的張明台與蘇中才,以開源技術催生次世代基因定序進行精準醫療所需的演算流程產品,搭配成功創業家王耀庭與詹佳翰的經驗熬等市場起飛

網路釣魚(Phishing),是駭客企圖在一般的網路通訊過程中,偽裝成值得信賴的常用網路服務,騙取用戶在不自覺下,輸入用以登入的用戶名稱、密碼,甚至個人隱私資訊、信用卡帳號等等。這項發展已接近 30 年的詐騙伎倆,隨時光與網路技術的演進不停變種,一度成為互動式網站發展的一大難題。

2007年,加入趨勢科技滿三年的張明台興致勃勃,想在公司發展機器學習技術,用以協助客戶快速辨識網路上日益增長的各類網路服務是否遭到網路釣魚攻擊,「當時網頁技術進展還在 Web 1.0 到 2.0 之間,還沒有現在使用者介面這樣多樣的互動式效果或排版。」張明台分享,當時駭客正以快速、大量地、即時地複製特定網路服務的相關登入頁面,因此能即時、精準地自動化判斷網頁服務是否遭到網路釣魚攻擊就成為網路安全技術的一大需求,就是直接學習預測使用者應對到的網頁與真實網頁間連結與內容的關聯性,同中求異,異中求同。「所以我們覺得這樣的需求,在核心技術團隊也許可以機器學習技術來進行分析,以應對網路攻擊上快速成長的需求。」張明台說。

為此,趨勢科技成立了一個研發團隊,延攬了蘇中才博士與相關工程師,結合技術架構師陳永強博士進行研發。為了應對難以估計的網路資料量,同時需要實作能夠將大規模數據進行分散式拆分、同步平行運算的數據架構。那時候,Google 才剛發表了 MapReduce 的軟體架構概念,用以在大規模資料集的同步運算,「所以我們需要開始研究如何搭建 Hadoop 這樣的開放原始碼、當時還在非常早期版本的分散式運算架構。」幾個月之後,蘇中才與研發團隊順利實作出第一版可以分散運算的技術系統框架,讓本來預期不會太順利的張明台意識到,大數據應用不再遠在天邊,而是真的可能實現的資訊服務。

隨後幾年,一心想挑戰職涯的張明台,在趨勢科技轉換跑道,從核心技術團隊前進到產品行銷領域,需要協助前線銷售團隊達成目標。「那個過程令我震撼!」張明台回憶,對軟體公司來說,核心技術團隊的工作,往往僅只需要在辦公室認真打磨技術,程式經過產品工程師的包裝之後透過業務團隊進一步交付給客戶,但前線面對客戶時,交付產品的過程什麼問題都有。「客戶可能需要你把程式安裝在他們的機房裡,並不是可以透過網路直接交付的狀態。」張明台分享,自己曾和業務一起預先安裝程式在主機上,花一兩小時時間叫車,扛著裝有公司產品程式的伺服器去拜訪客戶交付,「結果插著電,主機程式跑不起來,對方只給你 10 分鐘,交不了貨你也只得再搬回去,回家測試明天再來!」前線打仗的經驗讓張明台學到,技術產品需隨客戶需求調整,程式的穩定性、交付的適應能力對於 B2B 的技術服務打入市場、取得商業戰果尤其關鍵。

「人是永遠不滿足的!」張明台回想 2014 年決心投入創業的過程:「看到很多朋友創業,其中也包含自己過去的同事,就會有那種別人可以,我為什麼不行的感覺!」想要繼續挑戰職涯的張明台於是找了蘇中才一起討論創業構想,一次吃飯後,蘇中才一句「好啦你如果真的要創業我就陪你!」啟動了兩人的創業夢。

「一開始根本沒有創業題目。」張明台回憶,電腦科學出身的兩人,那時曾考慮過非常多不同的題目,因緣際會碰到過去蘇中才博士班時期的學姊,留在學界的臺灣大學生物產業機電工程學系教授陳倩瑜,聊到當時正開始蓬勃發展的次世代基因定序研究。

基因定序,堪稱人類對生物醫學研究的最後一塊拼圖,如果能觀察基因,人類就有機會如上帝視角,得知生長、疾病與基因之間的可能關係,甚至有機會透過修改基因來改變未來的子代、醫治疾病。在觀察到生物是由遺傳物質,也就是去氧核糖核酸 (deoxyribose nucleic acid, DNA)所組成、規範之後,如何將人類 23 對,共 46 條長鏈雙股的染色體全部解讀,將 DNA 片段上包含腺嘌呤(adenine, A)、胞嘧啶(cytosine, C)、鳥嘌呤(guanine, G)與胸腺嘧啶 (thymine, T)等四種不同鹼基的核苷酸序列全部列出,變成研究生物技術學者的一大挑戰。

解讀這條數千萬,甚至是數億個核苷酸連接而成的長鏈分子如此難以挑戰,除了需要設計特別的實驗方法才可供觀察,每次實驗只能獲得一小段 DNA 片段的成果,能夠同時進行定序的數量十分有限,更別提像是人類基因體這麼長又這麼多對的序列,做出一個人就得花上很長時間。事實上,人類第一套基因體定序計畫就從 1991 年啟動,直到 2003 年才完成完整的第一套人類全基因體參考序列。

基因定序如此之難,以致於學界更致力在突破定序技術,可以更高通量同步實驗,僅需數千美金、在幾週內就可以完成一個人擁有全基因體定序的次世代定序技術(next-generation sequencing, NGS)應運而生,定序成本甚至快於摩爾定律對半導體產品價格下跌的預測,定序逐漸成為臨床學術研究、甚至一般人可以負擔的一項技術。

基因定序技術與結果之所以如此迷人,在於當定序不再只是富人才能進行的一項科技,一般人有能力知道自己的基因體DNA序列,可能就有機會針對這些基因序列進一步進行應用,比對可能潛在會發生的疾病、或甚至針對透過自己的基因體序列進行計算,得知不同藥物或療法可能會對個人產生的反應,針對不同患者設計療法變為可能;精準醫療,成為這項技術帶來個人化商業應用的科技趨勢。

然而,龐大的基因體序列資料,對於醫療機構與研究人員處理而言,根本非常困難。「一個人的全基因體定序資料可能就有數百GB」蘇中才解釋,對於精準醫療的基因序列分析來說,要算什麼、搜尋什麼、比對什麼對於不同的研究者或醫師來說,都有不同的需求。「你不可能為了一個特定醫師,準備一個完全客製化的數據工具,這在軟體發展歷史上,並不合邏輯。」曾在半導體設計軟體領域在矽谷創過兩次業,也是亞大基因的董事長暨創始夥伴王耀庭博士說。「對醫生或研究者來說,準備一套已經很容易上手的介面,幫助他們快速處理數據、應對他們針對不同基因分析運算需求的函式庫(Library,讀者不妨想像成工具箱),才是軟體工具應該遞送的價值。」王耀庭說。。

王耀庭憶起張明台與蘇中才第一次見到他的過程,笑稱那時是在測試他們,「我對他們很兇,聽到投影片第一頁說要做基因的大數據分析,可是連商業模式都不具體。」王耀庭回憶,可是 Allen (張明台)不但不氣餒,還很快針對他所提出的建議與問題繼續用電子郵件回覆,而且還約了下次的見面時間,「我就在想,這傢伙打死不退,這團隊有救了,這題目是真的有搞頭!」王耀庭說。

王耀庭認為,類比於自動化電子設計(Electronic design automation,EDA),利用計算機輔助設計(CAD)軟體,來完成大型積體電路(VLSI)晶片的布局、布線、版圖設計、與規則驗證,或電腦軟體製作並類比實物設計常用在建築、製造模擬端的軟體領域,基因定序軟體流程,也會有相對應的服務價值,是台灣不擅長的工具領域軟體創業題。

「亞大基因其實是用很低成本的方式在拼基因運算領域的拼圖。」王耀庭分享,「基因運算市場要能夠起飛,有賴於基因定序(NGS)儀器與試劑市場規模先擴大,在這之前所以結合 2017 年被英國 Premaitha Health 收購,成為基因檢測分子診斷大廠的有勁基因就是非常重要的商業合作策略。」成為亞大基因策略投資人的詹佳翰博士也分享,有勁基因雖然擁有完整的實驗室與生物資訊部門,但也不是什麼都自己做。「亞大基因所推出的產品事實上具有資料整理、運算架構和研究實務應用流程的產品優勢!」詹佳翰說,「張明台和蘇中才過去工作經驗,能夠在基因數據運算應用上提供高擴展性運算規模與分析效能,也能幫助更多生物資訊人員開發各種研究分析或機器學習應用所需的工具。」

訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。