成大資訊所團隊「國際生物文獻自動探勘競賽」勇奪世界首獎

ImgDesc
【台南訊】成功大學資訊工程學系暨醫學資訊所教授高宏宇教授指導碩士班學生李昕純、方傑以及博士生徐禕佑,建立一套自動擷取生醫文獻中「疾病名詞」並加以歸類的快速有效比對系統,9月參加由美國國家生物科技資訊中心(NCBI)與西班牙國家生物資訊學會在西班牙共同舉辦的BioCreative V「國際生物文獻自動探勘競賽(http://www.biocreative.org/tasks/biocreative-v/track-3-cdr/)」的「疾病名詞擷取與正規化」競賽項目,擊敗眾強勁國際團隊,一舉奪下首獎,亮麗表現令人激賞。

國際生物文獻自動探勘競賽,對「疾病名詞擷取與正規化」競賽評比訂出至少要達到52.3%的正確率,李昕純等人所建立的系統,在比賽評比的正確率為86.46%,不僅遠高於比賽單位的要求,也超越由美國國家生物科技資訊中心(NCBI)所研發的現有使用工具DNorm 6%,其優異的成果被邀稿將在國際期刊 – Oxford Database journal (impact factor rank in top 10%)上發表。

國際生物文獻自動探勘競賽已有超過十年歷史,在生物文獻探勘領域中享有極高的聲譽,各國競賽者實力均不容小覷,因此全世界相關研究學者、專家、以及學生們皆會出席。藉由議程探討此領域最新趨勢,並且激發出可能性的發展;在「疾病名詞擷取與正規化」項目,除了有同樣來自台灣的台大、中央研究院外,還有澳洲新南威爾斯大學、英國曼徹斯特大學、瑞士蘇黎世大學、美國國家生物科技資訊中心等研究團隊以及英國NEXTMOVE SOFTWARE、德國ExB等科技公司亦參加競逐。

李昕純表示在,文字探勘或文字挖掘乃指要在巨量資料中找出想要的「文字」進而提供後續的語意分析,而目前大型生物知識庫仍得仰賴大量專家人力從文獻中擷取知識,建置的成本相當龐大。此外,疾病名詞的命名方式相當的多樣化,除了一般常見的同義字外,還存在著組合字、縮寫…等問題。對資訊的「擷取」多少帶來困擾或疏漏,因此建立一套快速、有效的系統來輔助與辨識是件相當重要的議題。

在高宏宇教授指導下,李昕純、方傑及學長徐禕佑等人,先分析疾病命名特徵(包括字根、字首、字尾等),並結合大量醫學字典等進行輔助,透過「機器學習」的方式,建立起疾病名詞擷取探勘模組。

機器學習是一種可以從大量數據中對未知的數據自動分析獲得規律的算法,透過該算法可對未知的數據預測,而李昕純等人將這樣的方法應用在疾病名詞擷取上,將大量的生醫文獻透過此方法所找到的疾病命名的規律性,再設計出可以利用上述資料所建立的模組進行資訊擷取的輔助辨識系統。

眾多的疾病名詞即可經由模組來辨識與擷取並且自動進行正規化、歸類,給予適當的醫學字典代碼。在這過程中,除了找到疾病名詞的命名特徵相當耗時外,他們透過測試資料所呈現的結果,將系統無法辨識或正確歸類的問題進行分析,再回頭不斷地修正並擴充現有醫學字典,讓系統快速而有效地進行比對。

高宏宇教授表示,競賽的議題艱難,參賽的隊伍又均為一時之選,成大團隊能夠脫穎而出實在不容易,已經引起國際上相關研究學者的高度矚目與熱烈討論,目前已與美國國家生物科技資訊中心(NCBI)研究團隊討論技術上的合作與技轉模式。

高宏宇教授歷年來率學生在生物文獻自動探勘領域表現受肯定,已增加了國際合作的機會,繼續讓文字探勘技術更紮實的建立在生醫文獻自動探勘領域上,降低龐大的建置成本、提供更趨穩定的系統,擴大給生物領域學者使用。

高宏宇教授的研究團隊在「國際生物文獻自動探勘競賽」屢有優異表現,2010年時的博士生魏至軒在「基因正規化問題」獲得第一名、2012年博士生徐禕佑參與「藥物名詞辨識」競賽亦奪下第一好成績。
維護單位: 新聞中心
更新日期: 2015-10-19