利用多重核心之支援向量機於蛋白質非穩定區段的預測
學年 95
學期 1
出版(發表)日期 2007-01-01
作品名稱 利用多重核心之支援向量機於蛋白質非穩定區段的預測
作品名稱(其他語言) Multiple-Kernel Svms for Protein Disordered Regions Prediction
著者 許輝煌; 鄭建中
單位 淡江大學資訊工程學系
描述 計畫編號:NSC96-2221-E032-051-MY2 研究期間:200708~200807 研究經費:551,000
委託單位 行政院國家科學委員會
摘要 蛋白質非穩定區段預測是一個相當重要的課題,此研究在於利用機器學習的技術以 正確預測一個蛋白質的哪些部分為非穩定區段。所謂非穩定區段指的是,在此蛋白質 區段中,並沒有固定的結構。相反的,非穩定區域具有相當的彈性。 在本計畫中,我們使用支援向量機來預測蛋白質的非穩定區段。在偵測的步驟上, 我們需要相當大量的蛋白質資訊,例如: 疏水性、帶電量、極性、胺基酸出現頻率、 邊界出現頻率、蛋白質序列平均彈性… 等。連帶的一個相當重要的議題,就是如何降 低在實驗的計算量。由於輸入資料的維度很高,導致在訓練支援向量機的過程中效率 低落。因此我們利用以下三個步驟,希望能夠改善這個問題。第一、先將輸入的屬性 集依據不同特性做切割,以降低輸入資料的維度;第二、利用個別的支援向量機為分 割後的子屬性集分別作訓練,依照屬性集的特性使用不同的核心機制;第三、將個別 訓練的結果做結合,以提供最後的預測判定。 由於個別的支援向量機只需要計算資料集的部分屬性,支援向量機的運算時間與複 雜度將大幅降低。而且資料的屬性集已做適當的切割,屬性之間不會產生相互干擾, 預測的準確率將可以提高。由於大部分的支援向量機的加速方法皆為剔除某些部分的 屬性,以降低運算的空間維度,但是如此便相對的減少作預測所需的資訊。在此計畫 中,我們充分利用每一個有用的資訊。
關鍵字 蛋白質結構預測;非穩定區段預測;支援向量機;機器學習;蛋白質體學
語言
相關連結

機構典藏連結 ( http://tkuir.lib.tku.edu.tw:8080/dspace/handle/987654321/7087 )

機構典藏連結