利用多重核心之支援向量機於蛋白質非穩定區段的預測 | |
---|---|
學年 | 95 |
學期 | 1 |
出版(發表)日期 | 2007-01-01 |
作品名稱 | 利用多重核心之支援向量機於蛋白質非穩定區段的預測 |
作品名稱(其他語言) | Multiple-Kernel Svms for Protein Disordered Regions Prediction |
著者 | 許輝煌; 鄭建中 |
單位 | 淡江大學資訊工程學系 |
描述 | 計畫編號:NSC96-2221-E032-051-MY2 研究期間:200708~200807 研究經費:551,000 |
委託單位 | 行政院國家科學委員會 |
摘要 | 蛋白質非穩定區段預測是一個相當重要的課題,此研究在於利用機器學習的技術以 正確預測一個蛋白質的哪些部分為非穩定區段。所謂非穩定區段指的是,在此蛋白質 區段中,並沒有固定的結構。相反的,非穩定區域具有相當的彈性。 在本計畫中,我們使用支援向量機來預測蛋白質的非穩定區段。在偵測的步驟上, 我們需要相當大量的蛋白質資訊,例如: 疏水性、帶電量、極性、胺基酸出現頻率、 邊界出現頻率、蛋白質序列平均彈性… 等。連帶的一個相當重要的議題,就是如何降 低在實驗的計算量。由於輸入資料的維度很高,導致在訓練支援向量機的過程中效率 低落。因此我們利用以下三個步驟,希望能夠改善這個問題。第一、先將輸入的屬性 集依據不同特性做切割,以降低輸入資料的維度;第二、利用個別的支援向量機為分 割後的子屬性集分別作訓練,依照屬性集的特性使用不同的核心機制;第三、將個別 訓練的結果做結合,以提供最後的預測判定。 由於個別的支援向量機只需要計算資料集的部分屬性,支援向量機的運算時間與複 雜度將大幅降低。而且資料的屬性集已做適當的切割,屬性之間不會產生相互干擾, 預測的準確率將可以提高。由於大部分的支援向量機的加速方法皆為剔除某些部分的 屬性,以降低運算的空間維度,但是如此便相對的減少作預測所需的資訊。在此計畫 中,我們充分利用每一個有用的資訊。 |
關鍵字 | 蛋白質結構預測;非穩定區段預測;支援向量機;機器學習;蛋白質體學 |
語言 | |
相關連結 |
機構典藏連結 ( http://tkuir.lib.tku.edu.tw:8080/dspace/handle/987654321/7087 ) |