有效率的循序樣本探勘系統及其在樂透開獎預測之應用
學年 93
學期 1
發表日期 2004-12-18
作品名稱 有效率的循序樣本探勘系統及其在樂透開獎預測之應用
作品名稱(其他語言) An Efficient Sequential Pattern Mining System and Its Application to the Prediction of Lottery Numbers
著者 張昭憲;陳彥文
作品所屬單位 淡江大學資訊管理學系
出版者 臺中技術學院資訊管理系暨資訊科技與應用研究所
會議名稱
會議地點
摘要 為加速大型資料庫的循序樣本探勘,本研究針對探勘時的瓶頸提出改進做法,並 完成一套有效率的循序樣本探勘系統ESPM(an Efficient Sequential Pattern Mining system)。首先,我們提出了改良式的垂直資料格式,藉由快速查表以有 效降低查詢與比對次數。此外,為防止探勘時候選序列暴增影響探勘效率,我們 將非循序探勘時所使用之Hash概念導入循序樣本探勘,並獲得顯著的時間改善。 為驗證本系統之效能,本研究使用高達九十萬筆的模擬交易記錄來進行實驗。結 果顯示:與前人研究相較,ESPM在時間上均獲得一致性的優勢。此外,我們也將 ESPM應用於真實資料庫的探勘-台灣樂透開獎號碼預測,藉以探勘AnB型態(號碼 A與B間隔n期依序出現)的樣本。探勘結果顯示: 此種版路的參考價值極低,均無 法提供顯著的信心度,幾乎與隨機選取沒有差別。 To speed up sequential pattern mining tasks for large scale database, in this research, several improvements on the mining bottleneck are proposed and an Efficient Sequential Pattern Mining (ESPM) are then presented based on these improvements. The features of ESPM are described as follow. To reduce the number of query and matching in the database, a modified vertical data format is used to construct an image of the database in memory. Besides, to prevent the mining process from the candidate itemset explosion, the hash concept is adopted for quickly determine whether an itemset is frequent or not. In the simulation experiments, ESPM are tested for the mining in a database containing up to 900,000 randomly-generated transactions. The results show the effectiveness of ESPM. In addition, ESPM is also applied to the prediction of lottery numbers. The mining result shows that AnB templates are not useful to the lottery prediction.
關鍵字 循序樣本探勘;資料探勘;樂透;資料庫;Sequential pattern mining;Data miming;Lottery;Database
語言 zh_TW
收錄於
會議性質 國內
校內研討會地點
研討會時間 20041218~20041218
通訊作者
國別 TWN
公開徵稿 Y
出版型式 紙本
出處 第十屆資訊管理暨實務研討會論文集=Proceedings of the 10th Conference on Information Management and Implementation,14頁
相關連結

機構典藏連結 ( http://tkuir.lib.tku.edu.tw:8080/dspace/handle/987654321/23073 )

機構典藏連結