隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data?Mining)技術(shù)由此應運而生。
數(shù)據(jù)是知識的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識完全是兩回事。過去幾年中,從數(shù)據(jù)庫中發(fā)現(xiàn)知識這一領(lǐng)域發(fā)展的很快。廣闊的市場和研究利益促使這一領(lǐng)域的飛速發(fā)展。計算機技術(shù)和數(shù)據(jù)收集技術(shù)的進步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲信息。收集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫技術(shù)使我們很容易存儲大量的數(shù)據(jù)流,但現(xiàn)在還沒有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經(jīng)驗知識經(jīng)過分析、篩選、比較、綜合、再提取出知識和規(guī)則。然而,由于知識工程師所擁有知識的有局限性,所以對于獲得知識的可信度就應該打個折扣。
數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進行科學研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對數(shù)據(jù)進行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來越多的關(guān)注,同時,在實際問題中,大量成功運用數(shù)據(jù)挖掘的實例說明了數(shù)據(jù)挖掘?qū)茖W研究具有很大的促進作用。
數(shù)據(jù)挖掘的任務(wù)與方法的多樣性對數(shù)據(jù)挖掘提出了大量帶有挑戰(zhàn)性的問題,未來將會形成更大的研究高潮,研究的焦點可能主要會集中在下面幾個方面:
1、探索新的應用領(lǐng)域
目前,數(shù)據(jù)挖掘正在不斷探索擴大它的應用范圍,例如:生物醫(yī)學和電信等領(lǐng)域。由于通用的數(shù)據(jù)挖掘方法在處理特定的應用問題時存在一定的局限性。所以,目前數(shù)據(jù)挖掘的一種趨勢就是開發(fā)具有針對性的應用領(lǐng)域數(shù)據(jù)挖掘系統(tǒng)。
2、數(shù)據(jù)挖掘方法面向可伸縮性
數(shù)據(jù)挖掘一個非常重要的方向就是一種基于約束的挖掘方式。這一方向主要致力于如何在增加用戶交互的同時,提高挖掘處理的總體效率。并且它也提供了額外的控制方法,從而允許使用用戶說明與約束,引導數(shù)據(jù)挖掘的系統(tǒng)向有關(guān)聯(lián)的模式搜索。
3、挖掘語言標準化
標準化的數(shù)據(jù)挖掘語言和其他方面的標準化,將有利于數(shù)據(jù)挖掘工作進行系統(tǒng)的開發(fā),改善多個數(shù)據(jù)挖掘系統(tǒng)之間的相互操作,從而推廣數(shù)據(jù)挖掘系統(tǒng)在企業(yè)以及社會教育中的使用。
4、數(shù)據(jù)挖掘可視化
數(shù)據(jù)挖掘的可視化指的是從大量的數(shù)據(jù)中發(fā)現(xiàn)具有知識的有效途徑。
北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)及其應用是目前國際上的一個研究熱點,并在許多行業(yè)中得到了很好的應用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿?。在信息管理領(lǐng)域,綜合應用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。