在當(dāng)今信息爆炸的時(shí)代,伴隨著社會(huì)事件和自然活動(dòng)的大量產(chǎn)生(數(shù)據(jù)的海量增長(zhǎng)),人類(lèi)正面臨著“被信息所淹沒(méi),但卻饑渴于知識(shí)”的困境。隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫(kù)技術(shù)的日臻完善,人類(lèi)積累的數(shù)據(jù)量正以指數(shù)方式增長(zhǎng)? 。面對(duì)海量的、雜亂無(wú)序的數(shù)據(jù),人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真,提取有用的信息,并將其轉(zhuǎn)換成知識(shí)。
數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、模糊數(shù)學(xué)和數(shù)理統(tǒng)計(jì)等最新技術(shù)的研究成果,可以用來(lái)支持商業(yè)智能應(yīng)用和決策分析。例如顧客細(xì)分、交叉銷(xiāo)售、欺詐檢測(cè)、顧客流失分析、商品銷(xiāo)量預(yù)測(cè)等等,目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于各行各業(yè)來(lái)說(shuō),都具有重要的現(xiàn)實(shí)意義。
數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):
1.?處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級(jí),甚至更大。
2.?查詢(xún)一般是決策制定者(用戶(hù))提出的即時(shí)隨機(jī)查詢(xún),往往不能形成精確的查詢(xún)要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。
3.?在一些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。
4.?數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律.因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到某一臨界值時(shí),即認(rèn)為有效.因此,利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則。
5.?數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫(kù)具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫(kù)中加入新數(shù)據(jù),需要隨時(shí)對(duì)其進(jìn)行更新。
數(shù)據(jù)挖掘是一種獲得知識(shí)的技術(shù)。它的基礎(chǔ)是數(shù)據(jù),手段是各種算法,目的是獲得數(shù)據(jù)中蘊(yùn)含的知識(shí)。發(fā)現(xiàn)知識(shí)并非易事,人們總是受到各種各樣的局限,目前數(shù)據(jù)缺乏仍然是發(fā)現(xiàn)知識(shí)的瓶頸。隨著數(shù)據(jù)采集和存儲(chǔ)技術(shù)的發(fā)展,對(duì)大量數(shù)據(jù)的分析和使用成為一個(gè)新的難題。對(duì)數(shù)據(jù)挖掘應(yīng)用而言,知識(shí)的發(fā)現(xiàn)存在兩個(gè)極限,一個(gè)是數(shù)據(jù)極限,即數(shù)據(jù)要么非常龐大,要么數(shù)據(jù)量足夠小,或者數(shù)據(jù)量小但維度非常大;另一個(gè)是算法極限,即針對(duì)很多數(shù)據(jù)(不同的性質(zhì),不同的形式)和很多需求,目前所有的算法尚不能很好地解決某些問(wèn)題。因此,數(shù)據(jù)挖掘應(yīng)用具有三個(gè)要素:數(shù)據(jù),算法,知識(shí)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是滿(mǎn)足大數(shù)據(jù)挖掘?qū)φZ(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類(lèi)、文本分類(lèi)、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶(hù)端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無(wú)縫地融合到客戶(hù)的各類(lèi)復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類(lèi)開(kāi)發(fā)語(yǔ)言使用。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對(duì)于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來(lái),可見(jiàn)文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶(hù)知識(shí)、文獻(xiàn)知識(shí)等各類(lèi)知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。