隨著計算機的日益普及和互聯(lián)網(wǎng)的迅猛發(fā)展,社會的信息化程度越來越高,計算機的使用也越來越廣泛,如何清晰、高效、簡潔的同計算機交流,成為各界人士共同關注的焦點,自然語言理解也被人們寄予高度的期待。
人類自然語言通常以詞為基本構成單位,進而構成句子,再由句子形成篇章。篇章的語義由篇章中包含的所有句子的語義綜合而成,而句子的語義又由句中的詞語語義及一定的語法所確定;作為句子和篇章的基本構成單位,詞語具有特定的語義和內涵。在詞語層次上,詞語語義分析意味著詞語的內涵分析、詞語之間的語義相似度或相關度分析,這是句子分析和篇章語義分析的基礎,也是信息抽取、機器翻譯等應用領 域的基礎問題。一個句子,通常是按照特定的語義規(guī)則對若干詞語的一個有序排列。為此,句子的語義分析需要綜合詞語語義和相關語義規(guī)則分析,它是篇章語義分析的基礎,也是自動問答系統(tǒng)等領域的基礎研究課題。篇章級別的語義分析,意味著對文本進行主題、類別等語義信息的識別,實現(xiàn)對大規(guī)模文本集合的有效管理與挖掘。
語義是指信息包含的概念和意義。語義不僅表述事物本質,還表述事物之間的因果、上下位、施事等各種邏輯關系。因此,語義是對事物的描述和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題,它在自然語言處理、信息檢索、信息過濾、信息分類、語義挖掘等領域有著廣泛的應用。在互聯(lián)網(wǎng)時代,面對海量的信息資源,要想準確地進行信息抽取,檢索所需信息、挖掘潛在的信息價值、提供智能的知識服務,都離不開面向機器理解的語義分析。尤其在大數(shù)據(jù)環(huán)境下,語義分析的地位越來越凸顯出來。
按照多數(shù)文獻的觀點首先,詞法分析——主要包括分詞、詞性標注、詞義消歧、新詞識別等——是通過分詞、詞頻和位置統(tǒng)計等手段獲得相關語言信息。其次,句法分析通過使句子成分特征化來分析句子結構特征,通過對句子和短語結構的分析找出詞、短語等的相互關系以及各自在句中的作用,并以一定結構來表達諸如從屬關系、成分關系等,目的是判定句子中各種結構性成分。第三,為了理解一個提問,一般還需要更多的語義和語用知識來幫助理解句子的意思,通過分析找出詞義、結構意義及其結合意義,從而確定句子所表達的真正含義,而語義信息的標記需要包含概念完全集與關系圖的支持,需要對句法成分做出細致的語義分類,它一般應包括語言層面(即反映語言表面現(xiàn)象的知識,如同義詞關系、層次關系等)、本體論層面(描述概念之間復雜的語義關系)、常識層面等。雖然這項工作浩繁,但目前已經取得了一些初步成果。最后,篇章分析用于對多個語句、段落之間在結構或者語義上的相互關系進行分析。
北京理工大學大數(shù)據(jù)實驗室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內容處理的全技術鏈條的共享開發(fā)平臺。包括大數(shù)據(jù)完整的技術鏈條:網(wǎng)絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統(tǒng)計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等功能。
在大數(shù)據(jù)時代,對海量文本信息進行有效的語義分析已經是自然語言處理、信息檢索、信息分類、信息過濾、語義挖掘、文本的機器學習等諸多應用領域基礎且關鍵的研究問題,它影響著上層信息服務與信息共享的質量和水平。NLPIR大數(shù)據(jù)語義智能技術將對中文數(shù)據(jù)挖掘技術進行深入研究,必將提供出高質量、多功能的中文數(shù)據(jù)挖掘算法并促進自然語言理解系統(tǒng)的廣泛應用。