현재 위치 - 법률 상담 무료 플랫폼 - 법률 자문 무료 플랫폼 - 數據分析方法中的點法
數據分析方法中的點法
數據挖掘,也被翻譯為數據挖掘。這是數據庫知識發現的壹個步驟。數據挖掘壹般是指通過算法從大量數據中尋找隱藏信息的過程。數據挖掘通常與計算機科學相關,通過統計、聯機分析處理、信息檢索、機器學習、專家系統(依靠過去的經驗規則)和模式識別等多種方法來實現上述目標。靈九軟件中NLPIR數據挖掘的主要方法如下:

①神經網絡方法

神經網絡具有良好的魯棒性、自組織和自適應性、並行處理、分布式存儲和高容錯性等優點,非常適合解決數據挖掘問題,近年來受到越來越多的關註。典型的神經網絡模型主要分為三類:以感知器、bp反向傳播模型和功能網絡為代表的前饋神經網絡模型,用於分類、預測和模式識別;以hopfield的離散模型和連續模型為代表的反饋神經網絡模型分別用於聯想記憶和優化計算;以art模型和koholon模型為代表的聚類自組織映射方法。神經網絡方法的缺點是它是“黑箱”,人們很難理解網絡的學習和決策過程。

⑵遺傳算法

遺傳算法是壹種基於生物自然選擇和遺傳機制的隨機搜索算法,是壹種仿生全局優化方法。遺傳算法因其隱含的並行性和易於與其他模型結合而被應用於數據挖掘。

遺傳算法的應用還體現在與神經網絡、粗糙集等技術的結合上。例如,利用遺傳算法優化神經網絡結構,在不增加錯誤率的情況下刪除冗余連接和隱含層單元;結合遺傳算法和bp算法訓練神經網絡,然後從網絡中提取規則。然而,遺傳算法的算法復雜,並且尚未解決過早收斂於局部極小值的問題。

③決策樹方法

決策樹是預測模型中常用的算法,它通過有目的地對大量數據進行分類來發現壹些有價值和潛在的信息。其主要優點是描述簡單、分類快速,特別適合大規模數據處理。最有影響和最早的決策樹方法是昆蘭提出的著名的基於信息熵的id3算法。其主要問題是:id3是壹種非增量學習算法;Id3決策樹是壹種單變量決策樹,難以表達復雜的概念。同性之間的關系強調不夠;抗噪性差。為了解決上述問題,出現了許多較好的改進算法,如schlimmer和fisher設計的id4的增量學習算法。鐘鳴、陳文衛等人提出了可行算法。

⑷粗糙集方法

粗糙集理論是壹種研究不精確和不確定知識的數學工具。粗糙集方法有幾個優點:它不需要給出額外的信息;簡化輸入信息的表達空間;該算法簡單易操作。粗糙集處理的對象是類似於二維關系表的信息表。目前,成熟的關系數據庫管理系統和新開發的數據倉庫管理系統為粗糙集的數據挖掘奠定了堅實的基礎。但是粗糙集的數學基礎是集合論,很難直接處理連續屬性。然而,連續屬性在真實信息表中無處不在。因此,連續屬性的離散化是制約粗糙集理論實用化的難點。目前國際上已經開發了壹些基於粗糙集的工具應用,如加拿大裏賈納大學開發的KDD-r;美國堪薩斯大學等開發的ler。

5.涵蓋正面例子並拒絕反例

它使用覆蓋所有正例並拒絕所有反例的思想來尋找規則。首先,從正例集中選擇壹個種子,並逐壹與反例集進行比較。如果它與由字段值組成的選擇器兼容,它將被丟棄,否則將被保留。根據這壹思想,如果我們循環所有正例的種子,我們將得到正例的規則(選擇器的合取公式)。典型的算法有米哈爾斯基的aq11法、洪的改進aq15法和他的ae5法。

【6】統計分析方法

數據庫字段項之間有兩種關系:函數關系(可以用函數公式表示)和相關關系(不能用函數公式表示,但仍與確定性相關)。可以使用統計方法對其進行分析,即可以使用統計原理對數據庫中的信息進行分析。常用統計(在大量數據中尋找最大值、最小值、總和、平均值等。)、回歸分析(使用回歸方程表示變量之間的數量關系)、相關分析(使用相關系數衡量變量之間的相關程度)、差異分析(使用樣本統計的值確定總體參數之間是否存在差異)等都可以進行。

壹次模糊集方法

即利用模糊集理論對實際問題進行模糊評價、模糊決策、模糊模式識別和模糊聚類分析。系統的復雜性越高,模糊性越強。壹般模糊集理論使用隸屬度來描述模糊事物的相互關系。在傳統模糊理論和概率統計的基礎上,李德意等人提出了定性和定量不確定性轉換模型——雲模型,並形成了雲理論。