久久成人影片av福利在线|国产人成视频在线观看免费|欧洲黄色A级片亚洲一区区|欧美一二三区视频|日本免费的黄色三级片|成人黄色无码网站|亚洲先锋影院A性电影|少妇无玛影片在线看黄片网站|亚洲AV无码成人精品区丝袜|亚洲色情视频在线免费观看

高三網(wǎng) 試題庫(kù) 作文庫(kù) 大學(xué)庫(kù) 專業(yè)庫(kù)

當(dāng)前位置: 高三網(wǎng) > 高中英語 > 正文

knn和kmeans的區(qū)別

2022-01-11 09:12:19文/丁雪竹

knn屬于監(jiān)督學(xué)習(xí),類別是已知的,通過對(duì)已知分類的數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),找到這些不同類的特征,再對(duì)未分類的數(shù)據(jù)進(jìn)行分類。kmeans屬于非監(jiān)督學(xué)習(xí),事先不知道數(shù)據(jù)會(huì)分為幾類,通過聚類分析將數(shù)據(jù)聚合成幾個(gè)群體。

knn和kmeans的區(qū)別

knn和kmeans的區(qū)別

1.KNN算法是分類算法,分類算法肯定是需要有學(xué)習(xí)語料,然后通過學(xué)習(xí)語料的學(xué)習(xí)之后的模板來匹配我們的測(cè)試語料集,將測(cè)試語料集合進(jìn)行按照預(yù)先學(xué)習(xí)的語料模板來分類

2Kmeans算法是聚類算法,聚類算法與分類算法最大的區(qū)別是聚類算法沒有學(xué)習(xí)語料集合。

K-means算法是聚類分析中使用最廣泛的算法之一。它把n個(gè)對(duì)象根據(jù)他們的屬性分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。

Kmeans算法的缺陷

聚類中心的個(gè)數(shù)K 需要事先給定,但在實(shí)際中這個(gè) K 值的選定是非常難以估計(jì)的,很多時(shí)候,事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)類別才最合適

Kmeans需要人為地確定初始聚類中心,不同的初始聚類中心可能導(dǎo)致完全不同的聚類結(jié)果。(可以使用Kmeans++算法來解決)

針對(duì)上述第2個(gè)缺陷,可以使用Kmeans++算法來解決

K-Means ++ 算法

k-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。

從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心

對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)

選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大

重復(fù)2和3直到k個(gè)聚類中心被選出來

利用這k個(gè)初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means算法

從上面的算法描述上可以看到,算法的關(guān)鍵是第3步,如何將D(x)反映到點(diǎn)被選擇的概率上,一種算法如下:

先從我們的數(shù)據(jù)庫(kù)隨機(jī)挑個(gè)隨機(jī)點(diǎn)當(dāng)“種子點(diǎn)”

對(duì)于每個(gè)點(diǎn),我們都計(jì)算其和最近的一個(gè)“種子點(diǎn)”的距離D(x)并保存在一個(gè)數(shù)組里,然后把這些距離加起來得到Sum(D(x))。

然后,再取一個(gè)隨機(jī)值,用權(quán)重的方式來取計(jì)算下一個(gè)“種子點(diǎn)”。這個(gè)算法的實(shí)現(xiàn)是,先取一個(gè)能落在Sum(D(x))中的隨機(jī)值Random,然后用Random -= D(x),直到其<=0,此時(shí)的點(diǎn)就是下一個(gè)“種子點(diǎn)”。

重復(fù)2和3直到k個(gè)聚類中心被選出來

利用這k個(gè)初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means算法

推薦閱讀

點(diǎn)擊查看 高中英語 更多內(nèi)容