亚洲精品久久国产精品37p,亚洲av无码av制服另类专区,午夜直播免费看,玩弄人妻少妇500系列视频,无码人妻久久久一区二区三区

找尋有潛能的bilibiliTOP10UP主(1)

防噴表明:下列僅為本人學(xué)習(xí)之余的游戲項(xiàng)目,自己不主動(dòng)授予以下幾點(diǎn)一切使用價(jià)值,不保證 信息的精確性

熱烈歡迎諸位友好的強(qiáng)調(diào)不正確

文件目錄
  • 找尋有潛能的bilibiliTOP10UP主(1)
    • 要求敘述
    • 需求分析報(bào)告
    • 辨別管理體系
      • 第一次選擇
      • 第二次選擇
    • 獲得所需數(shù)據(jù)信息
      • 自己關(guān)心目錄
      • UP基本資料
      • UP視頻信息內(nèi)容
        • 文章標(biāo)題、時(shí)間、發(fā)布時(shí)間、播放量
        • 視頻彈幕、投幣機(jī)、關(guān)注點(diǎn)贊、個(gè)人收藏、評(píng)價(jià)
    • 數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析
    • 明確訓(xùn)煉數(shù)據(jù)信息及特點(diǎn)
      • 導(dǎo)進(jìn)數(shù)據(jù)信息
      • 分析數(shù)據(jù)
        • 特點(diǎn)遍布
        • 特點(diǎn)平均值、中位值、標(biāo)準(zhǔn)偏差
        • 有關(guān)系數(shù)矩陣
        • 主成分分析法
        • 聚類
          • 聚類算法
          • 辨別
    • 訓(xùn)煉實(shí)體模型
      • 有監(jiān)管實(shí)體模型訓(xùn)煉
      • 實(shí)體模型效果分析
      • 實(shí)體模型展現(xiàn)圖
    • 改進(jìn)方案

要求敘述

預(yù)測(cè)分析B站UP主是不是有潛質(zhì)變成TOP10UP主或著名UP主

要求是自擬的,隨意提的一個(gè)念頭

需求分析報(bào)告

關(guān)鍵詞:預(yù)測(cè)分析、歸類

這一要求的或是相對(duì)比較易于明白的,大家必須搭建一個(gè)辨別管理體系,這一辨別管理體系可以根據(jù)給定的信息將其分到已經(jīng)知道的種類中。

大家必須做的是

  • 明確辨別管理體系
  • 獲得所需數(shù)據(jù)信息
  • 數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析
  • 明確訓(xùn)煉模式及方式
  • 訓(xùn)煉實(shí)體模型
  • 評(píng)價(jià)指標(biāo)體系

辨別管理體系

因?yàn)锽站并沒(méi)有發(fā)布TOP10UP主選擇的規(guī)范(即使有也當(dāng)它沒(méi)有行吧),因此大家必須自身選擇樣版值

第一次選擇

括弧內(nèi)為特點(diǎn)權(quán)重值,權(quán)重值總數(shù)100%

粉絲人群相似性(16%) 均值視頻文章標(biāo)題篇幅(8%) 均值視頻時(shí)間(12%) 均值文章投稿時(shí)間范圍(12%) 均值視頻彈幕占播放量比率(9%) 均值投幣機(jī)占播放量比率(12%) 均值關(guān)注點(diǎn)贊占播放量比率(9%) 均值個(gè)人收藏占播放量比率(10%) 均值評(píng)價(jià)占播放量比率(12%)

這一辨別管理體系就是我覺(jué)得可以較為客觀性較為UP主間類型的辨別管理體系。

  • 粉絲人群相似性:提前準(zhǔn)備獲得每一位UP主的用戶目錄,隨后用Tanimoto得分測(cè)算相似性
  • 均值視頻文章標(biāo)題篇幅:文章標(biāo)題長(zhǎng)度很有可能有一些危害,給的權(quán)重值并不是許多
  • 均值視頻時(shí)間:視頻時(shí)相貌一樣更有可能是同一類UP
  • 均值文章投稿時(shí)間范圍:挑選時(shí)間點(diǎn)文章投稿一直是門(mén)風(fēng)水玄學(xué)
  • 均值視頻彈幕占播放量比率:視頻彈幕是視頻播放的增香劑,好的視頻視頻彈幕量一定許多,但刷視頻彈幕相對(duì)性非常容易因此權(quán)重值減少
  • 均值投幣機(jī)占播放量比率:投幣機(jī)是對(duì)高品質(zhì)短視頻的毫無(wú)疑問(wèn),與此同時(shí)刷投幣機(jī)較為難,因此權(quán)重值高
  • 均值關(guān)注點(diǎn)贊占播放量比率:關(guān)注點(diǎn)贊相對(duì)而言是相對(duì)比較很容易的,刷關(guān)注點(diǎn)贊也多,因此權(quán)重值低
  • 均值個(gè)人收藏占播放量比率:個(gè)人收藏對(duì)于我自身來(lái)講也是非常難進(jìn)行的,即使他是高質(zhì)量資源也很抵觸個(gè)人收藏(很有可能這也是為什么呢么多下一次一定的緣故),因此權(quán)重值相對(duì)性減少
  • 均值評(píng)價(jià)占播放量比率:也表明了視頻品質(zhì),與此同時(shí)出自于臉面不容易機(jī)刷評(píng)論,因此權(quán)重值高

但因?yàn)锽站針對(duì)查詢別人粉絲有數(shù)目限定,沒(méi)法獲得UP主的詳細(xì)粉絲名冊(cè),因此粉絲人群相似性這一特點(diǎn)沒(méi)法完成

第二次選擇

均值視頻文章標(biāo)題篇幅(10%) 均值視頻時(shí)間(15%) 均值文章投稿時(shí)間范圍(15%) 均值視頻彈幕占播放量比率(10%) 均值投幣機(jī)占播放量比率(14%) 均值關(guān)注點(diǎn)贊占播放量比率(10%) 均值個(gè)人收藏占播放量比率(12%) 均值評(píng)價(jià)占播放量比率(14%)

獲得所需數(shù)據(jù)信息

明確完辨別管理體系,大家下面明確必須什么數(shù)據(jù)信息

  • 樣版基本資料,及UP主的ID、呢稱、稱號(hào)
  • 根據(jù)ID獲得每一個(gè)UP的全部粉絲
  • 根據(jù)ID獲得每一個(gè)UP的視頻的文章標(biāo)題、時(shí)間、發(fā)布時(shí)間、播放量、視頻彈幕數(shù)、投幣機(jī)、關(guān)注點(diǎn)贊、個(gè)人收藏、評(píng)價(jià)

自己關(guān)心目錄

  • 要求URL

    • https://api.bilibili.com/x/relation/followings?
      
  • 請(qǐng)求頭主要參數(shù)

    • referer: https://space.bilibili.com/{vmid}/fans/follow
      cookie: {cookie}
      
  • 帶上主要參數(shù)

    • vmid: {vmid}
      pn: 2
      ps: 20
      order: desc
      order_type: attention
      

UP基本資料

  • 要求URL

    • https://api.bilibili.com/x/space/acc/info?
      
  • 帶上主要參數(shù)

    • mid: {mid}
      

UP視頻信息內(nèi)容

文章標(biāo)題、時(shí)間、發(fā)布時(shí)間、播放量

  • 要求URL

    • https://api.bilibili.com/x/space/arc/search?
      
  • 請(qǐng)求頭主要參數(shù)

    • referer: https://space.bilibili.com/{vmid}/fans/follow
      
  • 帶上主要參數(shù)

    • mid: {mid}
      ps: 1
      tid: 0
      pn: 1
      order: pubdate
      jsonp: jsonp
      

視頻彈幕、投幣機(jī)、關(guān)注點(diǎn)贊、個(gè)人收藏、評(píng)價(jià)

  • 要求URL

    • https://api.bilibili.com/x/web-interface/archive/stat?
      
  • 請(qǐng)求頭主要參數(shù)

    • referer: https://space.bilibili.com/{vmid}/fans/follow
      
  • 帶上主要參數(shù)

    • aid: {aid}
      

數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析

獲得到的短視頻數(shù)據(jù)信息中有已被刪掉的短視頻數(shù)據(jù)信息,這種信息的播放量為‘--’,不可記入總視頻量,與此同時(shí)因?yàn)樾枰?guī)定均值實(shí)際操作,播放量為零的短視頻必須做特別解決。

視頻文章標(biāo)題必須統(tǒng)計(jì)字?jǐn)?shù)

視頻時(shí)間得到的文件格式為‘HH:MM’,必須統(tǒng)一成分秒

視頻上傳時(shí)間為時(shí)間格式文件格式,必須統(tǒng)一成鐘頭

必須對(duì)每一位UP加上標(biāo)識(shí)

明確訓(xùn)煉數(shù)據(jù)信息及特點(diǎn)

下面的使用都是在MATLAB中進(jìn)行

導(dǎo)進(jìn)數(shù)據(jù)信息

clear,clc
[data,name] = xlsread('bilibiliUP','Sheet1','B2:J149');
save data name data

分析數(shù)據(jù)

樣版數(shù)量為14八個(gè),特點(diǎn)項(xiàng)8項(xiàng)

特點(diǎn)遍布

b1

b2

特點(diǎn)平均值、中位值、標(biāo)準(zhǔn)偏差

均值視頻文章標(biāo)題篇幅(個(gè)) 均值視頻時(shí)間(s) 均值文章投稿時(shí)間范圍(h) 均值視頻彈幕占播放量比率(%) 均值投幣機(jī)占播放量比率(%) 均值關(guān)注點(diǎn)贊占播放量比率(%) 均值個(gè)人收藏占播放量比率(%) 均值評(píng)價(jià)占播放量比率(%)
平均值 25.5496 739.2298 15.0893 0.64 2.37 6.33 1.63 0.56
中位值 27.0743 414.5715 15.2024 0.54 2.14 6.06 1.36 0.41
標(biāo)準(zhǔn)偏差 7.0943 1.5957e 03 2.2214 4.7169e-03 1.4920e-02 2.9482e-02 1.2083e-02 5.7272e-03

有關(guān)系數(shù)矩陣

因?yàn)橄胍鱿戮垲?,因此先向特點(diǎn)間關(guān)聯(lián)性開(kāi)展剖析

有關(guān)系數(shù)矩陣
1 0.0184325288466795 -0.0249488481946810 0.000556029951779419 -0.0781882042420524 -0.168742474288945 0.0918842200982381 0.211218436765012
0.0184325288466795 1 -0.0684400833088982 0.135256877104381 -0.0839986211337289 -0.231039187955712 0.161255474364964 -0.0238979157736475
-0.0249488481946810 -0.0684400833088982 1 0.0642875823784235 0.182932469005339 0.216237989286477 -0.0167989352674504 -0.124649717355339
0.000556029951779419 0.135256877104381 0.0642875823784235 1 0.418871812486625 -0.0442827567357434 -0.0158181841190108 0.0996439284969066
-0.0781882042420524 -0.0839986211337289 0.182932469005339 0.418871812486625 1 0.468509412567601 0.438604301439134 0.241896824716753
-0.168742474288945 -0.231039187955712 0.216237989286477 -0.0442827567357434 0.468509412567601 1 0.183186223938856 0.0503927120668548
0.0918842200982381 0.161255474364964 -0.0167989352674504 -0.0158181841190108 0.438604301439134 0.183186223938856 1 0.357856402521907
0.211218436765012 -0.0238979157736475 -0.124649717355339 0.0996439284969066 0.241896824716753 0.0503927120668548 0.357856402521907 1

較大相關(guān)系數(shù)r為0.47,歸屬于一般有關(guān),這兒本人仍挑選開(kāi)展主成分分析法

主成分分析法

增長(zhǎng)率(%) 荷載引流矩陣
25.1275 -0.0154356012464888 0.439271317949718 -0.239468930154721 0.640874181590308 0.299234983162774 -0.489223750723536 0.0908810289215616 0.0399568700489856
18.6910 -0.0633151967720804 0.392258362039291 0.504163254738602 -0.411223722446849 0.444807070009181 -0.0650455225958284 0.440099753219734 0.151878186756074
14.8629 0.178975010961490 -0.393567647425860 0.168327298137570 0.380362735131868 0.659830736056726 0.448429308073384 -0.0501509982524432 -0.0328937010028770
12.4349 0.269286890707300 0.113144944244625 0.678576159768060 0.337839313324345 -0.359229553698078 -0.0556086435211860 -0.0116149200092179 -0.455860379941969
11.5216 0.625773896426006 -0.0714169658824892 0.155677911835697 0.0140278224639614 -0.112535587324820 -0.184136256454763 -0.169887284588042 0.709536571769867
7.6773 0.431907250553736 -0.415984327691833 -0.237474739608985 -0.140210810209029 0.0404217529290391 -0.345760241577645 0.589026077373038 -0.310200032544974
6.4894 0.449395895969865 0.325883099539835 -0.181948722076682 -0.358695083065022 0.299349431999138 -0.0494929449168077 -0.521984313795124 -0.406876856255649
3.1955 0.333334561923556 0.448479293459293 -0.293153813734111 0.113340671631467 -0.210414742505219 0.629557129219618 0.383564575615655 0.0350827640124736

剖析得:前六項(xiàng)總計(jì)增長(zhǎng)率達(dá)90.3%,故挑選前六項(xiàng)開(kāi)展剖析

對(duì)新數(shù)據(jù)再度開(kāi)展相關(guān)系數(shù)r剖析

有關(guān)系數(shù)矩陣
1 0.182007545883040 -0.0713354084624925 -0.151681329692816 0.0614584785271987 -0.125737466947417
0.182007545883040 1 0.324008369791875 0.0885939787345643 0.0591884996936010 -0.133187717940026
-0.0713354084624925 0.324008369791875 1 -0.0852536338605460 -0.00112597217476600 0.00576904941809119
-0.151681329692816 0.0885939787345643 -0.0852536338605460 1 -0.174500701145123 -0.256700669541367
0.0614584785271987 0.0591884996936010 -0.00112597217476600 -0.174500701145123 1 0.110149618536761
-0.125737466947417 -0.133187717940026 0.00576904941809119 -0.256700669541367 0.110149618536761 1

各特點(diǎn)間相關(guān)系數(shù)r低,合乎預(yù)估

聚類

聚類算法
clear
clc
load data

Y = pdist(clearData, 'mahalanobis');
Z = linkage(Y,'average');
C = cophenet(Z,Y) %測(cè)算cophenet相關(guān)系數(shù)r,取較大就可以
figure
T = cluster(Z,6);
dendrogram(Z, 0, 'Orientation','left','ColorThreshold','default','Labels', name) %轉(zhuǎn)化成譜系圖
title('{\bf 譜系圖}')

% LDA特征提取
[YY, WW, lambda] = LDA(clearData, T);

% Tsne
mappedX = tsne(clearData, [], 3, 6, 30);

%制圖
figure
scatter3(YY(:,1), YY(:,2), YY(:,3), 30, colorSet(T), 'filled')
title('{\bf 聚類算法散點(diǎn)圖(LDA特征提?。﹠')

figure
scatter3(mappedX(:,1), mappedX(:,2), mappedX(:,3), 30, colorSet(T), 'filled')
title('{\bf 聚類算法散點(diǎn)圖(Tsne)}')

b3

詳細(xì)譜系圖見(jiàn) bilibiliUP譜系圖免費(fèi)下載——登陸密碼:6634_

b4

b5

辨別
clear
clc
load data

%轉(zhuǎn)化成訓(xùn)煉檢測(cè)集
indices = crossvalind('Kfold', size(clearData,1), 30);

tests = (indices == 1);
train = ~tests;
trainData = clearData(train, :);
trainName = name(train,:);
testData = clearData(tests,:);
testName = name(tests,:);

%聚類算法
% trainData = zscore(trainData);%對(duì)提取樣版再次規(guī)范化
Y = pdist(trainData, 'euclidean');
Z = linkage(Y,'ward');
T = cluster(Z,6);%分六類

%辨別
[class,err] = classify(testData,trainData,T,'diagLinear');
testName,class

%SVM
svmModel = fitcecoc(trainData, T);
classification = predict(svmModel, testData);
classification

% LDA特征提取
trainAndTest = [T,trainData];
trainAndTest = [trainAndTest;[class,testData];[classification,testData]];
trainLen = size(trainData, 1);
testLen = size(testData, 1);
[YY, WW, lambda] = LDA(trainAndTest(:,2:end), trainAndTest(:,1));

% 制圖
figure
scatter(YY(1:trainLen,1), YY(1:trainLen,2), 30, colorSet(trainAndTest(1:trainLen,1)), 'filled')
hold on
s2 = scatter(YY(trainLen 1:trainLen testLen,1), YY(trainLen 1:trainLen testLen,2), 50, colorSet(trainAndTest(trainLen 1:trainLen testLen,1)), '^');
hold on
s3 = scatter(YY(trainLen testLen 1:end,1), YY(trainLen testLen 1:end,2), 50, colorSet(trainAndTest(trainLen testLen 1:end,1)), 'v');
legend([s2,s3],'對(duì)角性間距預(yù)測(cè)分析','SVM預(yù)測(cè)分析')
title('{\bf 根據(jù)聚類算法的辨別(LDA特征提?。﹠')
text(YY(trainLen testLen 1:end,1),YY(trainLen testLen 1:end,2),testName(:,1))
hold off

b6

應(yīng)用聚類算法對(duì)信息實(shí)現(xiàn)了探尋,并試著開(kāi)展辨別,但并沒(méi)有可以了解聚類算法后的UP主間的關(guān)聯(lián),嘿嘿。下一步提前準(zhǔn)備進(jìn)到主題風(fēng)格,運(yùn)用已經(jīng)知道標(biāo)識(shí)開(kāi)展實(shí)體模型訓(xùn)煉。

訓(xùn)煉實(shí)體模型

有監(jiān)管實(shí)體模型訓(xùn)煉

由于下面的練習(xí)都已經(jīng)知道標(biāo)識(shí),因此預(yù)置的特點(diǎn)權(quán)重值在練習(xí)中沒(méi)有意義,故挑選未權(quán)重計(jì)算的規(guī)范化數(shù)據(jù)信息。

clear,clc
load data

ct1 = 0;
ct2 = 0;

rR1 = zeros(2,2);%混淆矩陣
rR2 = zeros(2,2);

times = 4;
clearData = zscore(data);
indices = crossvalind('Kfold', size(clearData,1), times);
i = 1;
for i = 1 : times
    tests = (indices == i);
    train = ~tests;
    trainData = clearData(train, :);
    trainName = name(train,:);
    trainScore = score(train,:);
    testData = clearData(tests,:);
    testName = name(tests,:);
    testScore = score(tests,:);

    T = trainScore;

    %辨別
    [class,err] = classify(testData,trainData,T,'diagLinear');

    %SVM
    t = templateSVM('Standardize',true,'BoxConstraint',2);
    svmModel = fitcecoc(trainData, T, 'Learners',t);
    classification = predict(svmModel, testData);
    % 測(cè)算
    [m1,rR1] = mre(testScore, class, rR1);
    ct1 = ct1   m1;
    [m2,rR2] = mre(testScore, classification, rR2);
    ct2 = ct2   m2;
end
'對(duì)角性間距辨別MRE、混淆矩陣、準(zhǔn)確度、均方誤差:'
ct1/times
rR1
right1 = rR1./sum(rR1,1);
recall1 = rR1./sum(rR1,2);
right1(1),recall1(1)
'svm算法MRE、混淆矩陣、準(zhǔn)確度、均方誤差:'
ct2/times
rR2
right2 = rR2./sum(rR2,1);
recall2 = rR2./sum(rR2,2);
right2(1),recall2(1)

根據(jù)對(duì)角性和svm算法的較為,及其在不一樣標(biāo)識(shí)下的主要表現(xiàn),目前以下結(jié)果(評(píng)定規(guī)范為MRE、混淆矩陣、精準(zhǔn)率、均方誤差):

  • 在標(biāo)識(shí)為2類即【TOP10/非TOP10】時(shí),開(kāi)展五十層交叉驗(yàn)證

    • 頂角線性模型
      • MRE:0.4707
      • 混淆矩陣 [103,30;3,12]
      • 精準(zhǔn)率 [0.9717;0.2857](非TOP10;TOP10)
      • 均方誤差 [0.7744;0.8000]
    • SVM
      • MRE:0.3372
      • 混淆矩陣 [130,3;14,1]
      • 精準(zhǔn)率 [0.9028;0.2500](非TOP10;TOP10)
      • 均方誤差 [0.9774;0.0667]
  • 在標(biāo)識(shí)為3類即【TOP10/著名/一般】時(shí),開(kāi)展五十層交叉驗(yàn)證

    • 頂角線性模型
      • MRE:0.8091
      • 混淆矩陣 [60,17,10;16,17,13;2,5,8]
      • 精準(zhǔn)率 [0.7692;0.4359;0.2581](一般;著名;TOP10)
      • 均方誤差 [0.6897;0.3696;0.5333]
    • SVM
      • MRE:0.6508
      • 混淆矩陣 [75,11,1;26,19,1;6,5,4]
      • 精準(zhǔn)率 [0.7009;0.5429;0.6667](一般;著名;TOP10)
      • 均方誤差 [0.8621;0.4130;0.2667]
  • 在標(biāo)識(shí)為4類即【TOP10 著名/TOP10/著名/一般】時(shí),開(kāi)展五十層交叉驗(yàn)證

    • 頂角線性模型
      • MRE:1.1934
      • 混淆矩陣 [56,11,13,7;10,13,11,12;0,2,3,1;0,3,1,5]
      • 精準(zhǔn)率 [0.8485;0.4483;0.1071;0.2000](一般;著名;TOP10;TOP10 著名)
      • 均方誤差 [0.6437;0.2826;0.5000;0.5556]
    • SVM
      • MRE:0.7737
      • 混淆矩陣 [75,9,2,1;25,18,2,1;1,4,1,0;1,4,2,2]
      • 精準(zhǔn)率 [0.7353;0.5143;0.1429;0.5000](一般;著名;TOP10;TOP10 著名)
      • 均方誤差 [0.8621;0.3913;0.1667;0.2222]

實(shí)體模型效果分析

歷經(jīng)剖析,在目前樣版集下,在2類預(yù)測(cè)分析時(shí),對(duì)角性預(yù)測(cè)分析在預(yù)測(cè)分析非TOP10時(shí)精準(zhǔn)度高做到97%,在預(yù)測(cè)分析TOP10時(shí)均方誤差較高做到80%,表明當(dāng)此模型預(yù)測(cè)為非TOP10時(shí),有97%概率預(yù)測(cè)分析恰當(dāng),此模型預(yù)測(cè)為T(mén)OP10的全部UP中,有80%的UP可以變成TOP10。

與此同時(shí)剖析發(fā)覺(jué),在目前樣版集下,多種類型預(yù)比測(cè),二種形式的準(zhǔn)確率或均方誤差都較低,剖析混淆矩陣后覺(jué)得緣故是樣版集中化標(biāo)識(shí)占有率不平衡造成 ,目前樣版集下有樣版148份,在其中TOP10 著名9份、TOP106份、著名46份,占較為低,造成 訓(xùn)煉實(shí)體模型欠擬合。

實(shí)體模型展現(xiàn)圖

b7

改進(jìn)方案

歷經(jīng)剖析,現(xiàn)階段關(guān)鍵現(xiàn)象為數(shù)據(jù)內(nèi)不一樣標(biāo)簽數(shù)據(jù)量占有率比較嚴(yán)重失調(diào),處理方位有兩個(gè):提升信息量占較為少的標(biāo)識(shí)的信息量或是是降低占有率過(guò)大的標(biāo)識(shí)的信息量。處于現(xiàn)階段標(biāo)識(shí)數(shù)為4,樣本量148,挑選提升信息量是比較很容易的方法。

因?yàn)锽站有反爬對(duì)策,而TOP10UP主視頻數(shù)據(jù)信息相對(duì)性較多,均值每個(gè)人數(shù)據(jù)信息必須0.5天抓取,預(yù)估提升TOP10UP主總數(shù)到150位,總樣版總數(shù)抵達(dá)300個(gè)上下,更快必須一個(gè)月時(shí)間可以抓取結(jié)束,改善進(jìn)行之后將內(nèi)容連接升級(jí)在文中。

評(píng)論(0條)

刀客源碼 游客評(píng)論