色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

需要用到哪些技術(shù)和算法

張吉惟2年前13瀏覽0評論

需要用到哪些技術(shù)和算法?

雖然沒有做過考試題分類,但從描述看起來像是個文本主題多分類的問題。我提供一下的一些思路,效果因為也沒有嘗試過,所以我也不確定是否好。

首先第一步,分類之前肯定是需要提取特征的,也就是把你的考試題向量化。向量化有以下幾種方法。

1. 自己設(shè)置特征,比如設(shè)置中英文字數(shù),數(shù)字的字數(shù),自己設(shè)置一些名詞,名詞出現(xiàn)的頻率等,這些特征你自己設(shè)置,最后可以轉(zhuǎn)換成向量

2. 詞袋模型,用TF*IDF表示,具體可以搜一下什么是TF*IDF

3. word embedding模型,該模型結(jié)合了語義信息,比如用word2vec這種可以表示每個單詞的語義向量,整個文檔的語義可以每個單詞加起來,或者直接用doc2vec,python的gensim有api,可以直接實現(xiàn),但是推薦了解下原理。

上面3個方法,都能把一道題轉(zhuǎn)換成一段向量,這樣就相當于向量的多標簽分類問題了。

分類方法:

1. 可以當成0/1分類問題,即假設(shè)有5個分類ABCDE,你分別訓練5個模型,判斷該向量是否屬于這個分類。這種2分類的方法有很多,效果比較好的,可以直接丟進去的有隨機森林,邏輯回歸,svm

2. 設(shè)置一個閾值,直接搞。假設(shè)考試題A的向量表示是X, 對應的標簽是分類B和C(有ABCDE5類),那最終的結(jié)果向量就是0 1 1 0 0 ,把向量丟到神經(jīng)網(wǎng)絡里,最后連個softmax,輸出每個分類的概率,比如是0.1 0.6 0.8 0.4 0.3, 超過0.5的你就認識是該分類,來訓練。

3. 比較推薦用RNN(lstm/gru都可以)訓練,RNN對這種類型的效果一般都還可以,而且可以適應不同長度的輸入,不用固定成多少維的向量。方法是用word2vec,把考試題的每個單詞向量化了,然后丟到RNN里面(如果題目很長,考慮加入attention機制,cell選擇lstm或者GRU),輸出的結(jié)果接一個sigmoid,就是方法1中的0/1分類問題,如果接個softmax,就是方法2中的設(shè)置閾值

4. 可以嘗試下topic model,比如LDA主題模型。看看每個分類的topic words是什么,然后直接關(guān)鍵字搜索。比如都是分類A的考試題,提取topic word,以此類推。把這些topic word結(jié)合特征1做個分類,但是目測效果隨數(shù)據(jù)集會有很大變化

大致想到了以上的方法,未經(jīng)試驗,僅供參考