XGBoost文本分类,多分类、二分类、10-Fold(K-Fold)

更新时间:2023-05-20 10:05:54 阅读: 评论:0

XGBoost⽂本分类,多分类、⼆分类、10-Fold(K-Fold)
做机器学习的时候经常⽤到XGB,简单记录⼀下
K折交叉验证也是模型常⽤的优化⽅法。⼀起记录。。。
K折交叉验证:类似三个臭⽪匠,顶个诸葛亮。我的理解是,就是⽤民主投票的⽅式,选取票数最⾼的那个当结果。K折就是分成K份数据来进⾏。K= 5就是5折交叉验证,K= 7就是7折交叉验证,K=10就是10折。。。
先把每个模型训练出来,才能进⾏选票。⾄于怎么投票,就看你像想怎么设置了,我这是投的准确率。
acc = [] # 记录每个模型的准确率
models = [] # 记录每个模型
越剧小生化妆随机抽取200条数据出来当测试集
random_index  =t()
while(len(random_index )<200):
random_index .add(random.randint(0,len(x_train_weight)-1))
random_index = list(random_index)
random_index.sort(rever=True)
挤压英文my_test = [x_train_weight[i] for i in random_index]
my_labels = list([labels["labels"][i] for i in random_index])
for i in random_index:
x_train_weight = np.delete(x_train_weight, i, 0)
labels = labels.drop(index=i)
# 开始训练
le = len(x_train_weight)//10
for i in range(10):
print("-"*5+"第"+str(i+1)+"个模型"+"-"*5)
left = i*le
right = (i+1)*leb s
Kx_train = np.concatenate((x_train_weight[:left],x_train_weight[right:]),axis=0)
Kx_label = np.concatenate((labels["labels"][:left],labels["labels"][right:]),axis=0)
Ky_train = x_train_weight[left:right]
Ky_label = labels["labels"][left:right]
jmcdtrain = xgb.DMatrix(Kx_train, label=Kx_label)
dval = xgb.DMatrix(Ky_train, label=Ky_label)
params = {
'booster': 'gbtree',
'objective': 'multi:softmax',  # 多分类的问题
'num_class': 16,  # 类别数,与 multisoftmax 并⽤
# 'gamma': 0.1,  # ⽤于控制是否后剪枝的参数,越⼤越保守,⼀般0.1、0.2这样⼦。
'max_depth': 6,  # 构建树的深度,越⼤越容易过拟合
# 'lambda': 2,  # 控制模型复杂度的权重值的L2正则化项参数,参数越⼤,模型越不容易过拟合。
# 'subsample': 0.7,  # 随机采样训练样本accept
# 'colsample_bytree': 0.7,  # ⽣成树时进⾏的列采样
# 'min_child_weight': 1,
# 这个参数默认是 1,是每个a叶⼦⾥⾯ h 的和⾄少是多少,对正负样本不均衡时的 0-1 分类⽽⾔
# ,假设 h 在 0.01 附近,min_child_weight 为 1 意味着叶⼦节点中最少需要包含 100 个样本。
# 这个参数⾮常影响结果,控制叶⼦节点中⼆阶导的和的最⼩值,该参数值越⼩,越容易 overfitting。
'silent': 0,  # 设置成1则没有运⾏信息输出,最好是设置为0.
mux'eta': 0.3,  # 如同学习率
'ed': 666,  # 随机数种⼦,如果固定,则每次产⽣相同训练结果
# 'nthread': 4,  # cpu 线程数
'class_weight': 'balanced',
'n_estimators': 100,
'eval_metric': 'merror'
}
num_rounds = 40  # 迭代次数
watchlist = [(dtrain, 'train'), (dval, 'val')]
# 训练模型并保存
# early_stopping_rounds 当设置的迭代次数较⼤时,early_stopping_rounds 可在⼀定的迭代次数内准确率没有提升就停⽌训练
model = ain(params, dtrain, num_rounds, watchlist, early_stopping_rounds=50)
# 模型预测
y_predict = model.predict(dval)
models.append(model)
acc.append(metrics.accuracy_score(Ky_label, y_predict))
print("acc:", acc)
pred = []
for i in range(10):
pred.append(models[i].predict(xgb.DMatrix(np.array(my_test))))
print("pred: ", pred)
my_jieguo = []
for i in range(len(my_labels)):
t = [0 for _ in range(len(categories))] # 记录票数
tg = [int(pred[j][i]) for j in range(10)] # 获取10个模型的预测结果
# 统计票数
for i in range(10):
t[tg[i]] += acc[i]
my_jieguo.append(t.index(max(t))) # 选出最⾼,加⼊结果
print("实际:", my_labels)
print("预测:", my_jieguo)成功的意思
Ts = 0 # 预测正确的数量
春节英语手抄报内容error = [] # 预测储物的数据
for i in range(len(my_labels)):
if my_labels[i] == my_jieguo[i]:
Ts += 1
#    el:
#        error.append(features[random_index[i]])
print("准确率:%f" % (Ts/len(my_labels)))
with open("", "a", encoding="utf-8") as f:
for i in error:
crystalf.write(i+"\n")
for i in range(10):
models[i].save_model('xgb_model/del' % i)  # ⽤于存储训练出的模型
⼆分类
也基本上是查不多的,前⾯都⼀样
这⾥⼆分类的结果输出不是0,1,⽽是⼩数,我以0.5为分割,⼩于为0,⼤于为1(1表⽰是,反之0表⽰否)
params = {
'booster': 'dart',
'objective': 'binary:logistic',
'max_depth': 6,  # 构建树的深度,越⼤越容易过拟合
'eta': 0.06,  # 学习率
'n_estimators': 100,
'class_weight': 'balanced',
'ed': 1001,  # 随机数种⼦,如果固定,则每次产⽣相同训练结果
诱惑的奏鸣曲}
num_rounds = 20 # 迭代次数
watchlist = [(dtrain, 'train'),(dval, 'val')]
#训练模型并保存
# early_stopping_rounds 当设置的迭代次数较⼤时,early_stopping_rounds 可在⼀定的迭代次数内准确率没有提升就停⽌训练model = ain(params, dtrain, num_rounds, watchlist)
# model.save_model('/del') # ⽤于存储训练出的模型
# 模型预测
y_predict = model.predict(dval)  # 模型预测
predictions = [round(value) for value in y_predict]
accuracy = accuracy_score(Ky_lable, predictions)
acc.append(accuracy)
models.append(model)

本文发布于:2023-05-20 10:05:54,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/706093.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   训练   参数   节点   控制   预测
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图