问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

机器学习sklearn中文本和数据如何混合训练,比如说在训练集中(文本,文本,数据)

发布网友 发布时间:2022-04-10 09:37

我来回答

2个回答

懂视网 时间:2022-04-10 13:58

sklearn.datasets import load_boston boston = load_boston() print(boston.data.shape)

这个数据集的shape为:

(506, 13)

也就是506行,13列,这里13列就是影响房价的13个属性,具体是哪些属性可以通过如下代码打印出来:

print(boston.feature_names)

输出为:

[‘CRIM‘ ‘ZN‘ ‘INDUS‘ ‘CHAS‘ ‘NOX‘ ‘RM‘ ‘AGE‘ ‘DIS‘ ‘RAD‘ ‘TAX‘ ‘PTRATIO‘
 ‘B‘ ‘LSTAT‘]

具体代表啥意思,要么自己猜,要么上网查吧,我不一一去解释了,我猜几个:RM:room数,也就是户型中的几房,AGE:age(房龄),不知道猜对不对,大家自己去实践了。

你说我咋知道这个数据集中有feature_names属性,我也不知道,我只是把上面的boston整个打印出来看到其中有这个属性的。

预测房价案例

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# 加载房价数据
boston = load_boston()
data_X = boston.data
data_y = boston.target

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size=0.3)

# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 打印出预测的前5条房价数据
print("预测的前5条房价数据:")
print(model.predict(X_test)[:5])

# 打印出测试集中实际房价前5条数据
print("测试集中实际房价前5条数据:")
print(y_test[:5])

输出:

预测的前5条房价数据:
[ 17.44807408 27.78251433 18.8344117 17.85437188 34.47632703]
测试集中实际房价前5条数据:
[ 14.3 22.3 22.6 20.6 34.9]

以这个结果集中第一条数据为例,我们预测出某房子的价格是17.4万,而实际价格是14.3万。

不过说实话,上面的房价数据只能用于测试算法,我们真要预测房价的话,原始数据的获得没有那么全和规整,因此,在机器学习中,收集数据并清洗也是一个很重要的工作,脏活累活也必须得干,光有算法没啥用。

花的数据前面一个博文已经讲过了,这里就不再重复了。

手写数字识别数据

还有手写数字识别的,这个也很常用:http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits

创建样本数据

也可以生成一些虚拟的数据,这些是位于官网的API文档中Samples generator一节:
技术分享图片

案例源代码为:

from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
# 创建100个样本,1个属性值的数据,输出一个目标值,同时也设置了噪音
X, y = make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)
print(X.shape)
print(y.shape)

# 对X,y画散点图,看看长啥模样的
plt.scatter(X, y)
plt.show()

输出的数据为:

(100, 1)
(100,)

也就是X值中有100行1列,y值是100行的值。

输出的图形为:
技术分享图片

看起来接近一条直线。

sklearn数据库-【老鱼学sklearn】

标签:span   tab   重要   module   img   .sh   oom   amp   数字   

热心网友 时间:2022-04-10 11:06

文本当然不能直接参与训练,模型只能处理数据
那么,文本怎么参与训练呢?先明确一个,你想要使用什么模型?
一般来说,想把文档,转化成几个特征参与模型训练。主要问题就是如何提取几个特征,能代表这个文档了。这里面NLP就涉及的比较多了,常见的TF-IDF,字典模型,词袋模型,以及w2v向量模型。。。当然,也不排除你用LSTM/RNN之类的,提取特征,经过这些步骤,文档就变成了一个标量,或者某个维度的向量。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
如何避免舒利迭的误用,从而正确使用呢 使用舒利迭声音嘶哑怎么办,停药后能恢复正常声音吗?_过敏性哮喘_百度知 ... 为什么节食微饿促进长寿 想长寿老年人可以适度节食 火影忍者手游怎么都有蛤蟆仙人了 我只是忘了忘记你图书目录 我只是忘了忘记你作者简介 我只是忘了忘记你内容简介 对《我只是忘了忘记你》进行评价! 多肉有什么作用和功效 多肉的好处 百般红紫斗芳菲的斗的妙处 关于休谟的故事 关于机器学习sklearn库 excel怎么将直排数据变横排并且合并 具体如图 如何横向合并一个文件下的多个Excel文件!领导催得紧,急!高分! EXCEL问题,我想要A,B,C,D,四个竖向的的单元格横向合并,但是不要竖向合并,怎么操作 excel横列数据合并怎么处理? 联想笔记本忽然死机无法启动怎么办? 联想笔记本死机后如何才能处理好? 联想笔记本电脑死机怎么办 联想笔记本死机了有能解决的方法吗? 联想笔记本频繁死机应该怎样解决? QQ三国,现在军团拉20万声望需要多少三国币? qq三国刷20w声望大概多少三国币加几级团好 QQ三国拉声望 《秋天的湖山公园》是一篇写什么的作文,时间是什么,地点在哪儿。 湖州将军山是哪个将军 车强险怎么交 怎样去南沙旅游 三沙市可以自由旅游吗? 最近可能上火了,总是便秘,怎么办 内火严重,嘴唇红,并且老是便秘我可以吃什么药 爱上火,便秘,吃点什么下火的药好? 长期便秘,感觉身体一直有火,吃点啥 请问这个是情头么? 看上去比较温和的女生头像 谁有QQ女生头像 要好看的,温柔的 自然的, 图中盘口卖与买都是什么意思。 12315投诉平台我在淘宝 买都 他说给我买都说好了十么意思? 粤语 买亲都系嗰几个冧巴 整句什么意思 冧巴什么意思 采购和购买都和钱财有关系对吗? 新房购买都有那些流程? 你们都在网上买过什么东西? 怎么买股票的啊?!想买都没法买啊,急… 公司买办公用品一般是财务去买还是任何人买都可以? 你们都是多少钱买的Blincyto(blinatumomab)? 拼多多买东西的都是什么人? 基金在哪买都一样吗? 俗话说“月子病,病一生”,月子时生病真的会留下病根吗?