本文共 1181 字,大约阅读时间需要 3 分钟。
做为一个新的笔记 先确定数据源,线性回归的数学基础 · 线性回归在数学来讲有2个作用,预测的作用,分类的作用 三面学习法,背景面(数学推导),基础面,影射法,围攻法 线性回归两大背景,预测,分类,从这两方面入手 这些是科学计数法表达的数据,年龄和身高的关系 这两个是dat的文本文件格式 引入魔法指令,图形前如到网页中,是notebook常用的魔法指令nump主要是做数据的表达方式,把传统的标量概念,变成向量的概念,就是对python链式态的元组的扩展,matplotlib是数据可视化,sklearn是标准数据集,也可以网上下载它的文本文件加载工具
需要先加载年龄,这个数据就比较抽象 加载身高,一般人们就是用视觉感觉到有规律,规律要论证可靠,才去上升到数学去,数学可靠后,上升到工程的应用 figure(标题,fgsize大小) 添加一个坐标图,add_axes(指定大小和宽度,label标签) 左边是从1岁开始,右边到10岁 身高 最低0,最高1.5m 给年龄和身高加标签 scatter 画一个图出来,x坐标是年龄,y身高, 还可以设置颜色,marker可以设置就是个点,大小设置10 这样我们就可以看到年龄和身高其实是有正比关系的,在数学也叫线性。 那么计算机如何知道身高和年龄的关系成正比?也就可以预测一个8岁小孩的正常身高是多少,但是这样还不够让计算机智能的学习这种正比关系,就是让计算机学习线性回归的关系 现在这些点,如何让计算机去从中模拟出折线的规律,也就是线性回归,计算机去着手处理规律(算法)这里也可以用plt.show,调用的也是这个方法
下面加载鸢尾花的数据,两个坐标,一个数据,一个叫target。 load_iris,iris就是鸢尾花(鸢尾花是一个数据结构),其实是采用美国三个地区的鸢尾花指数,一个是花瓣的长度宽度,一个是花萼的宽度长度。4 个数据就可以把这个三个地区鸢尾花指数,直接就可以分开。 但是之前的二维坐标就表达不了现在的多维数据 鸢尾花一共是150个样本,50个,一个50个分一类,前面50个跟后面的关系非常明显,下面可以看下表达数据,分三类,从0-50,50-100,100-150,红绿蓝。 最后ax.legend画一个主题 figure.show(warn=False把警告屏蔽 ABC类的数据看的很清楚。从前面的身高和年龄是成关系的状态,它的数据是沿着一条直线周边做分布,把直线精确的找出来就叫线性回归。 但是鸢尾花的数据并不是在一条直线上,但是我们只要判定它是跟哪一类的数据扎堆就可以 线性回归的几个准则: 关系基本是直线,可以在多维空间里直接表达出来 预测 分类 算法只是第一关,沿用到实际,要到工程这一块 显示的更大一点 这个数据就更加明显,所谓线性回归就是找一条直线,要么做预测,要么做分类转载地址:http://whzgn.baihongyu.com/