大数据与人工智能_思维导图模板

大数据与人工智能

深度学习

深度学习的概念

深度学习是学习样本数据的内在规律和表示层次

深度学习与机器学习的关系

深度学习是一个复杂的机器学习算法

入门：全连接神经网络

全连接

描述

输入层：将数据输入给神经网络

隐含层：增加网络深度和复杂度，隐含层的节点数是可以调整的，节点数越多，神经网络表示能力越强，参数量也会增加。

通常隐含层会比输入层的尺寸小，以便对关键信息做抽象，激活函数使用常见的Sigmoid函数。

输出层：输出网络计算结果，输出层的节点数是固定的。如果是回归问题，节点数量为需要回归的数字数量。如果是分类问题，则是分类标签的数量。

含义

所有神经元参与运算，计算充分，特征提取比较充分，捕获所有特征

前向传播和反向链式求导方法

分类问题使用的交叉熵损失函数的意义

过拟合和欠拟合的概念

Dropout等解决过拟合问题的方法

使用DNN网络模型解决其他类似问题

进阶：卷积神经网络

经典网络模型（Alexnet、VGG、ResNet等）

卷积池化的概念

卷积：平移不变模式，抽取局部模式

运算时不断丰富数据

不像全连接那样全员参与运算

特征平移后出现在图片不同位置，卷积核都会找到该特征，特征检测所做的操作一样。

池化：下采样被检测物体不变模式

减少参与运算的参数量，帮助进行特征提取的技术，提取最关键的内容

作用

缓解卷积层对位置的过度敏感

减少冗余

降低图像分辨率，从而减少参数量

缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。

卷积神经网络的构成

卷积层+激活函数+池化层+输出层

卷积层：提取特征

卷积计算=特征抽取

激活函数：将线性特征变为非线性特征

sigmoid 二分类/多标签分类

softmax 多分类

Relu

池化层：下采样缩小图像的尺寸和参与运算的参数量

（1）具有局部区域连接、权值共享、降采样的结构特点

（2）卷积指的是神经网络不再是对每个像素的输入信息做处理了，而是图片上每一小块像素区域进行处理，这种做法加强了图片信息的连续性。使得神经网络能看到图形，而非一个点。具有平移不变性。

（3）池化操作：对于输入的图片，选择最大池化或平均池化对其进行压缩，以加快神经网络的运算速度。在卷积神经网络中通常会在相邻的卷积层之间加入一个池化层，池化层可以有效的缩小参数矩阵的尺寸，从而减少最后连接层的中的参数数量。
池化的作用：对数据进行下采样，减少运算参数量；降低了图像的分辨率，加快计算速度和防止过拟合。

（4）http://t.csdn.cn/65hQf

输出层：全连接层都在输出层

经过卷积层的特征提取与池化层的降维后，将特征图转换成一维向量送入到全连接层中进行分类和回归的操作

网络输入输出数据类型

利用Paddle API接口使用经典网络训练和测试数据

解决图像分类问题

多层神经网络

深度神经网络

Python

Python语言基本语法

数据类型和变量

数据类型（查看数据类型使用type（变量名））

Number 数字

整型 int

浮点型 float

复数 complex

String 字符串

str

把字符串转成一个个字节

unicode

一个字符对应两个字节

用单引号或双引号或三个引号可以创建字符串

三引号创建的字符串可以跨越多行

引号前加u表示创建的是一个Unicode字符串

字符串函数

S.find

字符串查找，查找到返回开始的索引值否则返回-1

S.rfind

字符串反向查找，返回字符串最后一次出现的位置否则返回-1

S.replace(旧，新，次数)

字符串替换

S.strip

剔除两端空白

List 列表

列表中元素的类型可以不相同，支持数字、字符串、列表

列表之间的元素用逗号分隔开，可以用+操作符进行拼接，使用*表示重复

列表有切片操作与字符串类似

列表删除元素del 如：del a[1]

列表长度len len(a)

列表相加 a+b

列表复制 a*2

包含判断 if 3 in a：pass

Tuple 元组

元组的元素不能修改

元组使用小括号，列表使用方括号

任意无符号的对象，以逗号隔开，默认为元组

元组中只包含一个元素时，需要在元素后面添加逗号，否则括号会被当作运算符使用:

元组可以使用下标索引来访问元组中的值

元组内置函数

len(a)

max(a)

min(a)

tuple(iterable)将可迭代系列(如列表)转换为元组

Dict 字典

{键:值,键:值}

同一个字典中，键必须是唯一的

不能通过下标访问元素，只能通过key值访问

a[键名]

遍历字典

dict.items()获取字典的各个元素

获取到具体的每个键和值

单独获取键和值

字典函数

len(dict),str(dict),type(dict)

字典方法

Set 集合

set是一组key的集合

集合间的运算

总结

变量

全局变量

函数外定义的变量

要在函数内给一个全局变量赋值时，需要先用global关键字声明变量，否则编译器会尝试新建一个同名的局部变量

变量名

大小写英文、数字、下划线，且不能以数字开头

局部变量

函数内定义的变量

标准输入和标准输出函数

input函数的返回值类型：字符串

运算符和表达式

算术运算符

+ - * / % ** //

赋值运算符

比较运算符

位运算符

^（异或）

相同为0，相异为1

~（取反）

按二进制位进行"取反"运算理解：0的为1，1的为0 举例: ~6

6 => 0000 0000 0000 0110

~ 1111 1111 1111 1010 转换成十进制也就是-7

逻辑运算符

and

a为False，则返回False否则返回b的计算值

a为True则返回a的值，否则返回b的计算值

not

a为True返回False，a为False返回True

a在b就返回True

not in

a不在b就返回True

身份运算符

is not

判断两个标识符是不是引用自同一个对象

类似id(x)==id(y),id(x)函数用于获取对象内存定制

运算符优先级

Python指定任何非0和非空值为True，0或者Node为False

条件判断和循环

注释

单行注释#

多行注释多个#，''' '''或者""" """

多行语句

使用反斜杠\实现分行

复合语句

if elif else + :

导入模块及函数

Random模块

文件模块

open()

注意文件的读取形式

CSV文件格式的读取和写入

函数

类

类体包括类成员，方法，数据属性

异常

os模块

Python常用库

Numpy（进行科学计算）

创建

np.array()创建数组

np.array([1,2,3])

[1 2 3]

np.array([[1,2],[3,4]])

[[1,2]
[3,4]]

np.zero([10,10])

np.ones([10,10])

函数

np.size(a)/a.size

返回数组中元素总个数

shape()

返回数组各个维度对应长度

len()

返回数组第一维度的长度

numpy.arange()

创建随机数组

numpy.linspace(开始，结束，总个数)

创建一个等距的一维数组

numpy.logspace()

创建一个等比数列

均匀分布

np.random.rand(10,10)

创建10行10列的数组（范围在0-1之间）

np.random.uniform(0,100)

创建指定范围内的一个数

生成均匀分布随机数，指定随机数取值范围和数组形状

np.random.randint(0,100)

创建指定范围内的一个整数

正态分布

np.random.randn()，产生均值0，方差1的正态分布随机数，参数代表它的形状

np.random.standard_normal(),产生标准正态分布随机数，参数代表它的形状

np.random.normal(loc= ,scale= ,),产生正态分布的随机数，参数代表均值/标准差/形状

打乱数组顺序

np.random.shuffle(a)

随机选取数据

a = np.arange(30)
b = np.random.choice(a, size=5)

切片

一维数组

任何修改都会直接反映到源数组上

多维数组

可以对各个元素进行递归访问，但是这样有点麻烦

还有一种方式是传入一个以逗号隔开的索引列表来选取单个元素

数学和统计方法

sum()

mean()

axis参数读取方式

cumsum(0)按行进行求和（向下）

cumprod(1)按列进行乘积（向右）

基本数组统计方法

线性代数

x.dot(y)#相当于np.dot(x,y)

两矩阵相乘

数组和标量之间的运算

Numpy的算术运算

进行运算的两个元素个数必须相同

元素可以与标量分别进行运算

Pandas（读写大量数据）

主要实现加载数据、整理数据、操作数据、构建数据模型、分析数据环节

特点

提供一个带有默认标签的DataFrame对象

能够从不同格式的文件中加载数据然后转换为可处理的对象

能够按行、列标签进行分组，并对分组后的对象执行聚合和转换操作

能够方便实现数据归一化操作和缺失值处理

能够对数据列进行增删改操作

能够处理不同格式的数据集、提供多种处理数据集的方式

Series(一维数据)

index和value 与字典不同的是Series允许索引重复

创建

使用python数组创建

Series的字符串表现形式为:索引在左边，值在右边

如果没有为数据指定索引，则自动创建一个0到N-1 （N为数据的长度)的整数型

索引可以通过Series的 values和 index属性获取其数组表示形式和索引对象

与普通numpy数组相比﹐可以通过索引的方式选取Series中的单个或一组值

使用numpy数组创建

使用python字典创建

功能

它会在算术运算中自动对齐不同索引的数据

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切

赋值就地更改

DataFrame(二维数据）

行索引：index列索引：columns

简述

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型(数值﹑字符串﹑布尔值等)

DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典(共用同一个索引)

跟其他类似的数据结构相比(如R语言的data.frame ) , DataFrame 中面向行和面向列的操作基本上是平衡的

DataFrame 中的数据是以一个或多个二维块存放的（而不是列表﹑字典或别的一维数据结构)

创建

直接传入一个由等长列表或numpy数组组成的字典

如果指定了列顺序，则 DataFrame的列就会按照指定顺序进行排列

跟原Series一样，如果传入的列在数据中找不到，就会产生NAN值

功能

获取某一列

通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个 Series，返回的Series拥有原DataFrame相同的索引，且其name属性也已经被相应地设置好了

修改某一列

列可以通过赋值的方式进行修改

赋值某一列

将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配

如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有空位都将被填上缺失值

为不存在的列赋值会创建出一个新列

删除某一列

del

嵌套字典

外层键作为列名，内层键作为行索引

可对二维列表进行转置

返回数据

设置了DataFrame的 index和 columns的name属性，则这些信息也会被显示

跟Series一样, values属性也会以二维ndarray的形式返回DataFrame中的数据

Series一维数组

DataFrame二维数组

如果DataFrame各列的数据类型不同，则数组的数据类型就会选用能兼容所有列的数据类型

索引对象

pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等)

构建DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index

Index对象是不可修改的，因此用户不能对其进行修改

Index的方法和属性

文件读取

读取数据库中的数据

写入文件

查看数据

data.head(num),打印前num行

data.tail()打印数据的最后一行

data.loc[行数]，打印该行

data.loc[行数，列名]，打印该行列名为...的列

data.loc[range(4,6)],打印4到5行的数据子集，左闭右开原则

更新数据

data.loc[行数，列名]=newvalue

行迭代

统计函数

Matplotlib（绘制各类图形）

Python爬虫库

beautifulsoup库

request

reques.get()

正则表达式

反爬措施

数据清洗和预处理

结巴分词模块

三种分词模式

Jieba.cut(str)

精准模式

Jieba.cut(str,cut_all=True)

全模式

Jieba.cut_for_search(str)

搜索引擎模式

注意点

jieba.cut返回的是一个迭代器不能直接打印

迭代器如何打印？

jieba.cut返回的是一个列表

加载新创建的词典

jieba.load_userdict(词典路径)

词典格式：一个词占一行；每一行分三部分：

词语词频词性
人工智能 100 nz
计算机学院 100 nt

seg_list2=jieba.cut(text)

print(",".join(seg_list2))

动态调整词典

#添加词
jieba.add_word(‘计算机科学与技术')
#删除词
jieba.del_word(‘的’)
#修改词频
jieba.suggest_freq((‘新', ‘开设'), True)

词性标注

import jieba.posseg as pseg
words =pseg.cut("我爱北京天安门")
for w in words:
print (w.word,w.flag)

关键词抽取

词频统计

线性回归算法

假设函数

含义：假设某一个函数，使其能尽可能的代表数据的分布。

损失函数

含义：用来度量模型的预测值f (x)与真实值Y的差异程度的运算函数

理论

回归分析

将具有相关关系的自变量与因变量之间的数量关系进行测定

分类

涉及的变量多少

一元回归分析

多元回归分析

自变量和因变量之间的关系

线性回归

测定相关关系的密切程度

建立回归方程

利用回归模型进行预测

非线性回归

自变量

一般把作为估测依据的变量叫做自变量

因变量

待估测的变量

回归方程

反映自变量和因变量之间联系的数学表达式

术语

标签

要预测的真实事物（y）

特征

用于描述数据的输入变量（x1,x2,....xn）

用于描述对最终预测结果产生影响的因子的各些特性

样本

数据的特定实例x

有标签样本{特征，标签}

用于训练标签

无标签样本{特征，？}

用于对新数据做出预测

模型

可将样本映射到预测标签

构建模型

检查多个样本并尝试找出可最大限度地减少损失的模型，这一过程称为经验风险最小化

模型训练要点

首先对权重w和偏差b进行初始猜测

然后反复调整这些猜测

直到获得损失可能最低的权重和偏差为止

模型收敛

不断迭代，直到总体损失不再变化或至少变化极其缓
慢为止

训练

通过有标签样本来学习(确定)所有权重和偏差的理想值

训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差

损失

损失是对糟糕预测的惩罚:损失是一个数值，表示对于单个样本而言模型预测的准确程度

定义损失函数

损失函数的选择

均方差损失函数

交叉熵损失函数

梯度下降法

梯度

即函数在该点处沿着该方向(此梯度的方向)变化最快，变化率最大

梯度是矢量，具有方向和大小

学习率（步长）

用梯度乘以一个称为学习速率(有时也称为步长)的标量以确定下一个点的位置

优化器的选择

和SGD时的情形相比，可以更快地朝×轴方向靠近，减弱“之”字形的变动程度。

特点: AdaGrad可以按参数的元素进行学习率衰减，使变动大的参数的学习率逐渐减小。

超参数

在开始学习过程之前设置值的参数，不是通过训练得到的参数数据

典型超参数：学习率、神经网络的隐含层数量

线性回归实践

多元线性回归解析

模型函数

假设函数

y的预测值，输入是x

定义损失函数

输入是预测值，label是真实值

定义优化方法

训练模型

保存模型

保存模型路径

输入变量

输出变量，通过输出变量即可得到模型的预测结果

模型执行器

加载模型

创建推测用的执行器

从指定目录中加载推理model

fluid.io.load_inference_model(模型训练路径，预测的执行器)

返回结果

推理的项目

在推理的项目中提供数据的变量名称

推断结果

定量输出称为回归，或者说是连续变量预测

获取预测数据

使用算法解决回归类问题，预测连续值

机器学习

理论

机器学习的实现可以分成训练和预测（归纳和演绎）

归纳：从具体案例中抽象一般规律

得到某种表达式

演绎：从一般规律推导出具体案例的结果

将新的值带入表达式中进行计算

主流的模型

有监督学习

从给定的有标注的训练数据集中学习出一个函数，当有新的数据时可以使用这个函数进行预测结果

常见任务包括分类与回归

定性输出称为分类，或者说是离散变量预测

二分类多分类

无监督学习

没有标注的训练数据集，根据样本间的统计规律对样本集进行分析

常见任务包括聚类

分类与聚类的区别

半监督学习

结合（少量的）标注训练数据和（大量的）未标注数据进行数据的分类学习

两个基本假设

聚类假设

流形假设

迁移学习

对经典网络结构的理解和记忆

利用预训练模型基于新数据集迁移学习新的知识并解决新问题

强化学习

外部环境对输出只给出评价信息而非正确答案，学习机通过强化受奖励的动作来改善自身的性能。

算法

线性回归、神经网络、卷积神经网络、循环神经网络、生成对抗网络

可以解决的问题

给定数据的预测问题

数据清洗/特征选择

确定算法模型/参数优化

结果预测

Paddlepaddle框架

深度学习模型的选择、构建和应用

支持向量机、分类问题、回归问题

支持向量机的基本原理，解决分类问题预测离散值

大数据与人工智能

模板简介

猜你喜欢

相关文章