数据分析-实验

混乱的实验室:Te-s-r-act,是 TensorAct,还是 Tesseract ?

Te-s-r-act,是 TensorAct,还是Tesseract ?

卓尔金升级6——分类网络

问题描述

使用工具

Anaconda (Jupyter Notebook,Jupyter Lab,Numpy,Pandas,SciPy,TensorFlow,Keras)还有matplotlib,差点忘了

TensorFlow | TensorBoard | TensorBoard.dev | Google Colab****

https://playground.tensorflow.org/****

https://nbviewer.jupyter.org/

数据来源

MVRV | S2F | NVT

22 款神经网络的设计和可视化工具

Mac版Excel如何添加数据分析功能?

机器学习-回归问题(Regression)

标准化、归一化、正规化

一文读懂机器学习分类算法(附图文详解)

Q&A: 机器学习与金融行业

开发环境

https://www.anaconda.com/

https://www.anaconda.com/pycharm

pandas是一个数据处理的包,本身提供了许多读取文件的函数,像read_csv(读取csv文件),read_excel(读取excel文件)等,只需一行代码就能实现文件的读取。

规整化算法

第一步:去指数转线性,y = LN(x/x的几何平均数), 第二步:Logistic 模式 ,y = 1/(1+e^(-x)) 第三步:z-score 标准化,y=(x-μ)/σ

只要经过这三步处理,不管之前是怎样分布的数据,都会转化为标准正态分布。

研发进度

2021.7.9

安装了Anaconda,借助Anaconda 安装了 Jupyter Notebook,Jupyter Lab,Numpy,Pandas,SciPy,TensorFlow,Keras 还有matplotlib,差点忘了

课程?在看了在看了

from tensorflow import keras
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

找到了 TensorFlow学习笔记 ,发现逻辑回归分类问题应该用交叉熵损失函数,而不是均方误差MSE损失函数

****交叉熵 | **** 损失函数 | 归一化指数函数(Softmax函数)

matplotlib-tutorial 学会复制粘贴了,这是一种进步

python-tutorial 找到了python基础教程,重新回去学python

不学了,要吐了

再想想

找到了一本书:利用Python进行数据分析:README

找到了英文版

https://github.com/wesm/pydata-book

找到了中文版

https://github.com/BrambleXu/pydata-notebook

pandas是一个数据处理的包,本身提供了许多读取文件的函数,像read_csv(读取csv文件),read_excel(读取excel文件)等,只需一行代码就能实现文件的读取。

2021.7.10

python pandas read_html快读读取中国商情网的A股,港股以及新三板股票

pandas.read_csv 详细介绍

pandas.read_excel 详细介绍

教程

30分钟带你入门数据分析工具 Pandas

十分钟入门 Pandas 🚩

读取写入数据

In [143]: df.to_csv('foo.csv')
    • 读取 CSV 文件数据:

In [144]: pd.read_csv('foo.csv')
In [147]: df.to_excel('foo.xlsx', sheet_name='Sheet1')
    • 读取 Excel 文件:

In [148]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Pandas 数据结构

1. Series

Series 是一种一维数组,和 NumPy 里的数组很相似。事实上,Series 基本上就是基于 NumPy 的数组对象来的。和 NumPy 的数组不同,Series 能为数据自定义标签,也就是索引(index),然后通过索引来访问数组中的数据。

import numpy as np
import pandas as pd

创建一个 Series 的基本语法如下:

my_series = pd.Series(data, index)

2. DataFrames

Pandas 的 DataFrame(数据表)是一种 2 维数据结构,数据以表格的形式存储,分成若干行和列。通过 DataFrame,你能很方便地处理数据。常见的操作比如选取、替换行或列的数据,还能重组数据表、修改索引、多重筛选等。

构建一个 DataFrame 对象的基本语法如下:

pd.DataFrame(data,index)
df = pd.DataFrame(data,index) 

可视化

详见可视化 (opens new window)文档。

In [135]: ts = pd.Series(np.random.randn(1000),
   .....:                index=pd.date_range('1/1/2000', periods=1000))
   .....: 

In [136]: ts = ts.cumsum()

In [137]: ts.plot()
Out[137]: <matplotlib.axes._subplots.AxesSubplot at 0x7f2b5771ac88>
可视化

DataFrame 的 plot() (opens new window)方法可以快速绘制所有带标签的列:

In [138]: df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
   .....:                   columns=['A', 'B', 'C', 'D'])
   .....: 

In [139]: df = df.cumsum()

In [140]: plt.figure()
Out[140]: <Figure size 640x480 with 0 Axes>

In [141]: df.plot()
Out[141]: <matplotlib.axes._subplots.AxesSubplot at 0x7f2b53a2d7f0>

In [142]: plt.legend(loc='best')
Out[142]: <matplotlib.legend.Legend at 0x7f2b539728d0>
可视化2

python3带你玩转excel--工作党福利--(评论区附有课件和代码)\

numpy

np.array # ndarray

NumPy 提供了很多统计函数,用于从数组中查找最小元素,最大元素,百分位标准差和方差等。

scipy

scipy.stats

pandas

Series,DataFrame

excel,csv

matplotlib

tensorflow

keras

IPython

Spyder

Jupyter Notebook/Lab

PyCharm

SciPy - Stats_学习Scipy|WIKI教程

Scipy统计函数- Scipy教程™ - 易百教程 🚩

NumPy Ndarray 对象| 菜鸟教程

Scipy统计函数- Scipy教程教学| 程式教程网- 亿聚网

1.5 Scipy:高级科学计算

作者:Adrien Chauve, Andre Espaze, Emmanuelle Gouillart, Gaël Varoquaux, Ralf Gommers

Scipy

scipy包包含许多专注于科学计算中的常见问题的工具箱。它的子模块对应于不同的应用,比如插值、积分、优化、图像处理、统计和特殊功能等。

scipy可以与其他标准科学计算包相对比,比如GSL (C和C++的GNU科学计算包), 或者Matlab的工具箱。scipy是Python中科学程序的核心程序包;这意味着有效的操作numpy数组,因此,numpy和scipy可以一起工作。

在实现一个程序前,有必要确认一下需要的数据处理时候已经在scipy中实现。作为非专业程序员,科学家通常倾向于重新发明轮子,这产生了小玩具、不优化、很难分享以及不可以维护的代码。相反,scipy的程序是优化并且测试过的,因此应该尽可能使用。

警告 这个教程根本不是数值计算的介绍。因为列举scipy的不同子模块和功能将会是非常枯燥的,相反我们将聚焦于列出一些例子,给出如何用scipy进行科学计算的大概思路。

scipy是由针对特定任务的子模块组成的:

向量计算 / Kmeans

物理和数学常量

傅里叶变换

积分程序

数据输入和输出

线性代数程序

n-维图像包

正交距离回归

信号处理

稀疏矩阵

空间数据结构和算法

一些特殊数学函数

他们全都依赖于numpy, 但是大多数是彼此独立的。导入Numpy和Scipy的标准方式:

In [1]:

import numpy as np
from scipy import stats  # 其他的子模块类似

scipy的主要命名空间通常包含的函数其实是numpy(试一下scipy.cos其实是np.cos) 。这些函数的暴露只是因为历史原因;通常没有必要在你的代码中使用import scipy

2021.7.13

columns 列

连接 pandas.concat()

pandas.concat()通常用来连接DataFrame对象。 pandas中concat()的用法

.reset_index(drop=True)

索引 pandas (loc、iloc、ix)

pandas (loc、iloc、ix)的区别 **loc:**通过行标签索引数据 **iloc:**通过行号索引行数据 **ix:**通过行标签或行号索引数据(基于loc和iloc的混合)

删除 pandas.drop(columns=_____)

插入 pandas.insert(1,columns=_____,value=_____)

改名 pandas.rename(字典)

line 行

追加.append

.reset_index(drop=True)

.at

删除行.index

.concat(),.iloc(),.drop(),.insert(),.rename(),.append(),.reset_index(),.at(),.index()

原创 PANDAS 数据合并与重塑(concat篇)

原创 PANDAS 数据合并与重塑(join/merge篇)

原创 pandas笔记 基础/groupby/concat/merge/join

原创 Series 创建、索引、删除、数学运算 归纳总结

数据分析之Pandas(四)DataFrame运算

pandas笔记(7)DataFrame数学运算

三维散点图

Python绘制三维散点图

matplotlib绘制三维散点图

二维散点图(高级)

厉害了,Matplotlib还能这样画散点图!

简单图形绘制

Python Pandas 图形绘制(一):折线图,柱状图

matplotlib绘制直方图、条形图和饼图

68–95–99.7原则

Python求均值,方差,标准差

pandas数据合并之一文弄懂pd.concat()

pandas-DataFrame列移动

Python-pandas的fillna()方法-填充空值

Pandas中把dataframe和np.array的相互转换

将Pandas中的DataFrame转换成Numpy中数组

pandas将字段中的字符类型转化为时间类型,并设置为索引

pandas设置index索引的标签名

高效的5个pandas函数,你都用过吗?

PythonPandas-根据给定的窗口并从某个值开始计算某一列的和。

如何更快计算Dataframe里某一列中,上下两值的差值

pandas应用——滚动计算、筛选、判断空值、列移动、行列删除

python数据处理——同一行或同一列的错位相减法

【python】pandas库常用函数之shift详解

pandas选择单元格,选择行列 🚩

数据可视化—使用matplotlib绘制常用类型图表

matplotlib画3D图形时设置z轴尺寸

np.log 和math.log的底数是什么,默认都是e

已经实现部分代码并开源

LV6-星魔方 (分类) 🎲

Last updated