技术标签: matlab
转载:http://www.cnblogs.com/emanlee/archive/2011/06/29/2093732.html
1、描述性统计分析
描述性统计分析函数标准用法都是对列状数据进行操作。
mean(X):当X为向量,返回向量的均值;当X为矩阵,返回矩阵的每列元素均值构成的行向量。
min,max,sort,mean,median,std,var,sum,prod,cumsum,sumprod等函数用法与mean类似。
cov(X,Y):这里X,Y为向量,分别代表一个样本,求得样本的协方差。
cov(X):这里X为矩阵,将各列看成一个样本,求得样本协方差矩阵。corrcoef用法与cov类似,求得相关系数。
[Y,I]=sort(X):当X为向量,Y返回X的升序排列,I返回Y各元素原来的编址,即Y=X(I);当X为矩阵,分别对各列排序。
Y=prctile(X,p):当X为向量,Y返回X的p%上分位数;当X为矩阵,分别求各列的上分位数。
trimmean(X,p):剔除上下各(p/2)%数据以后的均值。
例如:
>> data=[11 57 291; 13 54 278;10 66 253; 9 46 307; 16 75 244;15 70 256; 8 40 310]
data =
11 57 291
13 54 278
10 66 253
9 46 307
16 75 244
15 70 256
8 40 310
>> % 注意mean和median的区别
>> mean(data),median(data)
ans =
11.7143 58.2857 277.0000
ans =
11 57 278
>> % 注意var是std的平方
>> std(data),sqrt(var(data))
ans =
3.0394 12.7895 26.7457
ans =
3.0394 12.7895 26.7457
>> % 注意sum与cumsum不同
>> sum(data),cumsum(data)
ans =
82 408 1939
ans =
11 57 291
24 111 569
34 177 822
43 223 1129
59 298 1373
74 368 1629
82 408 1939
>> % 将三列看成三个随机变量
>> corrcoef(data)
ans =
1.0000 0.8299 -0.7832
0.8299 1.0000 -0.9633
-0.7832 -0.9633 1.0000
>> % 排序
>> [Y,I]=sort(data)
Y =
8 40 244
9 46 253
10 54 256
11 57 278
13 66 291
15 70 307
16 75 310
I =
7 7 5
4 4 3
3 2 6
1 1 2
2 3 1
6 6 4
5 5 7
>> % prctilr(data,50)等于median(data)
>> prctile(data,[25,50,100])
ans =
9.2500 48.0000 253.7500
11.0000 57.0000 278.0000
16.0000 75.0000 310.0000
>> % 注意与mean的区别
>> trimmean(data,20)
ans =
11.6000 58.6000 277.0000
2、统计图
bar(Y):作向量Y的条形图。
bar(X,Y):作向量Y相对于X的条形图。
hist(X,k):将向量X中数据等距分为k组,并作频数直方图。k默认为10.
[N,X]=hist(Y,k): 不做图,N返回各组数据频数,X返回各组的中心位置。
boxplot(Y):作向量Y的箱型图。
例子:
>> vdata=rand(1,100); %100个标准正态分布随机数
>> % 由于是随机数,所以每次结果都不相同
>> subplot(1,3,1);
>> % 作出5组频数直方图,如图(a)所示
>> hist(vdata,5);
>> xlabel('(a)');
>> [n,x]=hist(vdata,5)
n =
26 18 21 17 18
x =
0.1038 0.3021 0.5004 0.6987 0.8970
>> % 5组频率直方图,如图(b)所示
>> subplot(1,3,2);
>> bar(x,n/100)
>> xlabel('(b)')
>> % 箱型图,如图(c)
>> subplot(1,3,3);
>> boxplot(vdata);
>> xlabel('(c)')
箱型图的箱中包含了从75%上分位数到25%上分位数的数据,中间线为中位线。
3、随机数生成
R=rand(m,n):生成区间(0,1)上均匀分布的m行n列随机矩阵。
R=randn(m,n):生成标准正态分布N(0,1)的m行n列随机矩阵。
P=randperm(N): 生成1,2,…,N的一个随机排列。
实际上,计算机生成的是伪随机数,其生成机制由随机种子控制。rand和randn是最基本的随机数产生函数,他们允许用户自己设置随机种子。若将随机种子设为特定值,就可以是随机模拟称为可再现的。例如:
>> rand('state',1)
>> randperm(5)
总是产生42513。另一方面,若将种子设置为系统时间
>> rand('state',sum(1000*clock))
则几乎可以得到真正的随机实验。
4、随机变量模拟
R=random(sist,p1,p2,…,m,n): 生成以p1,p2,…为参数的m行n列dist类分布随机数矩阵。dist是表示分布类型字符串。
R=unidrnd(N,m,n):生成1,2,…,N的等概率m行n列随机矩阵。
R=binornd(k,p,m,n):生成参数为k,p的m行n列二项分布随机数矩阵。
R=unifrnd(a,b,m,n):生成[a,b]区间上的连续型均匀分布m行n列随机数矩阵。
R=normrnd(mu,sigma,m,n):生成均值为μ,均方差为σ的m行n列正态分布随机数矩阵。
R=mvnrnd(mu,sigma,m):生成n维正态分布数据这里μ为n维均值向量,σ为n阶协方差矩阵(它必须是正定的),R为m*n矩阵,每行代表一个随机数。
注:通用随机数生成函数random可适用的分布类型包括:’discrete uniform’(离散均匀分布),’binpmial’(二项分布),’normal’(正态分布),’poisson’(Poisson分布),’chi-square’(χ²分布),’t’(t分布),’f’(F 分布),’geometric’(几何分布),’hypergeometric’(超几何分布),’exponential’(指数分布),’gamma’(Γ分布),’weibull’(Weibull分布)等。
5、概率函数
y=pdf(dist,x,p1,p2,…):返回以p1,p2,…为参数的m行n列dist分布概率函数(分布率或密度函数)在x处的值。dist是表示分布类型的字符串,可适用的分布类型类似于random。
y=cdf(dist,x,p1,p2,…):返回以p1,p2,…为参数的m行n列dist类分布累计概率函数(即分布函数)在x处的值。dist是表示分布类型的字符串,可适用的分布类型类似于random。
y=icdf(dist,x,p1,p2,…):返回以p1,p2,…为参数的m行n列dist类分布函数(即下分位数)在x处的值,介于0~1。dist是表示分布类型的字符串,可适用的分布类型类似于random。
y=normpdf(x,mu,sigma):返回参数为μ和σ的正态分布密度函数在x处的值。
p=normcdf(x,mu,sigma):正态分布函数值。
x=norminv(p,mu,sigma):normedf的逆函数,即p下分位。
例如:
>> a=normpdf(90,80,10)-normpdf(70,80,10)
a =
0
>> b=normcdf(90,80,10)-normcdf(70,80,10)
b =
0.6827
>> p=(1-b)/2;
>> c=norminv(p,80,10)
c =
70
>> d=norminv(1-p,80,10)
d =
90
>> pdf('normal',90,80,10)
ans =
0.0242
>> p=cdf('normal',90,80,10)
p =
0.8413
>> icdf('normal',p,80,10)
ans =
90
>> icdf('t',0.95,20) % 自由度为20的t分布95%下分位数
ans =
1.7247
6、统计推断
[muhat,sigmahat,muci,sigmaci]=normfit(x,alpha):正态总体N(μ,σ²)参数估计。求得列状样本数据x的点估计μ=muhat和σ=sigmahat,以及相应的100(1-α)%置信区间muci和sigmaci。α的默认值为0.05。
[h,sig]=ttest(x,m,alpha,tail):正态总体N均值t检验。检验列状样本数据x的均值是否为m;α为显著性水平(默认值0.05);参数tail为0表示双边检验(H1:μ≠μ0)(默认值),1表示右边检验(H1:μ>μ0),-1表示左边检验(H1:μ<μ0);h返回1表示拒绝H0,返回0表示接受H0;sig返回临界值拒绝概率,sig<α时,h=1。
[p,h]=ranksum(x,y):两个总体一致性的Wilcoxon秩和检验。p返回列状样本数据x和y分布相同的显著性概率。p<0.05时,h=1(拒绝H0)。
例如:
>> x=randn(200,1);
>> [a,b,aci,bci]=normfit(x)
a =
0.0252
b =
1.0883
aci =
-0.1265
0.1769
bci =
0.9911
1.2068
>> [h,sig]=ttest(x,0) % 检验均值是否为0
h =
0
sig =
0.7436
>> y=normrnd(0,1,1000,1); % 生成1000个正态N(0,1)随机数
>> [p,h]=ranksum(x,y) %检验x与y分布是否相同
p =
0.6298
h =
0
7、概率和统计相关指令
主题词 | 意义 | 主题词 | 意义 |
---|---|---|---|
max | 最大值 | random | 随机数 |
min | 最小值 | unidrnd | 离散均匀分布随机数 |
sum | 各元素和 | unifrnd | 均匀分布随机数 |
cumsum | 元素累计和 | normrnd | 正态分布随机数 |
prod | 各元素积 | binornd | 二项分布随机数 |
cumprod | 元素累计积 | poissrnd | 泊松分布随机数 |
mean | 样本均值 | mvnrnd | 多维正态分布随机数 |
std | 样本标准差 | 概率密度函数 | |
var | 样本方差 | normpdf | 正态分布概率密度函数 |
cov | 样本协方差 | cdf | 累计分布函数 |
corrcoef | 样本相关系数 | normcdf | 正态分布累计分布函数 |
sort | 排序(从小到大) | icdf | 逆分布函数 |
median | 中值 | norminv | 正态分布下分位数 |
prctile | 百分位数 | tinv | t分布下分位数 |
trimmean | 剔除极端数据的均值 | chi2inv | χ²分布下分位数 |
bar | 条形图 | finv | F分布下分位数 |
hist | 数据分组距频数图 | mle | 参数估计 |
boxplot | 箱型图 | normfit | 正态分布参数估计 |
rand | [0,1]均匀分布随机数 | ttest | 单总体t检验 |
randn | 标准正态分布随机数 | ttest2 | 双总体t检验 |
randperm | 随机排列 | ranksum | 分布秩和检验 |
文章浏览阅读979次。蓝凌智慧协同平台eis集合了非常丰富的模块,满足组织企业在知识、协同、项目管理系统建设等需求。_蓝凌eis智慧协同平台文件上传漏洞
文章浏览阅读193次。与InstructBLIP或Qwen-VL在数亿甚至数十几亿的图像文本配对数据上训练的、专门设计的视觉重新采样器相比,LLaVA用的是最简单的LMM架构设计,只需要在600K个图像-文本对上,训练一个简单的完全连接映射层即可。结果表明,LLaVA-1.5不仅可以使用更少的预训练和指令微调数据,而且还可以利用最简单的架构、学术计算和公共数据集来实现最佳的性能——在12个基准中的11个上取得了SOTA。为了解决这个问题,研究人员建议在VQA问题的末尾,添加一个可以明确输出格式的提示,进而让模型生成简短回答。
文章浏览阅读442次。2013-08-17 21:04 by 潇湘隐者, 100246 阅读, 5 评论, 收藏, 编辑 ORACLE基本数据类型(亦叫内置数据类型 built-in datatypes)可以按类型分为:字符串类型、数字类型、日期类型、LOB类型、LONG RAW& RAW类型、ROWID & UROWID类型。在讲叙字符串类型前,先要讲一下编码。字符串类型的数据可依编码方式分成_oracle 数值类型最大值
文章浏览阅读315次。作为数据科学家的实践者,我们必须了解一些通用机器学习的基础知识算法,这将帮助我们解决所遇到的新领域问题。本文对通用机器学习算法进行了简要的阐述,并列举了它们的相关资源,从而帮助你能够快速掌握其中的奥妙。▌1.主成分分析(PCA)/ SVDPCA是一种无监督的方法,用于对由向量组成的数据集的全局属性进行理解。本文分析了数据点的协方差矩阵,以了解哪些维度(大部分情况)/数据点(少数情况)更为重要,即它..._决策树和mlp
文章浏览阅读148次。在这个示例中,我们使用std::shared_ptr来管理Implementor对象的生命周期,确保在不再需要时自动释放资源。通过智能指针的使用,我们避免了手动管理内存的复杂性,提高了代码的可靠性和可维护性。希望这个示例能帮助你理解如何使用智能指针来实现桥接模式。当使用智能指针来实现桥接模式时,我们可以利用std::shared_ptr或std::unique_ptr来管理对象的生命周期,确保资源的正确释放。
文章浏览阅读440次,点赞11次,收藏8次。云盒子在制造业上有丰富的部署经验,在面向制造类企业的重要文件,可以通过审计、授权、文件加密进行多重保护,使得图纸文件、专利技术、采购订单等敏感数据等到有效保护,做到无处可泄,同时安全可靠,也不会对日常工作效率有影响 ,实现真正有效的企业文件保护的目的,达到既防止机密文件外泄和扩散,又支持内部知识积累和文件共享的目的。云盒子的加密方式是通过将本地文件数据上传到云盘进行统一加密存储,而不是对设备加密,通过【本地加密】+【云加密】双重组合下,不管用什么设备打开文件都受到管控,使管理者管理起来能够更高效。
文章浏览阅读188次。在处理计算几何的问题中,有时候我们会将其看成图论中的graph图,结合我们在图论中学习过的欧拉定理,我们可以通过图形的节点数(v)和边数(e)得到不是那么好求的面数f。 平面图中的欧拉定理: 定理:设G为任意的连通的平面图,则v-e+f=2,v是G的顶点数,e是G的边数,f是G的面数。证明:其实有点类似几何学中的欧拉公式的证明方法,这里采用归纳证明的方法。对m..._怎么证明平面图欧拉定理
文章浏览阅读750次。C语言中各种类型指针的特性与用法介绍本文主要介绍了C语言中各种类型指针的特性与用法,有需要的朋友可以参考一下!想了解更多相关信息请持续关注我们应届毕业生考试网!指针为什么要区分类型:在同一种编译器环境下,一个指针变量所占用的内存空间是固定的。比如,在16位编译器环境 下,任何一个指针变量都只占用8个字节,并不会随所指向变量的类型而改变。虽然所有的指针都只占8个字节,但不同类型的变量却占不同的字节数..._c语言带括号指针
文章浏览阅读9.5k次。字库交流 QQ:2229691219 缅甸语比较特殊、缅甸语有官方和民间之分,二者不同的是编码机制不同,因此这2种缅甸语的字串翻译、处理引擎、字库都是不同的。我们这里只讨论官方语言。 缅文、泰文等婆罗米系文字大多是元音附标文字,一般辅音字母自带默认元音可以发音,真正拼写词句时元音像标点符号一样附标在辅音上下左右的相应位置。由于每个元音位于辅音的具体位置是有自己的规则的,当只书写..._0x103c
文章浏览阅读200次。在校园,随着学生数量的增多,存在许多生活和学习物品,许多学习用品经过一学期学习之后往往被闲置,一些出于一时喜欢而购买的物品使用机会少而被闲置,还有一些物品以低廉的价格卖给资源回收站,造成巨大的资源浪费。校园闲置物品拍卖系统使用python技术,MySQL数据库进行开发,系统后台使用django框架进行开发,具有低耦合、高内聚的特点,其中校园用户通过人脸识别的方法增加系统安全性,在闲置物品推荐中,使用协同过滤算法进行商品推荐。系统的开发,帮助高校有效的对闲置物品进行管理,提高了闲置物品销售的效率。_基于python+django+vue实现的校园二手交易平台
文章浏览阅读1.1k次,点赞3次,收藏3次。文章目录Wide & Deep Learning for Recommender Systems一、摘要二、介绍三、推荐系统综述四、Wide&Deep学习4.1 Wide部分4.2 Deep部分4.3 联合训练 Wide&Deep ModelPreferenceWide & Deep Learning for Recommender Systems一、摘要具有非线性特征转化能力的广义线性模型被广泛用于大规模的分类和回归问题,对于那些输入数据是极度稀疏的情况下。通过使用交_引用《wide & deep learning for recommender systems》
文章浏览阅读171次。关于代码的可重入性,设计开发人员一般只考虑到线程安全,异步信号处理函数的安全却往往被忽略。本文首先介绍如何编写安全的异步信号处理函数;然后举例说明在多线程应用中如何构建模型让异步信号在指定的线程中以同步的方式处理。Linux 多线程应用中编写安全的信号处理函数在开发多线程应用时,开发人员一般都会考虑线程安全,会使用 pthread_mutex 去保护全局变量。如果应用中使用了信号,而且信号的产生不..._linux c++ sleep 不被中断