R语言k-Shape时间序列聚类办法对股票价格时间序列聚类|附代码数据
原文链接 :
比来我们被客户要求撰写关于k-Shape时间序列聚类的研究陈述,包罗一些图形和统计输出。
本文我们将利用k-Shape时间序列聚类办法查抄与我们有营业关系的公司的股票收益率的时间序列
企业对企业交易和股票价格
在本研究中,我们将研究具有交易关系的公司的价格改变率的时间序列的类似性。
因为特定客户的销售额与赐与商公司的销售额之比力大,当客户公司的股票价格发作改变时,对赐与商公司股票价格的反响被认为更大。
k-Shape
k-Shape [Paparrizos和Gravano,2015]是一种存眷时间序列外形的时间序列聚类办法。在我们进进k-Shape之前,让我们谈谈时间序列的稳定性和常用时间序列之间的间隔测度。
时间序列间隔测度
欧几里德间隔(ED)和_动态时间_规整(DTW)凡是用做间隔丈量值,用于时间序列之间的比力。
两个时间序列x =(x1,...,xm)和y =(y1,...,ym)的ED如下。
DTW是ED的扩展,容许部分和非线性对齐。
展开全文
k-Shape提出称为基于外形的间隔(SBD)的间隔。
k-Shape算法
k-Shape聚类偏重于回一化和移位的稳定性。k-Shape有两个次要特征:基于外形的间隔(SBD)和时间序列外形提取。
SBD
互相关是在信号处置范畴中经常利用的度量。利用FFT(+α)取代DFT来进步计算效率。
回一化互相关(系数回一化)NCCc是互相关系列除以单个系列自相关的几何均匀值。检测NCCc更大的位置ω。
SBD取0到2之间的值,两个时间序列越接近0就越类似。
外形提取
通过SBD找到时间序列聚类的量心向量 。
k-Shape的整个算法如下。
k-Shape通过像k-means如许的迭代过程为每个时间序列分配聚类簇。
反复上述步调1和2,曲到集群成员中没有发作更改或迭代次数到达更大值。
R 语言k-Shape
start - "2014-01-01"
df_7974 %%
+ filter(date as.Date(start))
# A tibble: 1,222 x 10
date open high low close volume close_adj change rate_of_change code
1 2014-01-06 14000 14330 13920 14320 1013000 14320 310 0.0221 7974
2 2014-01-07 14200 14380 14060 14310 887900 14310 -10 -0.000698 7974
3 2014-01-08 14380 16050 14380 15850 3030500 15850 1540 0.108 7974
4 2014-01-09 15520 15530 15140 15420 1817400 15420 -430 -0.0271 7974
5 2014-01-10 15310 16150 15230 16080 2124100 16080 660 0.0428 7974
6 2014-01-14 15410 15755 15370 15500 1462200 15500 -580 -0.0361 7974
7 2014-01-15 15750 15880 15265 15360 1186800 15360 -140 -0.00903 7974
8 2014-01-16 15165 15410 14940 15060 1606600 15060 -300 -0.0195 7974
9 2014-01-17 15100 15270 14575 14645 1612600 14645 -415 -0.0276 7974
10 2014-01-20 11945 13800 11935 13745 10731500 13745 -9
缺失度量用前一个工做日的值填补。(K-Shape容许一些误差,但以防万一)
每种股票的股票价格和股票价格改变率。
点击题目查阅往期内容
对用电负荷时间序列数据停止K-medoids聚类建模和GAM回回
摆布滑动查看更多
01
02
03
04
将zscore做为“preproc”,“sbd”做为间隔,以及centroid =“shape”,k-Shape聚类成果如下。
df_res %%
+ arrange(cluster)
cluster centroid_dist code name
1 1 0.1897561 1928 積水ハウス
2 1 0.2196533 6479 ミネベアミツミ
3 1 0.1481051 8411 みずほ
4 2 0.3468301 6658 シライ電子工業
5 2 0.2158674 6804 ホシデン
6 2 0.2372485 7974 任天堂
Nintendo,Hosiden和Siray Electronics Industries被分配到统一个集群。Hosiden在2016年对任天堂的销售比例为50.5%,那表白公司之间的营业关系也会影响股价的变更。
另一方面,MinebeaMitsumi成为另一个集群,但是在2017年Mitsumi与2017年的Minebea合并, 没有应对2016年7月Pokemon Go发布时股价飙升的影响 。
假设您有任何疑问,请鄙人面颁发评论。
本文摘选 《 R语言k-Shape时间序列聚类办法对股票价格时间序列聚类 》 ,点击“阅读原文”获取全文完全材料。
点击题目查阅往期内容
K-means和条理聚类阐发癌细胞系微阵列数据和树状图可视化比力
KMEANS均值聚类和条理聚类:亚洲国度地域生活幸福量量异同可视化阐发和抉择更佳聚类数
PYTHON实现谱聚类算法和改动聚类簇数成果可视化比力
有限混合模子聚类FMM、广义线性回回模子GLM混合利用阐发威士忌市场和研究专利申请数据
R语言多维数据条理聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏看经济目标数据
r语言有限正态混合模子EM算法的分层聚类、分类和密度估量及可视化
Python Monte Carlo K-Means聚类实战研究
R语言k-Shape时间序列聚类办法对股票价格时间序列聚类
R语言对用电负荷时间序列数据停止K-medoids聚类建模和GAM回回
R语言谱聚类、K-MEANS聚类阐发非线性环状数据比力
R语言实现k-means聚类优化的分层抽样(Stratified Sampling)阐发各市镇的生齿
R语言聚类有效性:确定更优聚类数阐发IRIS鸢尾花数据和可视化Python、R对小说停止文本发掘和条理聚类可视化阐发案例
R语言k-means聚类、条理聚类、主成分(PCA)降维及可视化阐发鸢尾花iris数据集
R语言有限混合模子(FMM,finite mixture model)EM算法聚类阐发间歇泉喷发时间
R语言用温度对城市条理聚类、kmean聚类、主成分阐发和Voronoi图可视化
R语言k-Shape时间序列聚类办法对股票价格时间序列聚类
R语言中的SOM(自组织映射神经收集)对NBA球员聚类阐发
R语言复杂收集阐发:聚类(社区检测)和可视化
R语言中的划分聚类模子
基于模子的聚类和R语言中的高斯混合模子
r语言聚类阐发:k-means和条理聚类
SAS用K-Means 聚类更优k值的拔取和阐发
用R语言停止网站评论文本发掘聚类
基于LDA主题模子聚类的商批评论文本发掘
R语言鸢尾花iris数据集的条理聚类阐发
R语言对用电负荷时间序列数据停止K-medoids聚类建模和GAM回回
R语言聚类算法的利用实例