量化投资与机器进修微信公家号,是业内垂曲于量化投资、对冲基金、Fintech、人工智能、大数据等范畴的支流自媒体。公家号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+存眷者,曾荣获AMMA优良品牌力、优良洞察力大奖,持续4年被腾讯云+社区评选为“年度更佳做者”。
做者:Winton Capital Management
媒介
量化投资研究类似于天然科学研究,因为它试图通过对数据的实证阐发来研究市场现象。研究人员凡是利用为科学阐发而开发的手艺来揣测市场走势并构建新的交易战略。
尝试研究与看察研究
关于量化投资来说,停止科学的研究的一个重要方面是尝试研究和看察研究啊之间的区别。尝试能够屡次反复,以生成可比力成果的大数据集。举一个物理学的例子:粒子加速器将量子碰击在一路,以看察由此产生的碎片产生希格斯粒子的频次。假设需要更多的数据来更切确地丈量希格斯粒子产生的可能性,那个过程能够反复,曲抵达到所需的精度程度。那可能会产生数十亿或数万亿个数据点。
将那种尝试办法与一位研究黑洞碰碰产生的引力波的天文学家停止比照。天文学家查抄尽可能多的现实碰碰,并推理出由此产生的波的切确细节。他们没有办法创造出大量可比力的黑洞对,然后让它们运动起来,看看会发作什么。此外,黑洞的相对稀缺性使得抉择的聚集可能不是一个代表性的样本,因而含有误差。在那种看测研究的办法中,天文学家必需承受他们所发现的宇宙,试图纠正他们数据中的误差,并从现有的信息中得出结论。
然而,尝试研究和看察研究并非一个严厉的二分法,而是在持续标准上的两个标的目的。越有可能掌握和反复创建相关数据的过程,就越能进一步走向尝试研究的一端。在另一个标的目的上,数据集变得更小,更随便产生各类形式的误差,信号凡是更难从噪声中区分隔来。
尝试研究和看察研究之间的区别延伸到金融范畴。例如,施行算法能够通过将其利用于其他交易来停止尝试测试。然而,关于股市崩盘的理论只能通过看察来研究,因为独一的数据来自于已经发作的崩盘,并且每次发作的情状区别很大,无法根据需要生成更多的崩盘!
金融范畴的数据集与科学范畴的数据集大小类似,如下图所示。在一个极端情状下,持久根本面投资者往往只需要处置几百个数据点,因为大大都上市公司只是每季度发布财政报表。另一方面,高频交易商处置的价格标识表记标帜为纳秒,得到的数据集大小与粒子物理学中利用的数据集相当。
展开全文
金融数据与科学数据规模的比力
如上图所示,高频和低频交易者可获得的差别数据量决定了他们在尝试看察标准上的位置。那两类交易者投资于统一个市场,但高频交易者利用在较短时间内可获得的大量数据。那使他们可以停止尝试性操做,因为他们有更多的数据来评估他们的设法。更快的交易信号更合适于尝试,因为另一个更现实的原因:它们凡是具有更高的预期夏普比率,那意味着它们能够更快地通过样本外的表示来揣度。
例如,假设一个假定夏普比率为2或更高的信号在几个月后呈现吃亏,那么很可能呈现了问题——或许那种战略已被发作拥挤,并被“套利”出往。然后能够封闭信号,起头一个新的尝试。比拟之下,夏普比率估量为0.5的战略可能会下跌一年以上,但仅仅因为表示而停行交易该战略是不合理的。那是因为多年吃亏与夏普比率的持久预期统计散布是一致的。
因而,尝试研究和看察研究代表了两种差别的量化投资办法。尝试研究包罗密密具有更高夏普比的更快的战略。零丁来看,那些战略的交易才能有限,因为它们相对频繁的交易会产生交易成本。然而,其目标是通过组合许多快速信号来成立一个浩荡的投资组合。
另一套办法是密密容量更大、夏普比率凡是更低的信号。成立一个大型投资组合所需的此类信号较少,前提是它们相互之间的相关性较低。
在科学范畴,尝试研究与看察研究的关系是持续的,而不是二元抉择。我们总结了下表中的一些次要差别,以领会差别的量化投资司理所利用的办法:
虽然Winton在过往几年里在尝试研究方面做了更多的工做,但从汗青上看,我们的办法更多的是看察研究。部门原因源于我们对期货市场趋向跟踪的根源,那是一宗交易信号迟缓、容量大、夏普比率相对较低的典型例子。因而,我们的大部门研究都是为了找到其他不相关的信号与动量相连系。我们存眷的是最合适那种办法的统计东西和阐发办法。
机器进修的利用
比来几乎每个范畴可用数据量的敏捷增加为揣测性建模创造了新的可能性。例如,传统的股票阐发师可能会阅读他们所存眷的公司的每一分陈述,而且在做收益揣测时可能已经晓得某一特定公司的每一个相关事实或数据。目前用于盈利揣测的数据可能包罗卫星地图、信誉卡消费信息、每辆卡车上每种产物的物流细节,以及更多其它信息。关于一小我或一群人来说,像过往那样密切存眷那种大量增加的数据是不实在际的。从识别图片内容到在零售商网站上供给有针对性的选举,那些办法获得了特殊的胜利。但是它们有一个关键的要求:大量的输进数据。
因而,机器进修适用于更快的交易战略: 短期价格信息的数量产生大量的数据。关于较慢的交易系统,小的、有噪音的数据集中相对有限的信息内容不适协做为机器进修模子的输进。在那种情状下,更有益的做法是从数据中得出可靠的结论,并集中重视可阐明性和简单性,而不是摘用没必要要的复杂算法。
虽然如斯,在 Winton,我们还发现机器进修办法关于较慢的交易战略是有用的。那是因为我们的数据需求凡是很重要,特殊是当我们想要施行一个很长的回测时。好比,我们有一个通过火析公司季度陈述文本的交易战略。要对美国更大的1000家公司停止为期40年的回测,我们需要阐发16万分陈述。然后那项使命不是一群人能完成的。相反,机器进修办法是适宜的。
抉择误差的危害
Winton的研究在很大水平上是基于假设的。研究人员将从一个相关的现象起头,提出假设,然后搜刮数据来查验那个设法能否准确。假设最末从那个假设中构成一宗交易信号,目标是与现有战略相关性较低,成交量较低,夏普比率固然较低但必需为正值,可能在0.3至0.5之间。
那些目标听起来可能有些守旧。然而,假设只找到16个不相关的信号,每个信号的夏普比率为0.5,那么投资组合的夏普比率就会为2,并且容量十分大!
然而,那在理论中很难实现。虽然在夏普比率较低的情状下对交易信号停止回测很随便,但要确保夏普比率在将来连结正值则极其困难。统计估量误差是一个问题。一个更有害的问题是抉择误差。
要理解抉择误差是若何运做的,想象一下随机发出100个交易信号,那些随机的信号没有洞察力或揣测市场走势的才能。虽然如斯,它们在回刺中的表示不会恒定为零,而是会构成一个散布,一些信号的夏普比率似乎会到达0.3或更高。假设我们只抉择那些汗青表示优良的投资组合,而放弃其他投资组合,我们就创建了一个有吸引力的回测投资组合。
现实中,研究人员测试了良多设法,虽然它们不是随机产生的,但我们不克不及提早晓得它们能否有效。即便那些设法均匀来说是好的,更好的样本外侧也会部门回功于那个设法的胜利,部门回功于命运,因而实正的夏普比率可能被高估了。
此外,在许多机构中,抉择成见产生于挑选的信号与更好的回测,那种设法根深蒂固。员工只想向他们的司理展现他们更好的成果。当某些工具不太好用时,很随便把它丢弃,然后转向一个看起来更有前途的设法,或者调整模子的参数,曲到它看起来确实起感化。即便研究人员意识到那种情状正在发作,他们也经常想出后续的阐明来阐明为什么最后的设法会失败,从而把它肃清在他们测验考试过的信号的清单之外。
2005年颁发的一篇题为“Why Most Published Research Findings Are False” 的创始性论文普遍鼓吹了学术界抉择成见的影响,因为学术界的抉择往往是在颁发论文的时候停止的。期刊更有可能颁发陈述严重成果的论文,而不是那些没有颁发的论文。那招致了所谓的“复造危机”,研究人员无法复造早期工做的成果。
投资治理中的一个类似之处是回测和实盘功绩之间的差距。我们先前已经表白,趋向跟踪产物在推出后表示不如回测的情状。一项从各类来源搜集数据的阐发展现,那个问题呈现在整个投资范畴。
投资战略施行前后的绩效研究
减轻抉择误差
如上所述,抉择误差的问题其实不地道是手艺性的。即便所有研究人员的工做都到达了榜样原则,那种情状也可能呈现。问题在于组织研究的框架。比来的一篇文章在机器进修在量化金融中的利用的布景下讨论了在组织层面处理那个问题的需要性。
Winton减轻抉择误差的关键构造是“设法(或假设)注销造”的思惟。那是从临床试验的设法中获得的灵感,该注销册有助于削减医学研究中抉择误差的影响。在Winton,提出的新信号被切确地笔录在注销册中,然后整个研究部分都能够看到。那让其他研究人员有时机在早期阶段对那一设法停止同业评审。重要的是,它还容许我们跟踪我们测试的设法的数量。那一过程的协做性和开放性也有助于削减单个研究人员只分享有效信号的压力。
正如在临床试验的情状下,注销册中包罗若何测试的设法确实切细节:利用什么数据,什么时间段将被用于差别的阐发部门,利用什么统计测试,等等。
重要的是,一笔交易信号设法的任何细微变更的测试都将被笔录。正如我们所看到的,假设有太多的设法被测试,那么就有更高的概率呈现一个虚假的胜利。假设我们测试一个设法的更多改变,那么我们需要一个更高的显著性阈值,那意味着我们至少需要晓得我们正在测试几个设法。
一旦那一过程完成,那一设法将在市场数据上得到查验。其成果是一个愈加强健的研究框架。假设我们没有跟踪的相关的设法正在测试的数量,没有施行需要的统计批改,我们能够回绝交易战略。并且我们可以对我们的信号可能的样本外性能做出更准确的评估。
结论
量化研究体例是多种多样的。一端能够普遍地描述为更接近交易,凡是涉及更高的频次战略; 一个更具尝试性的办法来实现新系统; 一个更高的夏普比率和更低的规模承载才能; 对大型(凡是是日内)数据集的需求,以及随之而来的对机器进修的兴致。另一端更接近投资,凡是较慢的系统交易成本较低; 办法一定更具看察性;子战术夏普比率较低,但可以治理更多的本钱;以及处置少量数据和在嘈杂的数据集中发现微弱信号的微妙之处的需要评估。
研究那些战略的过程中,成立对低夏普比率战略的自信心是困难的。那种困难既有组织上的,也有手艺上的,需要一种重要的自上而下的办法,类似于许多政府如今要求医学试验注册的体例。例如,在 Winton,我们的研究人员自2012年以来测试的每一个假设都被预先注销。我们还在研究办法长进行了多年的尝试,以测试其有效性,并获得了胜利。
在狂热的炒做中,大数据和机器进修确实为逃求较慢交易战略的投资司理供给了时机。但是,研究人员更经常面对的问题是从相对较少的数据揣度。在那种情状下,利用所讨论的手艺来提取可靠的信息是至关重要的。