重点是代码开源! 这套LLM智能体选出的战略累计收益超50% 全市场都上涨了
1. 背景
在量化买卖畛域,Alpha因子开掘是外围焦点之一:探求和提炼那些能够预测资产收益的预测信号。
尤金·法玛提出了有效市场假说(Efficient Market Hypothesis,EMH),指出股票多少钱是一切市场可用消息的反映,股票多少钱应当片面反映市场内一切可失掉的消息。
随着钻研的深化, Alpha 开掘环节存在三大关键应战:
-(1)传统方法的僵化性:金融畛域中识别 Alpha 因子的传统方法往往依赖于启示式规定和金融专业常识。这些基于规定的方法理论仅在特定市场条件下体现出色,不足顺应不同市场灵活的灵敏性。
-(2)数据的多样性与整合:近期钻研探求了运用机器学习技术从诸如经济资讯、社交媒体趋向和历史多少钱走势等多样数据源中开掘 Alpha 因子。
-(3)对市场变动的顺应性:市场灵活变幻莫测,在一种环境中体现良好的战略在另一种环境中或者失效。
近年来,运用深度学习方法来预测市场并构成战略逐渐成为干流。在不同市场条件下有效地开掘和应用 Alpha 因子仍是一项严重议题。
为处置这一疑问,作者提出了一个新框架,借助大型言语模型(LLMs)的才干来启动 Alpha 开掘和战略优化。
2. 成功思绪
作者提出的新框架,目前曾经作为开源代码颁布在:
如上图所示,新框架由三个外围组件构成:
• 种子阿尔法工厂 (Seed Alphas Factory):应用大型言语模型(LLMs)来过滤和分类多模态数据,从而构建出弱小的种子Alpha汇合。
• 多智能体决策流程 (Multi-Agent Decision-Making Process):运用多模态多智能体决策流程。多智能体模式能够归入不同的危险观念,增强战略在不同市场条件下的顺应性和持重性。此阶段发生的成绩是生成适宜市场形态微危险偏好的Alpha因子列表。
• 权重优化模式 (Weight Optimization Approach):经过深度神经网络(DNN)优化所选阿尔法的权重以预测未来收益,为灵活且顺应性强的投资战略奠定基础。
2.1 种子阿尔法工厂:LLM 过滤与分类
应用大型言语模型(LLMs)的总结和分类才干,减速对近期阿尔法开掘钻研的了解,并为进一步开展构种子阿尔法工厂。
经常使用了名为“Alpha Grail”的 ChatGPT 定制版原本口头 LLM 过滤和分类义务。Alpha Grail 的关键作用是经过处置与阿尔法相关的钻研文档,协助量化钻研人员构建种子阿尔法工厂。
给 Alpha Grail 的详细指令是:
总结文档消息,协助量化钻研人员依照传统金融类别构建种子阿尔法工厂,确保每个类别的种子阿尔法相互独立。
作者提供了 11 份 阿尔法开掘 钻研不同背景的文档,详细文档如上图。经过这些文档,Alpha Grail 生成了9个列别 100 个种子 Alpha 因子(如下图),如动量、均值回归、动摇率和基本面剖析。
LLM 过滤与分类阶段也融合了多模态处置才干。经过归入钻研文档中的文本、图像、表格和图形等多模态数据源,LLM 能够对种子阿尔法启动更片面的剖析和分类。多模态方法增强了 LLM 捕捉钻研中复杂细节和相关的才干,无利于生成更弱小和多样化的种子Alpha因子库。
2.2 多模态和多智能体评价Alpha因子集
经过多模态和多智能体系统对阿尔法因子启动片面评价和挑选。经过整合不同的数据源并应用多个剖析视角,确保对种子阿尔法启动多元化和深化的评价。
经常使用了蕴含文本、数字、视觉和多媒体输入的多模态数据,使得整个评价环节更为丰盛和片面。经过整合这些不同的数据类型,能够片面了解市场状况和阿尔法因子的体现。
上表列出了评价框架中经常使用的五种数据类型。这种全体性方法有助于对市场灵活启动粗疏的了解,并增强评价环节的持重性。
多智能体系统由各种智能体组成,每个智能体都具有不同的危险偏好和投资战略。
智能体关键义务包括:
• 剖析多模态数据,并依据各自的规范评价种子阿尔法。
• 启动危险偏好剖析,依据其预约义的危险参数评价种子阿尔法。
• 选用合乎其危险偏好和市场剖析的阿尔法因子,确保在不同市场情景下的相关性和持重性。
为了提高所选阿尔法因子的牢靠性,实施了置信度评分机制。每个智能体依据其剖析和历史体现为阿尔法因子分性能信度分数,反映智能体对阿尔法因子预测才干和持重性的评价。
所选的阿尔法因子运用历史市场数据启动严厉的回测,以评价它们在各种市场条件下的体现。关于确定最终战略中最具后劲的阿尔法因子至关关键。
关键评价目的包括消息系数(IC)和夏普比率等性能目的。每个类别的种子阿尔法因子必定到达特定的置信度分数阈值才干被归入最终选用,以确保只选取最牢靠和持重的阿尔法因子。
为了成功选用环节的智能化,设计了基于类别的阿尔法选用算法。该算法依据置信度分数从不同类别中识别和挑选阿尔法。输入包括多个类别,每个类别蕴含一组阿尔法和一个置信度阈值。算法从一个空的选定阿尔法汇合开局,并遍历每个类别,经常使用 SelectBestAlphas 函数确定最有前景的候选者。评价每个阿尔法的置信度分数,超越阈值的被归入最终汇合。
这个环节对一切类别重复启动,确保从一切类别中严厉挑选出合乎置信度规范的阿尔法。最终输入是一组成功经过置信度评价的选定阿尔法。
2.3 最优权重阿尔法战略
为优化所选种子阿尔法的权重,运用深度神经网络(DNN)将阿尔法值拟合至未来收益。
网络架构蕴含三层:输入层、暗藏层和输入层。
• 输入层将从历史收盘价得出的每日阿尔法计算作为输入特色。
• 暗藏层装备了十个节点,驳回 ReLU 激活函数引入非线性并增强模型的学习才干。
• 输入层由单个节点构成,用于预测未来收益。
为确保模型的泛化才干并防止过拟合,经常使用了独自的验证集。
构建了一个基于历史阿尔法值预测未来收益的弱小框架,从而构成有效的投资战略。DNN 模型经过暗藏层处置输入数据,应用学习到的权重和偏向启动转换。最终输入经过在输入层运行另一组权重、偏向和激活函数生成。
3. 效果评价
RQ1:该框架能否依据市场条件差异捕捉新的阿尔法?
作者提出了一种揭示架构(如上图),将多模态市场消息融入大型言语模型(LLM),以达成多模态常识提取,并在不同的市场条件下选取最优的种子阿尔法。
经过整合来自金融资讯心情的文本数据、公司财务报表的数值数据和买卖图表的视觉数据,新框架提供了片面的股票剖析。这种数据融合确保了片面的市场观念,增强了决策才干。上下文剖析依照市场趋向和行业体现调整参数,确保相关且准确的阿尔法选用。试验证明了该框架在不同市场条件下启动多模态常识提取和灵活阿尔法选用的有效性。
如上图,在案例 1 中,运用 2021 年 12 月 31 日至 2022 年 9 月 30 日的上证 50 公司通告、财务报表、K 线图和买卖图表,所选的阿尔法蕴含动量和基于成交量的目的,如多少钱动量、相对强弱目的(RSI)、平滑异同移动平均线(MACD)、移动平均线、布林带、成交量、市值和每股收益调整。
在案例 2 中,着重于增量降级的上证 50 、股票评论和中国微观经济指数,所选的阿尔法强调了动摇性和经济起因,包括平均实在动摇幅度(ATR)、布林带比率、带提前的基于成交量的目的、毛利润和营业支出比率以及高下多少钱比拟。
标明经过整合不同的数据源并驳回先进的剖析模型捕捉新的投资时机。这种灵活模式确保所选的阿尔法与市场条件相关并做出照应,增强了投资战略的持重性和有效性。
RQ2:由LLM驱动的Alpha因子开掘框架能否优于现有框架?
在评价所选种子阿尔法信号的性能时,关键目的是消息系数(IC,Information Coefficient)。这些目的可以用来权衡阿尔法值对未来报答的预测才干。
消息系数(IC)权衡预测的Alpha值与实践未来报答之间的相关性。经过皮尔逊相相关数启动量化,该系数评价两个变量之间的线性相关。较高的 IC 标明更强的预测相关,象征着阿尔法值在预测报答方面更有效。
评价了四个最经常出现的阿尔法类别:动量、均值回归、动摇性、基本面和增长。
上图展现了每个类别的平均 IC 值。结果标明,由大言语模型驱动的框架在一切类别中一直取得了更高的平均 IC 值,特意是在动摇性和基本面方面,标明与传统框架相比具有更出色的买卖有效性。
RQ3:新框架选出的战略能否继续跑赢市场?
上表展现由新框架生成的 12 个阿尔法的示例组合,在上证 50 成分股启动评价。
权重组合 IC 值颇高,为-0.0587。虽然局部种子阿尔法独自的 IC 值相对较低,但将其移除会以至从新训练的组合权重清楚降落,标明它们在全体性能中起着关键作用。
例如,假设移除阿尔法#6,权重组合将降至-0.055;一旦移除阿尔法#11,权重组合将仅为 0.0491。标明由大型言语模型选取的种子阿尔法集有效地协同运作,提供了弱小的预测才干。
依据股票的阿尔法值启动排序,挑选体现最优的股票启动投资。在选定的股票中平均调配资金,为降落买卖老本,每天的买卖数量限度在5只以内。
在试验中,设定每日选股下限为13只,买卖下限为5只。测试时期各战略净值的变动如上图所示。虽然并未专门谋求相对收益的最大化,但在回测中却展现出了出色的体现,相较于其余方法,成功了最高的盈利。
2023年的回测结果显示,累计报答率到达了53.17%,与此同时,指数上涨了11.73%,EFund上涨了9.17%,Boshi Fund上涨了8.81%。还将新框架与其余阿尔法开掘方法启动了对比,结果标明,新框架在市场中能够取得最大的利润。
本文转载自,作者: