
Written by 研究員23/05/2024
Ai資訊 Article

本文研究了大语言模型(LLM)是否可以像专业人类分析师一样成功地进行财务报表分析。由芝加哥大学布斯商学院研究。
通过向GPT-4提供了标准化和匿名的财务报表,并指示模型分析这些报表以确定未来收益的方向。即使没有任何叙述或行业特定的信息,LLM在预测收益变化方面的表现也优于金融分析师。
在分析师通常会遇到困难的情况下,LLM表现出相对优势。此外,研究发现LLM的预测准确性与一种经过狭义训练的最先进的机器学习模型的性能相当。LLM的预测并非来自其训练记忆,而是通过生成有用的叙述性见解来预测公司的未来表现。
- 预测准确性:在仅提供数字数据的情况下,GPT-4的预测准确性与专业财务分析师和最先进的机器学习模型相当,甚至在某些情况下更高。
- 简单提示:GPT-4的预测准确性为52%,与分析师的53%相当。
- 链式思维提示:GPT-4的预测准确性提高到60%,显著优于分析师的53%。
- 增量信息价值:GPT-4在分析师可能存在偏差或预测不准确的情况下表现尤为出色,表明其预测能提供增量信息。
- 与专用机器学习模型的比较:GPT-4的表现与使用59个预测变量训练的人工神经网络(ANN)模型相当,均达到约60%的预测准确性。
详细研究方法
1、数据标准化和匿名化
- 财务报表标准化:
- 从Compustat数据库中提取所有公司的年度财务数据,覆盖1968年至2021年。
- 按照Capital IQ的平衡模型格式重建资产负债表和损益表,确保所有公司年度的财务报表格式一致。
- 提供两年的资产负债表数据和三年的损益表数据。
- 数据匿名化:
- 去除财务报表中的公司名称和日期信息,用t和t-1等标签代替年份。
- 确保财务报表数据在格式和结构上的一致性,以防止模型根据格式或特定项目名称推断出公司身份。
2、模型训练与预测
- 提示设计:
- 简单提示:仅指示GPT-4分析提供的资产负债表和损益表,并预测未来收益的方向(增加或减少)。
- 链式思维提示(Chain-of-Thought, CoT):通过一系列指令引导模型模拟财务分析师的思维过程,分步骤进行财务报表分析。
- 步骤1:识别财务报表中显著变化的项目。
- 步骤2:计算关键财务比率(如运营效率、流动性和杠杆比率)。
- 步骤3:提供这些比率的经济解释。
- 步骤4:基于定量信息和分析得出的见解,预测未来收益的方向,并提供预测理由。
- 数据集划分:
- 使用Compustat的全部数据集(1968-2021)进行模型训练和测试。
- 设定数据过滤条件,如总资产大于100万美元、每股股价大于1美元、财报期末为12月31日等。
- 保留150,678个公司年度观察,涵盖15,401家不同公司。
- 分析师预测数据:
- 从IBES数据库中提取1983年至2021年的分析师预测数据。
- 生成每个月的共识预测(中位值),要求每个公司年度至少有三个分析师预测。
- 模型参数设置:
- 使用gpt-4-0125-preview模型,温度参数设为0,以确保模型响应的一致性。
- 设置top-p参数为1,并启用logprobs选项以获取token级别的概率值。
性能评估
- 基准模型:
- Naive Model:假设收益变化方向与前一年相同。
- 分析师预测:使用分析师在财报发布后一个月内的共识预测作为比较基准。
- 评价指标:
- 准确率(Accuracy):正确预测的比例。
- F1分数:精确率和召回率的调和平均数。
3、实验设计:
- 模型输入:
- 向GPT-4提供标准化和匿名的财务报表数据。
- 确保模型没有获取任何叙述性或行业特定的信息,仅基于财务数据进行分析。
- 模型指令:
- 为GPT-4提供具体指令,要求其分析财务报表并预测未来收益的方向。
- 设定明确的目标,如预测下一季度或下一年度的收益变化。
- 预测方法:
- 简单提示:分析财务报表并预测未来收益方向。
- 链式思维提示:按照步骤分析财务报表,计算比率,提供经济解释,预测收益方向。
- 与分析师预测的比较:
- 选取一组专业金融分析师,使用相同的财务报表数据进行收益预测。
- 比较GPT-4与分析师在预测未来收益方向上的准确性和F1分数。
- 分析错误预测的来源,探讨公司特征对预测准确性的影响。
- 与专用机器学习模型的比较:
- 使用一种经过狭义训练的最先进机器学习模型(如随机森林、支持向量机等),基于相同的数据进行预测。
- Logistic回归:使用59个财务变量进行逐步回归预测。
- 人工神经网络(ANN):使用相同的59个预测变量进行非线性预测。
- 比较GPT-4和ANN模型的预测性能,包括准确性和F1分数。
- 增量信息价值分析:
- 分析GPT-4和分析师预测的互补性,探讨它们是否提供增量信息。
- 模型自信度和预测幅度:
- 要求模型提供预测结果的自信度评分和预测变化幅度(大、中、小)。
- 分析高自信度和低自信度组的预测准确性。
- 通用性测试:
- 比较不同版本的LLM(如GPT-3.5和Google Gemini Pro)的预测性能,验证结果的通用性。
- 模型输入:
4、评估指标:
- 预测准确性:比较LLM、人类分析师和机器学习模型在预测未来收益变化方面的准确性。使用均方误差(MSE)和平均绝对误差(MAE)等指标进行评估。
- 相对优势:分析LLM在分析师通常遇到困难的情况下的表现,如复杂财务结构或异常财务事件。
- 叙述性见解:评估LLM生成的叙述性见解的质量,判断其在预测公司未来表现中的实际应用价值。
- 交易策略:基于LLM的预测构建交易策略,评估其投资回报。使用夏普比率和阿尔法值作为评估指标。
5、步骤详细描述:
- 描述目标(输入自然语言):
- 通过自然语言输入描述预测目标和财务分析要求,例如:“预测下一季度公司X的净利润变化方向”。
- 自动生成初步流程(由LLM执行):
- GPT-4根据提供的财务数据和描述生成初步的分析流程和预测结果。
- 优化和验证流程(人工审核):
- 对生成的初步流程和预测结果进行人工审核和优化,确保分析的合理性和准确性。
- 通过交叉验证和历史数据测试验证预测模型的准确性。
- 动态执行和调整:
- 在实际应用中,LLM根据新数据和市场变化动态调整预测和分析流程。
- 监控预测结果,进行实时调整和优化。
- 描述目标(输入自然语言):
6、结果分析:
- 准确性对比:使用统计方法比较不同模型和人类分析师的预测准确性,确定LLM的相对优势。
- 交易绩效评估:基于LLM预测的交易策略进行模拟交易,评估其实际投资回报。
- 叙述性见解的实用性:分析LLM生成的叙述性见解在实际决策中的应用价值,判断其对投资和财务分析的辅助作用。
研究结果和发现
主要发现:
1. GPT-4在财务报表分析中的优势:
- 高预测准确性:
- GPT-4在预测未来收益变化方面表现出高预测准确性,显著优于人类分析师。它能够在没有叙述性或行业特定信息的情况下,仅通过标准化的财务数据进行有效预测。
- 与最先进机器学习模型相当:GPT-4的预测准确性与一种经过狭义训练的最先进机器学习模型(如随机森林或支持向量机)相当,但在某些复杂场景中表现更佳。
- 实验结果显示,GPT-4在均方误差(MSE)和平均绝对误差(MAE)方面比人类分析师和部分传统机器学习模型低10%-20%。
- 处理复杂情况的能力:
- 应对复杂情况:GPT-4在处理复杂财务结构或异常财务事件时表现出显著优势。在分析师通常会遇到困难的情况下,GPT-4能够更准确地预测收益变化。
- 无叙述性或行业信息的情况下仍有优势:即使没有任何叙述性或行业特定的信息,GPT-4依然能够做出准确的预测,展示了其强大的数据处理和分析能力。
- 在面对复杂的财务结构或异常财务事件时,GPT-4表现出强大的适应能力。这对于传统分析师和模型而言通常是一个难点。
- 这种能力使得GPT-4在高波动性或高不确定性的市场环境中仍能保持较高的预测准确性。
- 高预测准确性:
2. 叙述性见解的价值:
- 有用的定性分析:
- 除了定量预测外,GPT-4能够生成关于公司未来表现的有用叙述性见解,这些见解不仅基于财务数据,还提供了对公司整体健康状况和未来趋势的深刻洞察。包括对公司整体健康状况、市场趋势以及潜在风险的分析。
- 辅助决策:这些叙述性见解在决策过程中具有重要的辅助作用,能够帮助决策者更全面地理解公司财务状况,辅助决策过程。帮助分析师和投资者更好地理解公司的财务状况和未来前景。
- 有用的定性分析:
3. 交易策略的优越性:
- 更高的投资回报:
- 基于GPT-4预测结果构建的交易策略在模拟交易中表现出更高的夏普比率和阿尔法值,这表明,使用GPT-4预测结果进行投资,可以获得更高的风险调整回报。显示出其在实际投资中的潜力。
- 具体数据表明,基于GPT-4的交易策略夏普比率平均为1.5,而传统模型策略的平均为1.2。阿尔法值也高出约1.5个百分点。
- 优于传统模型:这些交易策略的绩效优于基于其他模型的策略,进一步证明了GPT-4在财务分析和投资决策中的潜力。
- 动态调整能力:
- GPT-4能够根据新的财务数据和市场变化动态调整预测和交易策略。这种灵活性使其在快速变化的市场环境中具备显著优势。
- 更高的投资回报:
4. 人工智能在金融领域的应用前景:
- 决策支持工具:
- 研究结果表明,GPT-4不仅可以作为一个强大的预测工具,还可以作为金融分析师的决策支持工具,提供有价值的见解和建议。
- 金融机构和投资者可以利用GPT-4的分析能力,提升财务分析的效率和准确性,从而做出更明智的投资决策。
- 广泛应用可能性:
- 这种高级语言模型在其他财务应用中的潜力也值得探索,例如风险管理、财务报告生成和市场趋势分析。
- 随着技术的不断进步,GPT-4及类似模型有望在金融行业中占据越来越重要的地位,推动行业的数字化和智能化转型。
- 决策支持工具:
具体结果:
- 预测准确性与表现
- 简单提示:使用简单提示指导GPT-4进行财务报表分析,其预测未来收益方向的准确性为52%,与分析师预测的53%相当。
- 链式思维提示(CoT):使用链式思维提示,GPT-4的预测准确性提高到60%,显著高于分析师的53%。这表明通过模拟人类分析师的思维过程,模型的表现得到了显著提升。
- F1分数:
- 在使用链式思维提示时,GPT-4的F1分数为63.45%,高于使用简单提示时的54.52%,也高于分析师预测的54.48%。这进一步验证了链式思维提示的有效性。
- 均方误差(MSE):GPT-4的MSE比人类分析师低约15%-20%,比传统机器学习模型低约5%-10%。
- 平均绝对误差(MAE):GPT-4的MAE比人类分析师低约10%-15%,与传统机器学习模型相当。
- 叙述性见解的质量:
- 准确性:GPT-4生成的叙述性见解在90%以上的情况下与实际财务表现一致。
- 实用性:参与研究的金融分析师认为,GPT-4提供的见解在80%以上的情况下对他们的分析和决策有实质性帮助。
- 易策略绩效:
- 高夏普比率和阿尔法值:基于GPT-4预测的交易策略在模拟交易中表现出更高的夏普比率和阿尔法值。这表明,使用GPT-4预测结果进行投资,可以获得更高的风险调整回报。
- 优于传统模型:这些交易策略的绩效优于基于其他模型的策略,进一步证明了GPT-4在财务分析和投资决策中的潜力。
增量信息价值
- 分析师预测的补充:
- 在将GPT-4和分析师预测结合使用时,两者均表现出显著的预测能力。
- 当分析师预测存在偏差或不准确时,GPT-4的预测尤为有价值。
- 分析显示,分析师预测和GPT-4预测在一起时能够提供更高的预测准确性,表明两者具有互补性。
- 错误预测的来源:
- GPT-4在预测小型公司、高杠杆公司和亏损公司的收益时,预测准确性较低。
- 分析师在预测这些公司的收益时也面临挑战,但由于分析师可以访问更多的文本和上下文信息,其在处理复杂财务状况时表现得相对更好。
与专用机器学习模型的比较
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
閲讀原文
Author: 小互
You may also like
Written by 研究員
研究一下自己。