构建特定领域的大语言模型

背景 随着大语言模型(LLM)在各行业的广泛应用,企业和研究团队面临将通用模型适配特定领域的迫切需求。通用大语言模型在处理特定领域任务时,往往无法满足深度需求。例如,在闭源编程语言的应用中,现有开源模型对其语法和语义的理解不足,导致在代码生成和纠错等任务中表现不佳。因此,注入领域知识并训练专属的大语言模型,成为提升开发效率和代码质量的关键步骤。 ...

2025-01-05 · 18 分钟 · 8675 字 · Yue Shui

基于双卡 RTX 4090 搭建家用深度学习主机

租用 GPU 还是购买 GPU? 在构建深度学习工作环境之前,首先需要综合考虑 使用周期、预算、数据隐私 以及 维护成本。如果长期(例如超过一年以上)且对数据安全要求较高,自建 GPU 服务器通常能带来更低的综合成本和更可控的环境;如果只是短期项目,或对数据隐私不敏感,那么租用云上 GPU(如 Azure、AWS、GCP 等)或使用免费平台(Colab、Kaggle)则更加灵活。 ...

2024-12-21 · 9 分钟 · 4095 字 · Yue Shui

基于深度学习的股票价格预测和量化策略

摘要 股票市场是金融市场的重要组成部分,近些年来,股票市场蓬勃发展,股票价格预测和量化投资策略研究吸引了许多领域的研究学者。其中最近几年随着人工智能和机器学习的发展,学者们从传统的统计学模型迁移到了人工智能算法,尤其是在深度学习热潮掀起后,神经网络在股票价格预测和量化投资策略研究中取得了不错的效果。深度学习的目标是学习多层次的特征,通过组合低级特征构建抽象的高级特征,从而挖掘数据的分布式特征表示,基于此进行复杂的非线性建模,从而实现预测任务。其中 RNN 被人们广泛地应用在序列数据上面,如自然语言和语音。股票每天的股价,交易信息都是序列数据,因此之前有很多研究者,基于 RNN 来预测股票价格。由于基础的循环神经网络在层数过多的情况下,会出现梯度消失的问题,而 LSTM 的诞生,解决了此问题,之后出现了诸如 GRU,Peephole LSTM,BiLSTM 等 LSTM 的变体。但传统的股票预测模型有些并未考虑时间因素,有些仅考虑时间上的单向关系。因此,文中使用 BiLSTM 模型进行股票价格预测。从模型原理上来说,BiLSTM 模型充分利用了时间序列上向前,向后两个时间方向的上下文关系,并且避免了长时间序列上的梯度消失和梯度爆炸问题,能够更好地学习到对时间有长期依赖性的信息。 ...

2021-04-21 · 51 分钟 · 25251 字 · Yue Shui