Back_To_Home..
Llm
January 2025
国内大模型团队
智谱-清华GLM
https://github.com/THUDM/GLM-4
- 团队背景:由清华大学与智谱AI联合打造,成员多来自清华大学等高校,在知识图谱、自然语言处理等领域研究深厚。
- 模型成果:GLM系列大模型,如GLM-4-Voice能将文本转化为高质量、自然流畅的语音,情感识别能力强。GLM-130B是开源的双语双向稠密模型。
- 应用领域:广泛应用于短视频制作、智能客服、教育培训等领域。
复旦大学-MOSS
- 团队背景:由复旦大学自然语言处理实验室邱锡鹏教授团队建立。
- 模型成果:MOSS是国内第一个对话式大型语言模型,可执行对话生成、编程、事实问答等任务。还提出anygpt模型,能理解和推理多模态内容。
- 技术特点:打通了让生成式语言模型理解人类意图并具有对话能力的技术路径。
面壁-清华OpenBMB
https://github.com/OpenBMB/XAgent
- 团队背景:由清华大学和面壁智能发起,在模型研发和开源方面有一定影响力。
- 模型成果:OpenBMB是大规模预训练语言模型库与相关工具,有“小钢炮”MiniCPM-Llama3-V 2.5等开源模型。
- 应用方向:为自然语言处理研究和开发提供基础模型和工具支持,推动相关技术发展和应用。
阿里Qwen与通义千问
- 团队背景:阿里云的大模型研发团队,技术先进,研发经验丰富。
- 模型成果:Qwen是通义千问背后的模型,Qwen-2.5版本在知识储备、编程和数学能力、执行指令、生成长文本和理解结构化数据等方面有显著提升。通义千问是基于Qwen模型打造的AI助手。
- 应用框架:推出Qwen-Agent开发框架,助力开发者构建强大的AI智能体。
DeepSeek
- 团队背景:由DeepSeek公司研发,致力于人工智能技术研发与创新。
- 模型成果:DeepSeek Coder系列模型在代码生成、编程辅助等方面表现出色,DeepSeek LLM-1.3B在基础语言理解和生成任务上有一定性能。
- 应用领域:主要应用于软件开发、代码编程、技术文档生成等技术相关领域。
百度-文心一言
- 团队背景:百度拥有专业研发团队,在自然语言处理、知识图谱等技术领域积累深厚。
- 模型成果:文心一言具备跨模态、跨语言的深度语义理解与生成能力。2024年6月28日,文心大模型4.0 Turbo发布。
- 应用场景:可用于文学创作、商业文案创作、数理逻辑推算、数据分析、代码生成等多个场景。
字节跳动-云雀模型与豆包
- 团队背景:字节跳动的研发团队技术实力强劲,拥有先进的算法研究和工程实践能力。
- 模型成果:云雀模型是技术基础,为豆包的开发提供支持。
- 应用表现:豆包作为基于云雀模型开发的智能应用,在内容生成、知识问答、对话互动等方面表现出色,能根据用户需求生成高质量文本内容。
腾讯-混元模型
- 团队背景:腾讯混元大模型团队有丰富的技术积累和研发能力。
- 模型成果:2024年9月5日,腾讯推出新一代大模型“混元Turbo”,训练效率提升108%,推理效率提升100%,推理成本降低50%,解码速度提升20%。
- 技术特点:在国内率先采用MoE结构,并通过自研的万亿级层间异构MoE结构,优化训练数据,提升效果和性能。
开源的大模型
- ChatGLM-6b:由清华大学开发,是一个开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署,针对中文问答和对话进行了优化。开源地址:https://github.com/thudm/chatglm-6b。
- 悟道·天鹰(aquila):智源人工智能研究院的语言大模型,是首个具备中英双语知识、支持商用许可协议、满足国内数据合规需求的开源语言大模型。其源代码基于apache2.0协议,模型权重基于《智源aquila系列模型许可协议》。开源地址:https://github.com/flagai-open/flagai/tree/master/examples/aquila。
- 书生·浦语(internlm):上海人工智能实验室在过万亿token数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀。开源地址:https://github.com/internlm/internlm。
- baichuan-7b:由百川智能开发的开源可商用的大规模预训练语言模型,基于transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096,在标准的中文和英文benchmark(c-eval/mmlu)上均取得同尺寸最好的效果。开源地址:https://github.com/baichuan-inc/baichuan-7b。
- chatlaw法律大模型:由北京大学开发,目前开源的仅供学术参考的版本底座为姜子牙-13b、anima-33b,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。开源地址:https://github.com/pku-yuangroup/chatlaw。
- 本草大预言模型:哈尔滨工业大学经过中文医学指令精调/指令微调(instruct - tuning)的llama - 7b模型,通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对llama进行了指令微调,提高了llama在医疗领域的问答效果。开源地址:https://github.com/scir-hi/huatuo-llama-med-chinese。
- cpm - bee - 10b:openbmb开源社区由清华大学自然语言处理实验室和智源研究院语言大模型加速技术创新中心共同支持发起。开源地址:http://mp.weixin.qq.com/s?__biz=Mzg5Njc0NTI5Mw==&mid=2247484930&idx=1&sn=4dcdaaf46175f13d6e4d26894f66b0bf&scene=0。
微调大模型
选择开源项目与模型
- 搜索合适的项目:在GitHub上搜索与大模型微调相关的项目,如搜索关键词“large model finetuning”“LLM finetuning”等,可找到如LLaMA-Factory、ChatGLM-Efficient-Tuning、Finetuning-Large-Language-Models等项目。
- 确定基础模型:根据项目支持和任务需求,选择合适的基础大模型,如LLaMA、ChatGLM等。
准备工作
- 环境配置:根据项目的
requirements.txt
文件,安装所需的依赖库,如pip install -r requirements.txt
。可能还需要安装特定版本的Python、PyTorch、CUDA等。 - 获取数据集:将准备好的微调数据集整理成项目要求的格式,如JSON格式,并放置在指定的目录下。数据集中通常包含输入文本和对应的期望输出等信息。
微调操作
- 参数设置:打开项目中的微调脚本或配置文件,设置微调的相关参数,包括模型路径、数据集路径、微调方法(如LoRA、Freeze、P-Tuning等)、学习率、训练轮数、批次大小等。
- 启动微调:在命令行中执行微调脚本,开始训练模型。如对于某些基于PyTorch的项目,可使用
CUDA_VISIBLE_DEVICES=0 python train.py
命令指定使用的GPU设备并启动训练。
模型评估与保存
- 评估模型:训练过程中或训练完成后,使用验证集或测试集对微调后的模型进行评估,计算准确率、召回率、BLEU等指标,评估模型在目标任务上的性能。
- 保存模型:将微调后的模型参数保存到指定的目录,以便后续使用。有些项目会自动保存训练过程中的最佳模型,也可根据需求手动保存模型。
部署与应用
- 模型部署:将微调后的模型部署到实际应用环境中,可使用FastAPI、Flask等框架搭建服务接口,接收用户的请求并返回模型的预测结果。
- 应用测试:在实际应用场景中对微调模型进行测试和验证,收集用户反馈,根据反馈进一步优化模型或调整参数。