什么是生成式人工智能的问题
开放性的问题。
像分类的问题就不是。
机器学习
prompt
- 模型思考
think about it step by step (旧模型) gpt3.5 4 用处就不大了
让模型解释自己的答案
- 情绪勒索
- 做的好了给奖励,做的不好了,就惩罚。
这就有点像 prompt 工程了,用程序自动来找 prompt,进行打分,找到自动的
直接让 AI 告诉你,怎么提问能让他回答的更好。
提供范例:
有些知识是 AI 不知道的,需要给他提供一些例子。让他根据你的例子回答。
一些资源和教程
openAi 的官方文档。好的 prompt 的 6 个策略。
Chapter4 如何在不训练模型的情况下,提供模型的能力
CoT(Chain of Thought)链式思考
是什么:告诉大模型一步一步的思考。就是拆解任务,模范人类的思维模式。
比如说,求解一道数学题,让他一步一步的写过程。
效果:当前的大模型(GPT 3.5+)没有明显效果,因为模型自身已经具备了。
自我反省(有用)
是什么:问大模型,你确认的答案是正确的吗?
效果:对 gpt4 这类模型是有用的,对低智能的 3.5 等是不行的,因为你一质疑它就会认错,不论真假。
ToT(Tree of Throught)树形思考(有用)
是什么:
问大模型一模一样问题时,会产生不一样的答案,可以让它分多个步骤解决问题(COT),针对每个步骤,让他产生多个答案,并且通过自我反省的方式让它检查答案的正确性。
效果:有效。
大模型借助外部工具实现能力的扩展:
- 搜索引擎
- 写代码,执行代码(数学问题)得到结果
- 额外工具比如文生图
如何使用外部工具:
仍然是文字接龙的方式。定义一个特殊符号,产生特殊符号时,调用外部工具,得到结果。继续接龙。
多模型结合(有用)
- 任务 先经过主导模型,主导模型分配任务给具体某个模型
- 模型 A 和模型 B 互相交流,直到他们达成一致(裁判模型)。
- 讨论也有不同的方式。不同的任务有不同的讨论方式
- 裁判模型 判断AB的答案是否一致。直到一致。
- 目前各种模型都很谦虚,很有可能讨论一两句结束了,所以重点是要让模型讨论起来(不需要完全同意我的看法,你可以有自己的意见)。
多模型组成一个团队
每个模型扮演不同的角色。甚至还有绩效考核的角色。
Chapter5 大模型的训练过程
1. 预训练
通过大量的数据训练出一个基座大模型,比如开源的 llm3。
数据:
- 来源于爬虫爬取的内容(数据量非常大)
- 数据处理:
- 去掉色情暴力内容
- 去掉不需要的符号,比如 html 的符号
- 去除低品质的内容(模型区分)
- 去除重复内容
训练手段:
模型效果和作用:
- 很难好好沟通。即使模型参数量很大,用的资料量很大,也很难好好沟通。
- 国内或者小团队没有那么多算力资源,一般都是用别人开源的基座模型进行第二三步的训练。
2.Instruction Fine Tuning(指令微调 重要)
在基座模型的基础上,用高质量的人类问答,继续训练模型,微调模型的参数。
高质量人类回答的来源:用现有的 GPT 生成。高质量的对话,几千条就有明显的提升效果。
3. RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习 重要)
Chapter6 打造agent
现有的 agent:
虚拟 agent
结合实际的agent
- 机器人 Figure01
- 车+大模型
ai agent 的原理()
外界信息(现有状态) 记忆 目标 计划 行动改变外界信息(循环改变)
执行行动:slow-agent(人能够理解的行动) fast-agent(某个系统的指令,比如写代码运行)