当前位置：首页 > news >正文

大模型基础

news 来源：原创 2025/4/22 6:10:53

1、提示词

典型构成：

- **角色**：给 AI 定义一个最匹配任务的角色，比如：「你是一位软件工程师」「你是一位小学数学老师」
- **指示**：对任务进行描述
- **上下文**：给出与任务相关的其它背景信息（尤其在多轮交互中）
- **例子**：必要时给出举例，学术中称为 Few-Shot Learning 或 In-Context Learning；对输出正确性有很大帮助
- **输入**：任务的输入信息；在提示词中明确的标识出输入
- **输出**：输出的风格、格式描述，引导只输出想要的信息，以及方便后继模块自动解析模型的输出结果，比如（JSON、XML）

2、大模型的能力

大模型的核心能力通常包括但不限于以下方面：

‌指令跟随（Instruction Following）‌：模型能否准确理解并执行用户的指令（如“写一首诗”“总结这篇文章”）。
‌上下文理解（Context Awareness）‌：能否结合对话历史或长文本上下文生成连贯回复。
‌多轮对话（Multi-turn Dialogue）‌：在复杂对话中保持逻辑一致性。
‌多语言处理（Multilingual Capabilities）‌：对中文、英文等不同语言的生成和理解能力。
‌逻辑推理（Reasoning）‌：解决数学问题、代码调试等需要分步推理的任务。
‌创造性生成（Creativity）‌：生成诗歌、故事、广告文案等多样化内容。
‌安全与合规（Safety）‌：避免生成有害、偏见或违法内容。

3、大模型性能评估

1）BLEU

Pn：n-gramm的精确率；n通常为1、2、3，Pn=标签中n个单词出现的个数之和 / 结果中n个单词出现的个数之和

∑Wn*logPn：多项logPn求和，然后取平均值

exp avg：e的avg次幂

BP：长度惩罚，防止生成过短，造成得分虚高

2）ROUGE-L

ROUGE-L（Recall-Oriented Understudy for Gisting Evaluation based on Longest Common Subsequence）是一种基于‌最长公共子序列（LCS）‌的文本相似度评估指标，主要用于自动文摘、机器翻译等任务的生成质量评估‌46。

LCS要保持单词的顺序不变，可以跨词，但不能颠倒顺序

ROUGE-L通过召回率（Recall）、精确率（Precision）和F1值综合评分：