大模型——Crawl4AI 中的数据提取策略
大模型——Crawl4AI 中的数据提取策略
在本章中,将详细介绍在 Crawl4AI 中可用的数据提取策略。这些策略包括:
- LLMExtractionStrategy:用于详细内容提取。
- JsonCssExtractionStrategy:使用 CSS 选择器进行结构化数据检索。
- CosineStrategy:基于余弦相似性进行有效的语义分段。
1. LLMExtractionStrategy
LLMExtractionStrategy
利用语言模型(LLM)从 HTML 内容中提取有意义的信息。此策略依赖于外部提供者来获取 LLM 的完成,以根据说明执行提取。
何时使用
- 适合需要细致理解的复杂提取任务。
- 适合能够通过详细说明来指导提取过程的场景。
- 完美适用于提取特定类型的信息或内容。
参数
provider
(字符串,可选):语言模型完成的提供者(例如:openai/gpt-4&#