当前位置: 首页 > news >正文

Crawl4AI,智能体网络自动采集利器

在这里插入图片描述
Crawl是一个强大的工具,它赋予AI智能体更高的效率和准确性执行网络爬取和数据提取任务。其开源特性、AI驱动的能力和多功能性,使其成为构建智能且数据驱动智能体的宝贵资产,告别繁琐: 爬虫新宠 crawl4ai,数行代码搞定数据采集,AI 爬虫核武器!Crawl4AI 横空出世,数据采集只需一行代码,Crawl4AI 是一款专为大语言模型(LLM)和 AI 应用设计的开源网页爬虫与数据抓取工具。它不仅能高效采集网页数据,还能直接输出结构化、干净的 Markdown 内容。
1 使用 Crawl 的步骤
步骤 1:安装与设置

pip install "crawl4ai @ git+https://github.com/unclecode/crawl4ai.git" transformers torch nltk   

步骤 2:数据提取
创建Python脚本,启动网络爬虫并从URL提取数据:

from crawl4ai import WebCrawler      
# 创建 WebCrawler 的实例   crawler = WebCrawler()      
# 预热爬虫(加载必要的模型)   crawler.warmup()     
# 在 URL 上运行爬虫   result = crawler.run(url="https://openai.com/api/pricing/")     
# 打印提取的内容   print(result.markdown)   

步骤 3:数据结构化
使用LLM(大型语言模型)定义提取策略,将数据转换为结构化格式:

iimport os
from crawl4ai import WebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Fieldclass OpenAIModelFee(BaseModel):model_name: str = Field(..., description="OpenAI 模型的名称。")input_fee: str = Field(..., description="OpenAI 模型的输入令牌费用。")output_fee: str = Field(..., description="OpenAI 模型的输出令牌费用。")url = 'https://openai.com/api/pricing/'
crawler = WebCrawler()
crawler.warmup()result = crawler.run(url=url,word_count_threshold=1,extraction_strategy=LLMExtractionStrategy(provider="openai/gpt-4o",api_token=os.getenv('OPENAI_API_KEY'),schema=OpenAIModelFee.schema(),extraction_type="schema",instruction="""从爬取的内容中提取所有提到的模型名称以及它们的输入和输出令牌费用。不要遗漏整个内容中的任何模型。提取的模型 JSON 格式应该像这样:{"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""),bypass_cache=True,
)print(result.extracted_content)

步骤 4:集成AI智能体

将 Crawl 与 Praison CrewAI 智能体集成,实现高效的数据处理:

pip install praisonai   

创建工具文件(tools.py)来包装 Crawl 工具:

# tools.py
import os
from crawl4ai import WebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field
from praisonai_tools import BaseToolclass ModelFee(BaseModel):llm_model_name: str = Field(..., description="模型的名称。")input_fee: str = Field(..., description="模型的输入令牌费用。")output_fee: str = Field(..., description="模型的输出令牌费用。")class ModelFeeTool(BaseTool):name: str = "ModelFeeTool"description: str = "从给定的定价页面提取模型的费用信息。"def _run(self, url: str):crawler = WebCrawler()crawler.warmup()result = crawler.run(url=url,word_count_threshold=1,extraction_strategy=LLMExtractionStrategy(provider="openai/gpt-4o",api_token=os.getenv('OPENAI_API_KEY'),schema=ModelFee.schema(),extraction_type="schema",instruction="""从爬取的内容中提取所有提到的模型名称以及它们的输入和输出令牌费用。不要遗漏整个内容中的任何模型。提取的模型 JSON 格式应该像这样:{"llm_model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""),bypass_cache=True,)return result.extracted_contentif __name__ == "__main__":# 测试 ModelFeeTooltool = ModelFeeTool()url = "https://www.openai.com/pricing"result = tool.run(url)print(result)

AI智能体配置
配置AI智能体使用Crawl工具进行网络抓取和数据提取。在crewai框架下,我们设定了三个核心角色,共同完成网站模型定价信息的提取任务:

网络爬虫:负责从OpenAI、Anthropic和Cohere等网站抓取定价信息,输出原始HTML或JSON数据。

数据清理员:确保收集的数据准确无误,并整理成结构化的JSON或CSV文件。

数据分析员:分析清理后的数据,提炼出定价趋势和模式,并编制详细报告。

整个流程无需额外依赖,各角色独立完成各自任务。

2 AI 智能体应用实例
以Crawl为基础,Praison-AI智能体能够执行网络抓取、数据清洗和分析工作。它们相互协作,从多个网站抓取定价数据,并汇总成详尽的报告,以展示分析结果。
github地址:https://github.com/unclecode/crawl4ai
文档地址:https://docs.crawl4ai.com

相关文章:

  • 爬虫过程中如何确保数据准确性
  • vue相关知识补充
  • 第四章:Messaging and Memory
  • Python 如何操作数据库,让你使用 DeepSeek 开发数据库应用更加快 (Orm Bee)
  • 相机-IMU联合标定:相机标定
  • 大模型(LLMs)加速篇
  • Improving Deep Learning For Airbnb Search
  • 9.学习笔记-springboot(P90-P104)
  • OSCP - Proving Grounds - Wpwn
  • 同步时钟与异步时钟
  • Python 实现的运筹优化系统数学建模详解(动态规划模型)
  • qemu(3) -- qemu-user使用
  • 【Machine Learning Q and AI 读书笔记】- 01 嵌入、潜空间和表征
  • 4.环境变量
  • 对Electron打包的exe文件进行反解析
  • 中级社会工作者工作内容有哪些
  • 【go】go语言slice/map的产生背景,及原理理解
  • 【解决方案】Linux解决CUDA安装过程中GCC版本不兼容
  • LLaMA-Factory部署以及大模型的训练(细节+新手向)
  • C语言高频面试题——局部变量和全局变量可以重名吗?
  • 西湖大学本科招生新增三省两市,首次面向上海招生
  • 恒瑞医药赴港上市获证监会备案,拟发行不超8.15亿股
  • 劳动最光荣!2426人受到表彰
  • IPO周报|4月最后2只新股周一申购,今年以来最低价股来了
  • 主播说联播丨六部门出台新政!来华买买买,实惠多多多
  • AI应用大盘点:谁暴涨?谁掉队?