当前位置: 首页 > news >正文

【创新实训项目博客】数据库搭建

1.原因

为了降低模型使用以前训练的数据或者幻觉知识,我们在对话时需要提供相关内容的数据,同时由于需要最新的广告实时数据,实时爬取和版权问题。数据由团队在网上爬取,为了广告内容的有效性,如果长期使用,数据库需要定期几个月更新一次。

2.数据库选择

我决定搭建本地轻量级数据库sqlite提供查询,数据采用最简单的方式,

3.数据表设计

一条数据包含的内容每个都不同

例如一条数据是

{"序号": 1, "公司名称": "四川腾晟乾建筑工程有限公司", "投放平台": " 巨量广告/千川 13859 (100.00%)", "投放广告创意数": "13,859", "投放天数": 14, "最后投放时间": "2025-04-14"}

而另一类数据则不同

{"序号": 89, "开发商名称": "海南捞月狗网络科技有限公司", "旗下主推产品": " 捞月狗 747 (99.20%), 偷星猫 6 (0.80%)", "投放广告创意数": "753", "投放天数": 14, "最后投放时间": "2025-04-14"}

我们不要求更加精细的查询,这对业务毫无意义。

因此按照默认生成的row_id作为主键,file_id是每个不同的类别,可以做查询和区分,第三列data是agent需要的数据

4.最终数据库截图

相关文章:

  • 简单了解Java的I/O流机制与文件读写操作
  • Flink 时态维度表 Join 与缓存机制实战
  • NFC 碰一碰发视频贴牌技术,音频功能的开发实践与技术解析
  • WinForm真入门(17)——NumericUpDown控件详解
  • 全星APQP软件系统:驱动芯片半导体行业研发管理迈向高效与合规新高度
  • 每日算法-250427
  • 【Pandas】pandas DataFrame rtruediv
  • 2025.4.22 JavaScript 常用事件学习笔记
  • 开源财务软件:企业财务数字化转型的有力工具
  • TensorFlow 安装全攻略
  • Shell脚本-until语法结构
  • 香港GPU显卡服务器与GPU云服务器的区别
  • Tomcat的安装与配置
  • 【C++详解】C++入门(二)引用、内联函数、nullptr宏
  • Spark-Streaming核心编程:有状态转化操作与DStream输出
  • 高中数学联赛模拟试题精选第13套几何题
  • 【PyCharm- Python- ArcGIS】:安装一个和 ArcGIS 不冲突的独立 Python让PyCharm 使用 (解决全过程记录)
  • 第1讲、#PyTorch教学环境搭建与Tensor基础操作详解
  • 函数的使用
  • docker compose -p的踩坑经验
  • 美军空袭也门拘留中心,已致68人死亡
  • 财政部部长:中方主张通过平等对话协商解决贸易和关税争议
  • 解放日报头版:外资汽车产业链布局上海步伐明显加快
  • 海上生明月,九天揽星河,2025年“中国航天日”主场活动在上海启动
  • 上海体育消费节将从5月持续至11月,推出运动装备商品促销活动
  • 国际货币基金组织报告:将今年全球经济增长预期由此前的3.3%下调至2.8%