当前位置: 首页 > news >正文

词语关系图谱模型

 

参数配置说明


    sentences,          # 分词后的语料(列表嵌套列表)
    vector_size=100,    # 每个词的向量维度
    window=5,           # 词与上下文之间的最大距离(滑动窗口大小)
    min_count=5,        # 忽略出现次数小于5的词
    workers=4,          # 用于训练的线程数(多线程加速)
    sg=0,               # 训练算法:0 = CBOW;1 = Skip-gram
    hs=0,               # 是否使用层次Softmax(和 negative 二选一)
    negative=5,         # 负采样的数量(常用5~20之间)
    epochs=5,           # 训练轮数
    sample=1e-3,        # 高频词下采样的阈值(越小,越容易下采样)
    seed=42,            # 随机种子,确保可复现
    callbacks=None      # 自定义训练回调函数(如记录每轮日志)


fangfa 如果是0使用余玄相似度 如果是1使用欧式距离
port 启动前端页面端口


停用词库使用的正则可修改
r'exclude|stopwords|badwords|delete'

包含词库使用的正则

数据文件分隔符{|}

 

 

相关文章:

  • QGIS实用功能:加载天地图与下载指定区域遥感影像
  • Python实例题:Python3OpenCV视频转字符动画
  • [Java · 铢积寸累] 基础函数 — 生成随机数 - Math.random() 详解
  • G1 人形机器人硬件构成与接口
  • AI算子开发是什么
  • Agent系统工程实践:Langchain-Chatchat框架定制与优化
  • PostgreSQL认证培训推荐机构
  • 关于el-table可展开行实现懒加载的方案
  • ​​电商系统用户需求报告(示例)
  • Java基础复习(JavaSE进阶)第六章 IO流体系
  • 语音合成(TTS)从零搭建一个完整的TTS系统-第二节-中文转拼音
  • 【Python Web开发】01-Socket网络编程01
  • 【Python爬虫基础篇】--3.cookie和session
  • 乐视系列玩机---乐视1s x500 x501 x502等系列线刷救砖以及刷写第三方twrp 卡刷第三方固件步骤解析
  • 现有一整型数组,a[8] = { 4,8,7,0,3,5,9,1},现使用堆排序的方式原地对该数组进行升序排列。那么在进行第一轮排序结束之后,数组的顺序为?
  • 【HTML】【Web开发】滑动条挑战
  • Docker的基本概念和一些运用场景
  • Linux[基础指令][2]
  • Vue3 + Vite + TS,使用 ExcelJS导出excel文档,生成水印,添加背景水印,dom转图片,插入图片,全部代码
  • Java中的方法重写(Override)与方法重载(Overload)详解
  • 白宫称中美贸易协议谈判取得进展,外交部回应
  • 世界最大全电驱可拆装环保绞吸船投入官厅水库清淤试点工程
  • 佩索阿稳定常销,陀翁不断加印,青少年喜欢黑塞
  • 旁白丨还在寻亲路上的家长们,期待“上岸”
  • 复旦大学附属中山医院也有儿科了,门诊将于下月底开业
  • 为博眼球竟编造一女孩被活埋,公安机关公布10起谣言案件