当前位置: 首页 > news >正文

Datawhale AI春训营 AI4S蛋白质赛道学习笔记

Datawhale AI春训营

AI4S蛋白质赛道学习笔记

流程

报名赛事在http://competition.sais.com.cn/competitionDetail/532313/format?spm=CHANNEL-0001

进入之后注册,然后填写个人手机号,通过支付宝进行实名认证等即可报名参与赛道

要报名赛道之后才可以下载相关的数据集和baseline代码等官方数据

  1. 报名赛事
  2. 下载docker、安装docker,打开docker
  3. 使用免费云算力训练模型、运行模型训练的baseline
    git lfs install
    git clone https://www.modelscope.cn/datasets/Datawhale/sais_third_synthetic_baseline.git
  4. 开通阿里云镜像服务,创建镜像仓库 ,命名为 sais_synthetic
  5. 下载训练模型等五个文件
    model.pkl,ml_baseline.py,Dockerfile,requirements.txt,run.sh
  6. 在本地进行docker打包并推送
    docker login --username=xx xxxx
    大约3分钟
    docker build -t sais_synthetic:v1 .
    大约耗时5分钟
    docker tag sais_synthetic:v1 xxxxxx/sais_medicine:v1
    docker tag sais_synthetic:v1 crpi-yimn1cg16ys23bar.cn-hangzhou.personal.cr.aliyuncs.com/sais_synthetic_wumao/sais_synthetic:v1
    docker push xxxxx/sais_synthetic:v1
    docker push crpi-yimn1cg16ys23bar.cn-hangzhou.personal.cr.aliyuncs.com/sais_synthetic_wumao/sais_synthetic:v1
  7. 然后提交镜像、获得分数
model.pkl生成

model.pkl是在jupter notebook中的,打开克隆的datawhale的baseline仓库

里面有ml_baseline.ipynb,运行这个notebook就可以生成model.pkl了

!pip install gensim
import pickle
import gensim
import gensim.modelsimport os
import sys
import random
import numpy as np
import pandas as pd
from joblib import load, dumpfrom sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_reportdatas = pickle.load(open("WSAA_data_public.pkl", "rb"))random_seed = random.randint(0, 10000)
model_w2v = gensim.models.Word2Vec(sentences=[' '.join(x["sequence"]) for x in datas],vector_size=random.choice([10, 20, 40, 50, 100]),min_count=1,seed=random_seed
)data_x = []
data_y = []
for data in datas:sequence = list(data["sequence"])for idx, (_, y) in enumerate(zip(sequence, data['label'])):data_x.append(model_w2v.wv[sequence[max(0, idx-2): min(len(sequence), idx+2)]].mean(0))data_y.append(y)
model = GaussianNB()
pred = cross_val_predict(model, data_x, data_y
)
print(classification_report(data_y, pred))model = GaussianNB()
model.fit(data_x, data_y)
dump((model, model_w2v), "model.pkl")

然后生成的这个model.pkg和配合的Dockerfile,脚本等按照要求推送到ali云的镜像平台,然后就可以提交了

安装docker后构建:

docker build -t sais_synthetic:v2 .
docker images

推送:

docker tag sais_synthetic:v2 xxxxxx/sais_medicine:v1 docker push xxxxx/sais_synthetic:v1# 例如
docker tag sais_synthetic:v1 crpi-yimn1cg16ys23bar.cn-hangzhou.personal.cr.aliyuncs.com/sais_synthetic_wumao/sais_synthetic:v1
docker push crpi-yimn1cg16ys23bar.cn-hangzhou.personal.cr.aliyuncs.com/sais_synthetic_wumao/sais_synthetic:v1

上传之后,就可以到官网提交了,记得复制外网地址哦

相关文章:

  • Maven插件下载失败?三步解决SSL握手错误与镜像配置
  • CentOS之软件包管理系统
  • Web端ER可视化
  • 元数据驱动的 AI 开发:从数据目录到模型训练自动化
  • Jetpack Room 使用详解(下)
  • 深度学习中的预训练与微调:从基础概念到实战应用全解析
  • JSP实现用户登录注册系统(三天内自动登录)
  • Unity中数据储存
  • w308汽车销售系统的设计与实现
  • 华为盘古OS深度评测:构建AI自进化系统的实践密码
  • 2025.04.26-淘天春招笔试题-第二题
  • DIFY 浅尝 - DIFY + Ollama 添加模型
  • 2025.04.26-美团春招笔试题-第三题
  • MQ消息的不可靠性发生情况与解决方案
  • 显示器关闭和鼠标键盘锁定工具
  • Pygame事件处理详解:键盘、鼠标与自定义事件
  • 树相关处理
  • 结合五层网络结构讲一下用户在浏览器输入一个网址并按下回车后到底发生了什么?
  • Eclipse 插件开发 1
  • 面试新收获-大模型学习
  • 印方称与巴基斯坦军队在克什米尔交火
  • 第二部以“法典”命名的法律!生态环境法典编纂迈出“关键步”
  • 《不眠之夜》上演8年推出特别版,多业态联动形成戏剧经济带
  • 深圳大学传播学院院长巢乃鹏已任深圳大学副校长
  • 4500万失能人员如何养老?没参保是否能享受长护师服务?
  • 牧原股份一季度归母净利润44.91亿元,同比扭亏为盈