《计算机视觉度量:从特征描述到深度学习》—工业检测大模型RAG白皮书
当下生成式大模型的大规模应用。工业检测领域,也逐渐过度到大模型时代。想了解工业检测大模型目前的发展情况,DY搜索“军哥讲视觉”,或者WX搜索“军哥讲视觉”。
随着技术的发展,模型的大小和训练成本越来越高,无法在现场的应用场景下低成本完成训练。就必须寻找新的解决方法,将大模型的能力迁移到工业检测。
同样针对模型的迁移方法,有微调,和强化学习,指令集调试等各种方法。微调和强化学习都不是能在消费级显卡上可以完成的。所以不符合目前工业场景的应用方法,指令集调试是一种针对特定场景下的引导调试,调试过程复杂。并且无法针对图像的进行引导。
近期技术的发展,对于大模型出现的幻视和引导问题。发展出一套新的技术方向RAG技术,这套技术是在数据搜索技术层面上发展过来的。同样大模型也可以看作一种技术搜索方法,两个搜索的方式不一样,但是技术可以互补。
RAG核心的功能是通过保存历史数据,对目前输入和生成的数据进行向量检索,获取到相似度比较高的历史数据。通过历史数据的总结和引导,让模型输出更加准确的信息。
RAG应用在工业检测的领域,需要保存生产过程中的历史图片和向量。用来引导大模型检测比对图片数据。实时进行评估是否有异常,对异常数据和历史数据做检索比对,输出报警信息。
开发RAG的搜索工具目前有Milvus、Faiss、Elasticsearch、Chroma等技术工具,针对图片的多模态大模型有dinov2,CLIP,llm-v等基础多模态大模型。
通过多模态大模型,生成针对图片数据的向量。保存通过人工定义筛选的图片生成大模型数据向量到数据库。对检测的图片生成向量后,对其进行检索,比对检索历史,输出准确的筛选结果。
目前部分大模型的工业检测已经完成部分工作,关注博主继续跟进