【AI News | 20250428】每日AI进展
AI Repos
1、dyad
Dyad 是一款免费开源的本地化 AI 应用开发工具,兼容 Windows 和 Mac 双平台。支持使用自有 API 密钥灵活调用主流 AI 模型(包括 Gemini、GPT-4.1、Claude 等),内置数据库与身份验证系统可快速构建完整应用。
2、mcp-gateway
这个开源工具能让我们把现有 API 无需改动代码转化为 MCP 服务,实现与各种 AI 助手无缝对接。主要特性:零代码改动将现有 API 转为 MCP 服务端;通过简单的 YAML 配置文件快速完成转换设置;适配物理机、虚拟机、K8s 等多种环境,无需改变现有基础设施;内置直观的 Web 管理界面降低使用门槛;支持 MCP 的 SSE 和 HTTP 流式传输,体验更流畅;架构轻量高效,性能与高可用性兼备。通过 Docker 一键部署,几分钟内即可完成配置并开始使用,想要快速适配 MCP 协议的开发者可以看下。
AI News
1、马蜂窝推出AI旅行助手“AI小蚂”,接入DeepSeek大模型
马蜂窝正式上线自主研发的AI旅行助手“AI小蚂”,该助手接入DeepSeek大模型并结合马蜂窝多年积累的旅行数据,旨在提供更精准可靠的旅行推荐。用户可在马蜂窝APP首页及目的地页面使用实时问答、行程线路规划、在线旅行向导和个性化推荐等功能。“AI小蚂”致力于消除AI在旅行场景中的“幻觉”,让推荐有据可依,从而提升用户旅行规划的效率和个性化体验,推动智能旅行服务的发展。
2、CrowdStrike发布Charlotte AI平台,革新安全运营模式
网络安全公司CrowdStrike在RSA2025大会上推出了全新的AI平台Charlotte AI,旨在通过智能自动化和自主推理响应能力彻底改变安全运营中心(SOC)的运作模式。Charlotte AI能够自动分析和处理多方数据,主动进行调查和响应,显著提高安全分析师的工作效率。其Agentic Response模块能自动解答调查问题,Agentic Workflows则通过Falcon Fusion SOAR实现AI驱动的自动化工作流。CrowdStrike的MDR解决方案也整合了Charlotte AI,提升了整体安全防护和威胁应对能力。
3、字节Seed团队推出PHD-Transformer:突破预训练长度限制,解决KV缓存膨胀
字节Seed团队发布新型PHD-Transformer,通过直接重复输入tokens扩展预训练长度,并在训练损失和模型性能上取得提升。为解决由此带来的KV缓存膨胀问题,PHD-Transformer在推理时仅保留原始tokens生成的KV缓存,丢弃重复tokens的缓存,显著加快推理速度。团队还引入滑动窗口注意力机制PHD-SWA和逐块滑动窗口注意力机制PHD-CSWA以保持性能并缩短预填充时间。实验表明,PHD-CSWA在多个基准测试中实现了准确率的提升,标志着预训练长度扩展在大型推理任务中取得重要进展。
4、Devin AI推出DeepWiki:AI驱动的GitHub代码库智能文档生成工具
Devin AI发布免费工具DeepWiki,利用其DeepResearch智能代理自动为GitHub代码库生成结构化维基风格文档,简化开发者对不熟悉代码库的理解。用户只需替换URL即可获得项目总结、技术栈介绍、交互式文件浏览器和自动生成的架构图等。DeepWiki内置AI助手支持自然语言提问,并提供深度研究模式以识别潜在问题和优化机会。该工具支持公共和私有代码库,旨在弥合代码与文档之间的鸿沟,提升开发效率。
5、DeepSeek R1T Chimera登陆OpenRouter:融合R1与V3优势,高效智能开源
TNG Technology Consulting发布了基于MoE架构的685B参数模型DeepSeek R1T Chimera,该模型融合了DeepSeek R1的推理能力与V3-0324的效率。Chimera显著提升了令牌效率,在保持相当智能水平下减少约40%的输出令牌使用量,并具备与R1相当的推理性能。该模型已通过OpenRouter平台开放访问,采用MIT许可证并开放权重。Chimera的高效令牌使用和推理能力使其在文档分析、代码生成和实时对话等场景中具有广泛的应用前景,有望成为开发者社区的热门选择。
6、Adobe重磅升级Firefly AI平台:打造图像、视频、音频全能创作引擎
Adobe对Firefly AI平台进行重大升级,使其从单一图像生成器扩展为综合性数字内容创作系统,新增支持生成视频、音频和矢量图形。图像生成方面推出了增强的Firefly Image Model4标准版和超版,提升了人物、动物和建筑渲染及文本生成能力,并增加更多控制选项。正式发布的Firefly Video Model能生成最长五秒的视频剪辑。此外,平台还将整合第三方AI模型,并推出iOS和安卓移动应用,实现跨平台创作。所有AI生成内容将标记“内容凭证”,但仅Adobe自有Firefly模型基于授权数据训练,确保商业安全性。
7、字节跳动推出QuaDMix框架:统一优化LLM预训练数据质量与多样性
字节跳动发布QuaDMix数据选择框架,旨在解决LLM预训练中数据质量与多样性难以兼顾的难题。QuaDMix通过特征提取、质量聚合和质量-多样性感知采样三阶段流程,在固定训练预算下实现两者的联合优化。实验表明,QuaDMix在RefinedWeb数据集上表现优异,平均得分超越多种基线模型,且能提升特定下游任务的性能。该框架为LLM预训练数据选择提供了一个系统化且可扩展的解决方案。
8、Qafind Labs发布ChatDLM:全球最快推理速度模型,突破超大上下文
Qafind Labs发布了ChatDLM模型,是首个深度融合区块扩散和专家混合技术的模型,在GPU上实现了高达2800 tokens/s的超高推理速度,并支持131,072 tokens的超大上下文窗口。ChatDLM采用7B参数量,通过区块扩散、专家混合、RoPE优化和分层缓存等技术,实现了高效的文档级生成和实时对话能力。在性能测试中,ChatDLM在推理速度和多个基准测试的准确率方面均表现出色。Qafind Labs计划未来为ChatDLM引入更多先进技术,进一步提升其性能和适用性。用户可通过体验地址进行体验。
9、百度发布多模态AI程序员文心快码Zulu,开启智能编程新时代
百度在Create大会上发布了文心快码3.5及国内首个多模态AI程序员Zulu智能体。Zulu支持上传图片一键生成代码,灵活调用多种工具,自动搭建环境,适配主流IDE,并能实时预览代码效果。基于Zulu,文心快码可实现从需求到编码、调试、验证的端到端生成,助力开发者成为“十倍工程师”,复杂工程重构时间从一天缩短至一分钟。同时,零经验用户也能通过自然语言轻松编程。文心快码3.5在代码智能体引擎、代码预测改写引擎和上下文引擎等方面实现突破,并通过MCP协议兼容主流开发工具链,目前已服务760万开发者,显著提升开发效率。
10、GPT-4o图像生成能力集成GPTs,开启个性化AI图像机器人时代
OpenAI将GPT-4o的强大图像生成能力集成到GPTs平台,用户可以创建自定义的图像生成机器人,实现个性化的图像创作,如生成特定风格的海报或艺术作品。这些机器人支持高保真视觉输出、上下文一致性,并易于分享和使用。该功能基于GPT-4o的多模态能力和GPTs的定制化框架,通过自然语言配置即可定义机器人的生成目标和风格。这一集成降低了AI图像生成的技术门槛,并有望通过GPT Store形成社区化创作生态,广泛应用于营销、艺术、教育和游戏等领域。目前该功能已向ChatGPT Plus、Pro及Team用户开放。
11、Step1X-Edit开源图像编辑模型:性能媲美GPT-4o
Stepfun AI团队开源了Step1X-Edit通用图像编辑框架,该模型结合多模态大语言模型与扩散变换器,通过理解参考图像和编辑指令生成高质量目标图像。团队构建了包含百万级三元组的数据管道,并发布了更贴近真实场景的评测基准GEdit-Bench。实验显示,Step1X-Edit在GEdit-Bench上表现优异,接近闭源模型水平。模型代码、权重和评测数据已在Hugging Face和ModelScope开放,支持单GPU运行,适用于专业设计和日常照片编辑等多种场景,有望推动开源AI图像编辑技术的发展。