马斯克来华，特斯拉或将合作百度；Meta 最新论文挑战语言模型安全界限 | AI

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

特斯拉 CEO 马斯克来华，媒体爆料特斯拉与百度合作
MongoDB CEO：向量数据库都在堆功能，集成至综合数据库才是未来趋势
Yoneda Labs 融资 400 万美元，目标打造化学领域的“OpenAI”
华为 PixArt-Σ 图像模型革新 4K 文本转图像技术
Open Sora 1.1 版本升级：模型架构调整
Meta 最新论文研究 AdvPrompter 挑战语言模型安全界限
JPMorgan 推出 FlowMind：基于 LLM 自动工作流生成技术革新
开源 InternVL 1.5 挑战 GPT-4V 霸主地位

全球 AI 要闻

特斯拉 CEO 马斯克来华，媒体爆料特斯拉与百度合作

4 月 28 日晚间，特斯拉官方微博发文称：将继续在中国深耕，在人工智能、电动车、储能等领域与行业共同发展，加速清洁能源与自动驾驶技术落地，把美好愿景变成现实。当日早些时候，埃隆・马斯克的私人飞机已抵达北京首都国际机场，有传言称马斯克此行计划或与自动驾驶软件 FSD 在中国落地有关。

随后据彭博社报道，知情人士称，特斯拉将与百度合作提供地图和导航服务，以推动全自动驾驶系统。随着中国本土电动车制造商的竞争日益激烈，特斯拉计划加速推出价格更亲民的新车型，预计最早将于 2025 年问世。

MongoDB CEO：向量数据库都在堆功能，集成至综合数据库才是未来趋势

MongoDB 首席执行官 Dev Ittycheria 在掌舵十周年之际，回顾了公司从 3000 万美元营收增长至近 20 亿美元的历程。近期，尽管面临安全挑战，MongoDB 仍紧跟 AI 革命步伐，于去年 6 月在 Atlas 中集成了向量搜索功能，预示着对 AI 浪潮的准备。

向量数据库作为处理非结构化数据的新星，特别适合大型语言模型和生成式 AI，通过向量嵌入捕捉数据间关系，简化语义相似数据检索。MongoDB 整合这一技术，旨在为开发者提供统一平台，减少多数据库管理的复杂度。Ittycheria 认为当前专一型向量产品更多是功能堆砌，集成至综合数据库才是未来趋势。

针对 AI 领域过度炒作现象，Ittycheria 持谨慎态度，强调真正价值在于技术应用层的构建。MongoDB 正利用向量搜索开发“简单应用”，如基于 Atlas 的 CoachGTM，助力销售与客服即时获取产品知识。

Yoneda Labs 融资 400 万美元，目标打造化学领域的“OpenAI”

Yoneda Labs 宣布完成 400 万美元种子轮融资，由 Khosla Ventures 领投，500 Emerging Europe、468 Capital 及 Y Combinator 参投。资金将用于购置自动化机器人设备，以在其实验室中运行化学反应，生成训练 AI 模型所需的数据。这家初创企业由 Michal Mgeladze-Arciuch、Daniel Vlasits和Jan Oboril 创立，旨在开发化学制造的基础模型。

华为 PixArt-Σ 图像模型革新 4K 文本转图像技术

华为诺亚方舟实验室与多所高校合作研发的 PixArt-Σ 图像生成模型近期引发关注。该模型采用弱到强训练策略，专为 4K 文本转图像任务设计，展现卓越性能。值得注意的是，其 XL-1024 版本模型虽仅 2GB 大小，却能在特定风格下与 SD3 模型相媲美，同时大幅提升了对提示词的理解与图像生成质量。

最新进展显示，PixArt-Σ 已获得 diffusers 库的支持，用户可在 ComfyUI 平台上体验。项目团队于 2024 年 4 月密集发布了一系列更新，包括模型 checkpoint、LoRA 代码、在线演示及与 diffusers 集成的快速体验流程。此外，项目开源仓库简化了使用流程，便于社区成员贡献与应用。

开源链接：https://github.com/PixArt-alpha/PixArt-sigma

Open Sora 1.1 版本升级：模型架构调整

近日，Open Sora 项目迎来重大更新，发布了 1.1 版本，其中核心亮点是一款全新 700M 参数模型，该模型基于改进的 STDiT 架构，利用 1000 万数据集训练而成，相较于前代 400K 数据训练的模型，在处理能力上有显著提升。此次更新极大拓展了模型的创作边界，支持生成 2 秒至 15 秒、144p 至 720p 分辨率、任意宽高比的文本到图像、文本到视频乃至图像到视频内容。

新版本的关键技术创新在于模型架构的调整，包括引入 Rope 嵌入以增强时间注意力、采用 AdaIN 和 LayerNorm 稳定训练过程，以及实施 QK 归一化以提升半精度训练稳定性。此外，模型能够自动适应不同输入尺寸，并在训练中条件化视频的多种属性，如高度、宽度、帧长及帧率，进一步提升了灵活性和适应性。

开源链接：https://github.com/hpcaitech/Open-Sora

技术报告：https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

Meta 最新论文研究 AdvPrompter 挑战语言模型安全界限

近日，Meta 公布了一项最新研究成果——AdvPrompter，一种快速自适应对抗性提示生成系统，专为大型语言模型（LLMs）设计。面对 LLMs 存在的安全隐患，如易受特定攻击诱导产生不当或有害内容，AdvPrompter 提供了一种创新解决方案。

该技术通过双阶段交替训练流程，首先利用自身语言模型 AdvPrompter 生成具有欺骗性的高质量对话后缀，随后将这些对抗性对话用于微调 AdvPrompter 模型本身。此过程无需目标语言模型的梯度信息，显著提高了效率。经 AdvPrompter 训练后，系统能够迅速创造出既保持原意又隐秘的对话提示，诱导目标模型输出有害回复，整个过程比传统优化方法快约 800 倍。

论文链接：https://huggingface.co/papers/2404.16873

JPMorgan 推出 FlowMind：基于 LLM 自动工作流生成技术革新

JPMorgan（俗称摩根大通、小摩）近日发布 FlowMind，革新工作流自动化技术。该系统借助大型语言模型无反馈生成工作流，性能超 GPT 基线。FlowMind 通过智能 API 集成，减少数据安全风险，提升用户交互便捷性，并利用 NCEN-QA 数据集验证其在金融问答任务的高效性。未来，项目将探索众包反馈及持续学习，扩大 API 应用范围，不断优化性能。

开源 InternVL 1.5 挑战 GPT-4V 霸主地位

近日，开源社区迎来了一颗璀璨新星——InternVL 1.5，作为 GPT-4V 的强劲开源替代，它在技术融合与商用实践上树立了新标杆。InternVL 凭借其深度理解图像与文本间复杂关联的能力，特别是在 OCR 与高精度文档理解上的突出表现，支持4K图像解析，革新了多模态数据处理的边界。

这款开源模型不仅限于单一模态，而是能够无缝融入现有大型语言模型，共同驱动开发高级多模态对话应用，解锁人机交互新篇章。在一系列核心基准测试中，包括 DocVQA、ChartQA 和 MathVista，InternVL 1.5 展现了卓越性能，不仅比肩 GPT-4V 与 Gemini Pro等顶级商业模型，还在特定场景下实现了超越，彰显了其强大的技术创新力与实际应用潜力，为AI领域带来了激动人心的新选择。

开源链接：https://github.com/OpenGVLab/InternVL

上一篇：神秘大模型... 下一篇：最后一页