AI资讯

马斯克来华,特斯拉或将合作百度;Meta 最新论文挑战语言模型安全界限 | AI

整理 | 王启隆
出品 | AI 科技大本营(ID:rgznai100)

一分钟速览新闻点!

  • 特斯拉 CEO 马斯克来华,媒体爆料特斯拉与百度合作

  • MongoDB CEO:向量数据库都在堆功能,集成至综合数据库才是未来趋势

  • Yoneda Labs 融资 400 万美元,目标打造化学领域的“OpenAI”

  • 华为 PixArt-Σ 图像模型革新 4K 文本转图像技术

  • Open Sora 1.1 版本升级:模型架构调整

  • Meta 最新论文研究 AdvPrompter 挑战语言模型安全界限

  • JPMorgan 推出 FlowMind:基于 LLM 自动工作流生成技术革新

  • 开源 InternVL 1.5 挑战 GPT-4V 霸主地位


全球 AI 要闻

特斯拉 CEO 马斯克来华,媒体爆料特斯拉与百度合作

4 月 28 日晚间,特斯拉官方微博发文称:将继续在中国深耕,在人工智能、电动车、储能等领域与行业共同发展,加速清洁能源与自动驾驶技术落地,把美好愿景变成现实。当日早些时候,埃隆・马斯克的私人飞机已抵达北京首都国际机场,有传言称马斯克此行计划或与自动驾驶软件 FSD 在中国落地有关。

随后据彭博社报道,知情人士称,特斯拉将与百度合作提供地图和导航服务,以推动全自动驾驶系统。随着中国本土电动车制造商的竞争日益激烈,特斯拉计划加速推出价格更亲民的新车型,预计最早将于 2025 年问世。

MongoDB CEO:向量数据库都在堆功能,集成至综合数据库才是未来趋势

MongoDB 首席执行官 Dev Ittycheria 在掌舵十周年之际,回顾了公司从 3000 万美元营收增长至近 20 亿美元的历程。近期,尽管面临安全挑战,MongoDB 仍紧跟 AI 革命步伐,于去年 6 月在 Atlas 中集成了向量搜索功能,预示着对 AI 浪潮的准备。

向量数据库作为处理非结构化数据的新星,特别适合大型语言模型和生成式 AI,通过向量嵌入捕捉数据间关系,简化语义相似数据检索。MongoDB 整合这一技术,旨在为开发者提供统一平台,减少多数据库管理的复杂度。Ittycheria 认为当前专一型向量产品更多是功能堆砌,集成至综合数据库才是未来趋势。

针对 AI 领域过度炒作现象,Ittycheria 持谨慎态度,强调真正价值在于技术应用层的构建。MongoDB 正利用向量搜索开发“简单应用”,如基于 Atlas 的 CoachGTM,助力销售与客服即时获取产品知识。

Yoneda Labs 融资 400 万美元,目标打造化学领域的“OpenAI”

Yoneda Labs 宣布完成 400 万美元种子轮融资,由 Khosla Ventures 领投,500 Emerging Europe、468 Capital 及 Y Combinator 参投。资金将用于购置自动化机器人设备,以在其实验室中运行化学反应,生成训练 AI 模型所需的数据。这家初创企业由 Michal Mgeladze-Arciuch、Daniel Vlasits和Jan Oboril 创立,旨在开发化学制造的基础模型。

华为 PixArt-Σ 图像模型革新 4K 文本转图像技术

华为诺亚方舟实验室与多所高校合作研发的 PixArt-Σ 图像生成模型近期引发关注。该模型采用弱到强训练策略,专为 4K 文本转图像任务设计,展现卓越性能。值得注意的是,其 XL-1024 版本模型虽仅 2GB 大小,却能在特定风格下与 SD3 模型相媲美,同时大幅提升了对提示词的理解与图像生成质量。

最新进展显示,PixArt-Σ 已获得 diffusers 库的支持,用户可在 ComfyUI 平台上体验。项目团队于 2024 年 4 月密集发布了一系列更新,包括模型 checkpoint、LoRA 代码、在线演示及与 diffusers 集成的快速体验流程。此外,项目开源仓库简化了使用流程,便于社区成员贡献与应用。

开源链接:https://github.com/PixArt-alpha/PixArt-sigma

Open Sora 1.1 版本升级:模型架构调整

近日,Open Sora 项目迎来重大更新,发布了 1.1 版本,其中核心亮点是一款全新 700M 参数模型,该模型基于改进的 STDiT 架构,利用 1000 万数据集训练而成,相较于前代 400K 数据训练的模型,在处理能力上有显著提升。此次更新极大拓展了模型的创作边界,支持生成 2 秒至 15 秒、144p 至 720p 分辨率、任意宽高比的文本到图像、文本到视频乃至图像到视频内容。

新版本的关键技术创新在于模型架构的调整,包括引入 Rope 嵌入以增强时间注意力、采用 AdaIN 和 LayerNorm 稳定训练过程,以及实施 QK 归一化以提升半精度训练稳定性。此外,模型能够自动适应不同输入尺寸,并在训练中条件化视频的多种属性,如高度、宽度、帧长及帧率,进一步提升了灵活性和适应性。

开源链接:https://github.com/hpcaitech/Open-Sora

技术报告:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

Meta 最新论文研究 AdvPrompter 挑战语言模型安全界限

近日,Meta 公布了一项最新研究成果——AdvPrompter,一种快速自适应对抗性提示生成系统,专为大型语言模型(LLMs)设计。面对 LLMs 存在的安全隐患,如易受特定攻击诱导产生不当或有害内容,AdvPrompter 提供了一种创新解决方案。

该技术通过双阶段交替训练流程,首先利用自身语言模型 AdvPrompter 生成具有欺骗性的高质量对话后缀,随后将这些对抗性对话用于微调 AdvPrompter 模型本身。此过程无需目标语言模型的梯度信息,显著提高了效率。经 AdvPrompter 训练后,系统能够迅速创造出既保持原意又隐秘的对话提示,诱导目标模型输出有害回复,整个过程比传统优化方法快约 800 倍。

论文链接:https://huggingface.co/papers/2404.16873

JPMorgan 推出 FlowMind:基于 LLM 自动工作流生成技术革新

JPMorgan(俗称摩根大通、小摩)近日发布 FlowMind,革新工作流自动化技术。该系统借助大型语言模型无反馈生成工作流,性能超 GPT 基线。FlowMind 通过智能 API 集成,减少数据安全风险,提升用户交互便捷性,并利用 NCEN-QA 数据集验证其在金融问答任务的高效性。未来,项目将探索众包反馈及持续学习,扩大 API 应用范围,不断优化性能。

开源 InternVL 1.5 挑战 GPT-4V 霸主地位

近日,开源社区迎来了一颗璀璨新星——InternVL 1.5,作为 GPT-4V 的强劲开源替代,它在技术融合与商用实践上树立了新标杆。InternVL 凭借其深度理解图像与文本间复杂关联的能力,特别是在 OCR 与高精度文档理解上的突出表现,支持4K图像解析,革新了多模态数据处理的边界。

这款开源模型不仅限于单一模态,而是能够无缝融入现有大型语言模型,共同驱动开发高级多模态对话应用,解锁人机交互新篇章。在一系列核心基准测试中,包括 DocVQA、ChartQA 和 MathVista,InternVL 1.5 展现了卓越性能,不仅比肩 GPT-4V 与 Gemini Pro等顶级商业模型,还在特定场景下实现了超越,彰显了其强大的技术创新力与实际应用潜力,为AI领域带来了激动人心的新选择。

开源链接:https://github.com/OpenGVLab/InternVL


扫码免费使用

私有部署 无需年费
点击电话咨询

申请免费使用

电话咨询

加微信联系