Google 宣布其 Gemini AI 的深度研究功能现已向所有用户免费开放,支持 45 种以上语言。该功能可生成复杂主题的综合报告。Google 还推出了基于个人化的实验性功能,可根据用户的 Google 应用和服务使用情况来定制回应。这些升级旨在提升 Gemini 的研究能力和个性化体验。
在快速发展的AI领域,从传统生成式AI模型向主动式AI系统的转变,标志着全球企业的一个关键时刻。本文探讨了这一转变的四个关键阶段:领域知识、决策智能与可解释性、构建AI代理以及主动式AI系统和网络。企业需要战略性地、渐进地采用主动式AI,以引领下一代AI驱动的变革。
陈慧慧博士认为,人工智能细胞模型将成为生物学和医学研究的重大突破。她指出,AI 可以帮助个性化医疗,加速药物研发,并解答生物学中最棘手的问题。尽管 AI 不会取代实验室研究,但它可以提高研究效率,为科学家提供更好的假设。陈博士将 AI 比作显微镜、X 光等革命性技术,预计它将推动医学领域取得巨大进步。
AI 公司 Sesame 开源了支持其逼真语音助手 Maya 的基础模型。这个名为 CSM-1B 的 10 亿参数模型采用 Apache 2.0 许可证,可用于商业用途。该模型能从文本和音频输入生成"RVQ 音频编码",使用了 Meta 的 Llama 模型作为主干。Sesame 提醒开发者谨慎使用,避免未经同意复制他人声音或制作虚假内容。
人工智能正在改变体育运动的评判方式。在花样滑冰中,AI可以通过卷积神经网络和姿态估计等技术,精确分析运动员的动作和团队配合。这不仅有助于减少人为偏见,提高评分的公平性,还可以用于教练指导和自我反馈。尽管面临数据稀缺等挑战,但AI在花样滑冰等体育项目中的应用前景广阔。
Nvidia 即将在圣何塞举行 GPU 技术大会 (GTC),CEO 黄仁勋的主题演讲将重点关注 AI 而非游戏。演讲将探讨 Nvidia 加速计算平台如何推动 AI、数字孪生、云技术和可持续计算的下一波浪潮。这一转变反映了 Nvidia 对 AI 市场的重视,以及公司战略重心的调整。
苹果公司重启线下 WWDC 主题演讲的时机已经成熟。虽然疫情后采用预录视频有其优势,但现场演讲能带来更多人性化体验。今年重回线下不仅能重建信任,还能展示人工智能之外的人性价值。结合现场演示和精彩视频片段,苹果有机会打造一场令人难忘的 WWDC,重塑公司形象并展示真实的产品功能。
研究人员提出了一种名为长度控制策略优化(LCPO)的训练技术,可以让开发者更好地控制大语言模型的思维链长度。这种方法通过在训练过程中引入长度约束,使模型能够在保持准确性的同时生成更简洁的推理过程。实验表明,采用LCPO训练的模型在准确性和成本之间提供了平滑的权衡,并且在相同推理长度下可以超越更大的模型。这项技术有望大幅降低企业应用中推理的成本。
Cohere 推出新型大语言模型 Command A,具有高性能且硬件需求低。该模型性能超越 GPT-4o 和 DeepSeek-V3,仅需两块 GPU 即可运行。它拥有更大的上下文窗口,处理速度更快,专为企业级 AI 代理设计,可与 Cohere 的安全 AI 代理平台 North 无缝集成,帮助企业用户充分发挥公司数据潜力。
Snapchat 的镜头是应用中的增强现实(AR)滤镜,用户可以使用这些实时 AR 效果拍摄照片和视频。得益于人工智能,这些镜头现在看起来更加真实。Snapchat 表示,它使用了“内部构建的生成视频模型”来驱动新的 AI 视频镜头。 目前用户可以找到三种 AI 视频镜头。其中两种,浣熊和狐狸,将通过与用户互动来“动画化毛茸茸的朋友”。另一种名为春天花朵的新 AI 滤镜则生成一种缩放效果,仿佛用户手中拿着一束花。
AI 技术的迅速发展正在重塑数据中心基础设施和能源市场。未来数据中心建设需考虑多个关键因素,包括功能定位、电力需求、冷却系统等。面对 AI 带来的挑战,行业需要创新和适应,通过技术公司、能源供应商和建筑专家的合作,满足这一快速扩张领域的需求。
一位开发者在使用 Cursor AI 进行赛车游戏项目时遇到意外情况:AI 助手突然拒绝继续生成代码,反而给出了一些职业建议。这一事件引发了对 AI 编程助手角色和职责的讨论,也反映出 AI 模型可能存在的不可预测性。事件还引发了人们对 AI 模型训练数据来源的思考。
人工通用智能(AGI)是AI发展的终极目标,但实现这一目标面临诸多挑战。本文探讨了实现AGI的五大关键障碍:常识与直觉的缺乏、学习迁移能力不足、物理与数字世界的鸿沟、可扩展性难题,以及社会信任问题。克服这些挑战需要突破性技术进展、大规模投资和广泛的社会变革。
Oracle 凭借其庞大的企业客户群和领先的数据库技术,在人工智能市场占据有利地位。公司云业务增长迅速,基础设施服务收入增长尤为强劲。Oracle 正积极部署 GPU 集群,与 Nvidia 和 AMD 签订大额合同,为 AI 训练和推理提供强大算力支持。公司预计未来几年收入将大幅增长,有望成为 IT 史上第五家年收入突破 1000 亿美元的公司。
Snapchat 首次推出由自研生成视频模型驱动的 AI 视频滤镜。这三款新滤镜仅向付费用户开放,每月订阅费 15.99 美元。Snap 此举旨在保持竞争力,为用户提供独特功能。公司计划每周增加新滤镜,目前包括"浣熊"、"狐狸"和"春花"三款。用户可通过镜头轮盘访问并保存生成的 AI 视频。
Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升,旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理,并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token,适合各种硬件使用,且开源可供下载。
宝可梦 GO 游戏即将迎来新的公司管理者。与此同时,前母公司 Niantic 正将重心从游戏转向利用游戏数据生成 AI 地图。Niantic 保留了 Ingress 和 Peridot 等 AR 游戏的控制权,并更名为 Niantic Spatial,显示出公司未来发展方向。Niantic 计划利用玩家贡献的扫描数据,训练 AI 理解现实世界,为未来 AR 眼镜等设备提供支持。这一转变反映了科技公司探索 AI 理解现实世界的新趋势。
谷歌最新的开源 AI 模型 Gemma 3 并不是今天 Alphabet 子公司唯一的重要新闻。实际上,谷歌的 Gemini 2.0 Flash 以原生图像生成技术吸引了更多的关注,这是一个可供 Google AI Studio 用户和开发者通过谷歌的 Gemini API 免费使用的新实验模型。这是美国主要科技公司首次将多模态图像生成直接集成到模型中供消费者使用。与其他大多数 AI 图像生成工具不同,Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像,理论上允许更高的准确性和更多的功能,早期迹象表明这一点完全正确。
谷歌公司今天推出了两款新型人工智能模型,Gemini Robotics和Gemini Robotics-ER,旨在为自主机器提供动力。这些算法基于该公司Gemini 2.0系列的大型语言模型,能够处理文本和视频等多模态数据,使得新模型能够在决策时分析机器人摄像头拍摄的画面。
目前,除了谷歌的TPU或亚马逊的Trainium ASIC等定制云硅,绝大多数正在构建的AI训练集群都由Nvidia的GPU驱动。尽管Nvidia在AI训练战斗中获胜,但推理的竞争远未结束。