微软、谷歌同日发布新AI模型：语音、图像与本地开源能力齐上阵,谷歌用ai设计ai芯片

微软与谷歌周四同步发布新一代AI模型，进一步加码多模态能力布局。微软推出自研MAI系列基础模型，覆盖语音转写、语音生成和图像生成，并加速融入自家产品体系；谷歌则发布Gemma 4开源模型，主打本地运行和多模态能力，并将许可切换至更开放的Apache 2.0协议。

微软：三款MAI模型覆盖语音与图像能力

微软推出的“世界级”自研MAI模型，一共包括三款。

首先是MAI-Transcribe-1，这是一款“最先进”的语音转文本模型，该模型在全部25种语言上均优于OpenAI的Whisper-large-v3，在25种中有22种优于Google的Gemini 3.1 Flash，在15种语言上优于ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe。MAI-Transcribe-1的起步价格为每小时0.36美元。

该模型采用基于Transformer的文本解码器和双向音频编码器，支持MP3、WAV和FLAC格式，最大文件200MB。微软表示，其批量转写速度是Azure Fast现有方案的2.5倍。说话人分离、上下文偏置和流式处理功能将“很快推出”。目前，该模型已在Copilot语音模式和Microsoft Teams中测试，用于对话转写，这也显示出微软正快速用自研模型替代外部或旧有方案。

其次是MAI-Voice-1，这是一款新的语音生成模型，只需1秒即可生成60秒的音频，并在长文本中保持说话人一致性，用户只需几秒音频即可创建自定义声音。同时，它还支持在Microsoft Foundry中通过短音频样本创建定制语音。MAI-Voice-1的起步价格为每100万个字符22美元。

最后是MAI-Image-2，这是一款更快的文生图模型，目前已经开始在Copilot中上线，接下来将陆续应用于Bing和PowerPoint。MAI-Image-2的价格为文本输入每100万个词元（Token）收费5美元，图像输出每100万个词元收费33美元。

如今，这三款模型已全部在Microsoft Foundry上线，其中语音转写和语音生成模型也可在MAI Playground中使用。这些模型由微软的MAI超级智能团队开发，该团队由Microsoft AI首席执行官穆斯塔法·苏莱曼（Mustafa Suleyman）领导，于2025年11月成立并对外公布。

微软表示：

“我们正在快速部署这些顶级模型，用于支持自家的消费者和商业产品。很快你将会在Foundry以及微软各类产品和体验中看到更多模型。”

微软加速摆脱依赖：自研模型体系逐步成型

媒体分析称，这一发布表明，尽管微软仍与OpenAI保持紧密合作，但公司正持续推进构建自有多模态AI模型体系，并与其他AI研究机构展开竞争。

这些模型的推出，与微软与OpenAI之间的一次关键合同调整密切相关。在2025年10月之前，微软在合同上被限制，无法独立推进通用人工智能的研发。2019年的原始协议规定，微软以提供云基础设施为交换，获得OpenAI模型的授权。但当OpenAI开始与软银等其他合作伙伴扩大算力合作时，微软重新谈判了协议。

苏莱曼在2025年12月接受采访时表示：“直到几周前，微软在合同上是不被允许独立推进AGI或超级智能的。”新协议使微软可以自主开发前沿模型，同时仍保留到2032年的OpenAI模型授权。

不过，苏莱曼在周四接受媒体采访时重申，微软仍将继续与OpenAI保持合作关系。但他也向媒体表示，近期对双方合作关系的重新谈判，使微软能够真正推进其超级智能研究。

“与OpenAI的合作没有改变，我们至少会合作到2032年，甚至更久。他们是非常优秀的合作伙伴。”

同时，微软也通过Foundry提供Anthropic Claude模型，将自身定位为“平台中的平台”。但其战略意图很清晰：微软正在打造独立能力。

微软已向OpenAI投资超过130亿美元，并通过一项多年期合作，将其模型部署在自家多款产品中。微软在芯片领域也采取类似策略：既自主研发，也同时采购外部供应商的产品。

分析称，这一发布时点对微软而言颇为关键。公司股价刚经历自2008年金融危机以来最差的一个季度，投资者正越来越迫切地要求看到，数千亿美元的AI基础设施投入如何转化为实际收入。这些模型——定价激进，同时有助于降低微软自身成本——成为苏莱曼对此压力的首次回应。

从竞争格局看，这次发布让微软在多个方向同时发力。MAI-Transcribe-1直接挑战OpenAI Whisper在开源社区的地位，也对Google Gemini形成压力；MAI-Voice-1则对标ElevenLabs等语音AI公司；加上Foundry统一API入口，形成强大的分发优势。

苏莱曼表示：

“我们现在是仅次于OpenAI和Gemini的前三实验室。”
“我们要做到所有云厂商里最便宜，包括亚马逊和谷歌，这是有意识的决定。”

谷歌：Gemma 4开源模型强化本地AI与开发者生态

谷歌推出的Gemma 4开源模型采用Apache 2.0许可，而不再使用此前自定义的Gemma许可协议。谷歌表示，这些模型具备高级推理能力、代理式工作流、代码生成，以及视觉和音频生成能力，并提供四种不同版本，针对本地运行进行了优化，甚至可以运行在“数十亿台安卓设备”上。

谷歌表示：

“Gemma 4基于与Gemini 3相同的世界级研究和技术，是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的Gemini模型形成互补，为开发者提供业内最强大的开源与专有工具组合。”
“这种开源许可为开发者提供了完整的灵活性和数字主权基础，让你可以完全掌控数据、基础设施和模型。你可以在任何环境中自由构建并安全部署，无论是在本地还是云端。”

四种版本：从手机到GPU全覆盖

四种不同版本主要区别在于参数规模。针对边缘设备（包括智能手机），公司推出了20亿和40亿参数的“Effective”模型，更注重多模态能力和低延迟处理，适用于移动设备和物联网设备。针对更强大的设备，则提供了260亿参数的“Mixture of Experts”（专家混合）模型，以及310亿参数的“Dense”（稠密）模型，旨在运行于消费级GPU上，可用于驱动IDE、编程助手以及代理式工作流。这些模型还支持完全离线运行。

谷歌表示，在Gemma 4上实现了“前所未有的单位参数智能水平”。为佐证这一说法，公司指出，Gemma 4中310亿和260亿参数版本在Arena AI文本排行榜上分别位列第三和第六，击败了规模是其20倍的模型。

所有这些模型都可以处理视频和图像，因此非常适合用于光学字符识别等任务。较小的两个模型还支持处理音频输入并理解语音。此外，谷歌表示，Gemma 4系列支持离线代码生成，这意味着用户可以在没有互联网连接的情况下进行编程（例如进行“vibe coding”）。这些模型还支持超过140种语言。

谷歌的Gemma 4开源模型可以在多个平台下载，包括Hugging Face、Kaggle和Ollama。谷歌强调：