微软 Wizard M2 碾压 GPT-4，刚开源就删库？

Microsoft 在今天推出了 WizardLM 2，这是一个突破性的开源大语言模型，可以说是开源领域的突破，甚至接近和超过部分 GPT-4 的能力，这在之前的开源领域是前所未有的。这些模型在复杂的聊天、多语言理解、推理和代理功能方面取得了重大改进，超过了其前身 WizardLM 和其他领先的开源模型。

目前发布仅半天就被删库，有人甚至猜测由于它强大的能力，是一个有意识的 AI 删除了它，来阻止我们获取它；也有人认为 Microsoft 并不是想完全开源，但许可证挂错了，挂成了 apache2 就是完全开源了。类似的说法众说纷纭，颇有迷幻色彩，这里特工鲸鱼卖个关子，在文末会给大家揭晓真正的原因～

话不多说，先来看看这次发布的模型有什么型号，以及实力如何吧！

WizardLM-2 家族的三个型号：

1. WizardLM-2 8x22B：作为Microsoft最先进的型号，WizardLM-2 8x22B 与 GPT-4 等超强模型相比，都能有一战之力。目前它领先所有开源模型，特别是在复杂任务上表现出极强的能力，难道开源模型的天真的要变了？！

2. WizardLM-2 70B：该模型具有很强推理能力，是 70B 参数大小类别中的首选。它在性能和资源需求之间提供了出色的平衡。

3. WizardLM-2 7B：尽管尺寸较小，但 WizardLM-2 7B 的速度非常快，其性能可与 10 倍于其尺寸的开源型号相媲美。对于要求效率而又不影响质量的应用来说，WizardLM-2 7B 是一个不错的选择哦～

说完型号，接下来自然是大家最关心的能力问题了，特别是标题所说，和 GPT-4 的能力对比。

WizardLM 2 大战 GPT-4，看看谁更强。

我们依旧分点来进行对比：

1. WizardLM-2 8x22B：仅仅略逊于 GPT-4，但已经超越了 2023年3月版本的 GPT-4，只能说 OpenAI 现在是不是已经汗流浃背了呢？

2. WizardLM-2 70B：是这个尺寸上表现最佳的模型，对复杂指令的人工评估也超越了 GPT-4-0613以及Mistral-Large 等模型。

3. WizardLM-2 7B：身体小力量大，也是在这个尺寸上目前最好的模型。

已经使用过的人表示👇

Wizardlm-2-8x22b，它比 gpt-3.5-turbo 强得多，看起来比 gpt-4-turbo 更勤奋。只是它有时候有点“过度勤奋”，这可能是因为 wizardlm 训练时使用的 instruction 都写的太好了？但它实在是太便宜了，就是 gpt-4-turbo 的 3%-10%.

我们来看看这个 Wizardlm-2-8x22b 实际具体表现：

不得不说它在编写代码和程序上的能力还是很不错的，虽然它写的贪吃蛇看起来有点丑（狗头，建议微软领回家再补习一下审美艺术哈哈哈）。让我们再测试一点弱智吧到“高智商”问题，看看它是否还能游刃有余地应对👇

可以看出 Wizardlm-2-8x22b 表现出的能力还是挺让人满意的，至少它在开源模型的领域已经展现出了完全碾压的气势。

到这里，来吃瓜的小伙伴已经摩拳擦掌，迫不及待地想尝试一下了，但如我们开篇所说，目前这个模型已经删库，不如先少安毋躁，放好小板凳，听特工把模型的更深原理讲一讲，为什么它那么强，它是怎么训练出来的？相信好奇技术细节的小伙伴也已经非常好奇了。

WizardLM 2 是如何训练的呢？

WizardLM 2 的训练过程主要归功于微软开发的一项革命性训练方法——Evol-Instruct。这个方法利用大型语言模型，通过反复修改一组初始指令，使其变得越来越复杂。这些修改后的指令数据被用来微调基础模型，使其能够更好地处理复杂任务。

Evol-Instruct 通过这种方式生成了大量高复杂度的指令数据，这些数据对于人类来说很难生成。而这些数据又是训练大型语言模型的关键。通过自动化生成多样化且具有挑战性的训练数据，微软为大型语言模型的快速进步铺平了道路。

具体到 Evol-Lab，它负责生成更多样化和更复杂的 [指令、响应] 对，主要由下面两个方面组成：

Evol-Instruct：此方法使各种代理能够自动生成高质量的指令。

Evol-Answer：引导模型多次生成和重写响应可以提高其逻辑性、正确性和亲和性。

除了 Evol-Instruct，WizardLM 2 的训练还采用了另一重要的方法——RLEIF（Instruction&Process Supervised Reinforcement Learning）。这个方法结合了指令质量奖励模型和过程监督奖励模型，以在在线训练中更精确地保证正确性。

另外，微软还使用了 AI Align AI（AAA）框架，该框架让多个顶尖语言模型能够相互教导和改进，进一步提高了 WizardLM 2 的性能。AAA 框架由两个主要组成部分组成：

1.共同教导（Co-Teaching）：WizardLM 和其他各种顶尖的开源和专有模型进行模拟对话、质量评判、改进建议和技能缺口封闭。通过相互交流和提供反馈，模型能够相互学习，完善自身能力。

2.自学成才（Self-Teaching）：WizardLM 能够通过与自身交互生成新的演化训练数据，进行监督学习，以及通过积极学习生成的数据和反馈来进行强化学习。这种自我教导机制使模型能够不断改进自身性能。