• GluonNLP — 自然语言处理的深度学习工具包

    最新模型的结果为何难以重现?去年项目的代码为何已经罢工?本该直截了当的基准模型为何如此难做?请看今天的走进科学之,自然语言处理那点事。 故事的主人公小 A 是个乐观开朗的炼丹师,正开始研究机器翻译。这天他看到时下最热门的一篇谷歌论文 “Attention Is All You Need” 介绍基于注意力机制的 Transformer 模型。小A上网搜了搜发现, Tensorflow 的...

  • MXBoard — 助力 MXNet 数据可视化

    写在前面 深度神经网络自出现以来就一直饱受争议。从实践角度来讲,设计并训练出一个可用的模型非常困难,需要涉及大量的调参、修改网络结构、尝试各种优化算法等等;从理论角度来看,深度神经网络的数学理论证明并不完备,从而造成人们对其基本原理缺乏清晰的认识。而数据可视化带来的直观效果可以很大程度上弥补上述的不足。比如,模型训练时如果能实时画出梯度数据分布,可以很快发现并纠正梯度消失或者梯度爆炸的现象...

  • GluonCV — 计算机视觉的深度学习工具包

    起源 有人曾经问我,开发 MXNet 时候感觉最难的是什么。我会毫不犹豫的觉得”重复论文里的实验结果”是最困难的一点。举三个例子: Lin Min (Network in network 提出者)在16年的时候发现 MXNet 在 ImageNet 上面训练的模型精度比 Torch 低 1%。为了 debug 这个事情甚至开发了一个插件可以在 MXNet 跑任意 Torch 的...

  • 用 Intel MKL-DNN 加速 CPU 上的深度学习

    Intel最近发布了开源的深度学习软件包 MKL-DNN,来替换之前的 MKLML。MKL-DNN 专门优化了一系列深度学习里的操作符。现在 Apache MXNet 集成了 MKL-DNN 来加速 CPU 上的深度学习。这次 MXNet 团队和 Intel 团队通过更紧密的合作,不仅提高 MXNet 在 CPU 上的性能,同时也希望让系统比之前使用 MKLML 时更加稳定。鉴于现在 inf...

  • 十分钟从 PyTorch 转 MXNet

    PyTorch 是一个纯命令式的深度学习框架。它因为提供简单易懂的编程接口而广受欢迎,而且正在快速的流行开来。例如 Caffe2 最近就并入了 PyTorch。 可能大家不是特别知道的是,MXNet 通过 ndarray 和 gluon 模块提供了非常类似 PyTorch 的编程接口。本文将简单对比如何用这两个框架来实现同样的算法。 安装 PyTorch 默认使用 conda 来进...

  • 实战阿里天池竞赛——服饰属性标签识别

    近期阿里巴巴的天池算法竞赛平台上线了有着高额奖金的 FashionAI全球挑战赛—服饰属性标签识别。第一名队伍将得到高达 50 万人民币的奖金!是不是非常动心? 反正我是动心了,可能有很多小伙伴也动心了。 为了帮助跃跃欲试的大家更好地上手这次比赛,我写了一个通过 gluon 训练模型的教程,从配置环境开始一步步带领大家训练出不错的模型。另外,我还提供一份能完整训练并参赛的脚本,让大家能够...

  • 如何发表一篇文章

    我们讨论在这里发表一篇文章的流程和一些写作建议。 内容 一篇文章通常讨论一个主题。建议长度在控制在读者能够10分钟读完以内。保守估计一个人可以一分钟读200个字,那么总长度应该在2000字内。如果文章里面有图片,表格和代码,我们可以简单估算成一张图片15秒,一行代码和表格2秒,那么一篇文章最多可以有2张图片,5个代码块,每块10行代码,2个表格,每个表格5行,外加一千五百字。这个只是一个...

  • 为什么开设 Apache MXNet 博客

    半年前我们开始了一个实验性质的项目:通过代码实现来从0开始学深度学习。因为我们认为深度学习是一门动手的学科,只有通过亲手实现和实验才能体会到各个细节是如何影响最终结果,从而可以应用深度学习来解决实际问题。 我们假设小伙伴有一定的编程基础,但只有极为有限的机器学习和数学知识。然后通过每周直播一到两个小时,现场演示各个模型算法的实现,和在真实数据上不同参数下的结果,以及一系列的Kaggle竞赛...