▲点击上方雷风网关注
文字 | 高云鹤编辑 | 杨晓凡
雷锋网(leiphone-sz)报道
雷锋网AI科技评论注:机器学习研究如火如荼,各种新方法层出不穷。 尽管如此,还是有一个问题摆在我们面前,研究这些算法对现实有什么用。 尤其是在讨论机器学习在手机等设备上的应用时,经常会被问到:“机器学习的杀手级应用是什么?”
机器学习工程师 Pete Warden 想到了很多答案,从语音交互到使用传感器数据的全新方式,但他认为短期内最令人兴奋的方向之一实际上是压缩算法。 尽管压缩算法是一个众所周知的研究方向,但许多人仍然对这个概念感到惊讶。 在这篇博文中,Pete Warden 分享了他对压缩算法为何如此有前途的看法。 雷锋网AI科技评论编译如下。
当我读到一篇名为《神经自适应内容感知互联网视频传输》(Neural Adaptive Content-aware Internet Video Delivery)的论文时,我意识到了这个领域的重要性。 在这篇文章的总结中说,通过神经网络,该方法可以在保证相同带宽的情况下音频压缩方法有哪些,将体验质量指标提升43%。 或者在保持相同观看质量的同时将带宽使用量减少 17%。 其实类似研究方向的论文很多,比如生成压缩()和自适应图像压缩(),但是为什么我没有听说过更多关于机器学习在压缩算法上的实际应用呢?
算力还不够
所有这些基于机器学习的压缩方法都需要相对较大的神经网络,并且所需的计算量与像素数成正比。 这意味着高分辨率图像或高帧率视频需要的计算能力远远超过当前手机或类似设备所能提供的能力。 虽然当前大多数 CPU 每秒能够处理数百亿次算术运算,但在高清视频上运行机器学习压缩算法很容易需要十倍的计算量。
好消息是,有一些新的硬件方案,比如Edge TPU等,未来或许能够提供更多可用的计算资源。 我希望我们可以将这些资源应用于各种压缩问题,从视频和图像到音频。
自然语言是终极压缩
我认为机器学习非常适合压缩算法的另一个原因是我们最近在自然语言处理方面取得了很多有趣的结果。 如果仔细想想图片,其实可以把图像描述看作是图片的一种终极压缩方式。 我一直想创建一个项目,以每秒一帧的速度为相机拍摄的图像添加描述,然后将这些描述写入日志文件。 有了这个,你会得到一个非常简单的故事,说明相机随着时间的推移看到了什么。 我认为这可以看作是一种能够叙述的传感器。
我称这种东西为压缩的原因是我们实际上可以使用生成神经网络从字幕生成图像。 生成的图片不一定要和输入的图片一模一样,只要意义相同即可,这可以看成是一种解压算法。 如果想要一种输出结果尽可能与输入相似的压缩算法,可以参考图像风格化算法,将图像压缩成每个场景的轮廓。 这些算法与传统压缩算法的共同点是,它们在输入中找到对我们人类最重要的信息,而忽略其他细节。
不只是图像
语言世界也有类似的趋势。 语音识别技术正在迅速发展,合成语音的能力也是如此。 识别过程可以看作是将音频压缩成自然语言文本的过程,而合成则相反。 通过将音频转换为文本表示,可以极大地压缩人与人之间的对话。 我现在很难想象会走那么远,但似乎有可能通过我们对语言特性的新理解来实现更好的压缩质量和更低的带宽。
我什至看到了将机器学习压缩算法应用于文本本身的可能性。 Andrej Karpathy 的 Char-RNN() 表明神经网络可以很好地模拟给定样本的风格。 这种学习方式的本质与压缩问题非常相似。 如果您考虑一下典型的 HTML 页面有多少冗余,机器学习压缩算法实际上有一个很好的机会来改进 gzip。 但这只是我的猜测,毕竟我没有机器学习文本压缩的经验。
压缩算法已经是一个适销对路的项目
在我的创业生涯中,我从尝试向企业销售但失败的过程中学到的一件事是,如果企业已经为你要销售的类别分配了大量资金,那么销售起来会更容易。 拥有产品预算意味着公司已经决定是否在该解决方案上花钱音频压缩方法有哪些,现在唯一的问题是购买哪个解决方案。 这也是为什么我认为机器学习可以在这个领域取得巨大进步的原因之一,因为制造商已经有专门从事视频和音频的压缩工程师,并且有钱和芯片制造行业这样做。 如果我们能够证明将机器学习添加到现有解决方案中可以改善某些指标,例如质量速度或功耗,那么这些方法可以很快被采用。
带宽成本需要在用户和运营商之间平均分摊,质量和电池寿命是产品的主要卖点。 因此,使用机器学习进行压缩比其他应用方向具有更直接的动机。 现有研究表明,机器学习算法对压缩非常有效,我乐观地认为还有很多方法有待发现,所以我希望压缩算法成为机器学习的重要应用。
通过 Pete Warden 的博客
-结尾-
◆◆◆