面向开发者的2018年AI趋势分析

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 本文从开发者的角度分析2018年AI的趋势:拿来即用的AI领域、算法与技术。例如GANs、ONNX、Zoo、AutoML、语音识别、时间序列分析、NLP、高智能机器人等。

2017年有些人工智能的技术已经变得非常成熟,并已做好了大规模应用的准备。这就是本文将要讨论的问题---介绍当前的工作中能够使用的技术,或者能基于哪些技术来构建自己的创业公司。例如,您可以看到时间序列分析,因为在时间信号处理中,深度学习正在迅速取代以前的技术。但是在这你看不到强化学习,即使它更酷,但依我拙见,它现在还不能用于工业应用。但,它是一个非常具有研究价值的领域。

我将在三篇系列文章中,分别从人工智能研究员、应用机器学习开发人员和普通人三个不同的观点出发,分享我对未来一年在人工智能领域将会发生什么的观点。

生成对抗网络(GANs)

之前我对几年前创建的生成对抗网络保持非常怀疑的态度,即使它这几年进步巨大,尤其在读完数学文章后更加怀疑GAN是否真的了解分布。但是今年这种情况发生了一些变化,首先是新的有趣的架构(如CycleGAN)和数字改进(Wasserstein GAN)让我在实践中尝试使用了GANs,而且它们工作的差不多都很好,在接下来的两个应用程序中,我确信我们可以并且必须使用它们来生成。

首先,我非常喜欢英伟达(NVIDIA)关于生成逼真的全高清图像的研究报告,但是我真正喜欢的是并留下深刻印象的是生成假的色情影片。

b4fd54adf48463a6c1fe0df9555daf8d44e183f2

 其次,它正在被广泛应用到游戏行业,如生成景观,英雄人物,甚至用GANs创建整个世界。而且我们必须意识到这种全新的假货水平,从生成假的影片开始,最后将在网上生成能够以假乱真的人(也许很快就会实现了)。

所有神经网络的独特格式

现代发展的一个问题是,许多不同的框架在做同样的事情,如今,每一家从事机器学习的大公司都拥有自己的框架和其他开源解决方案。

在单独的AI应用中,我们希望使用不同的框架,例如计算机视觉的Cafle2, NLP的PyTorch和一些推荐系统的Tensorkow/Keras。合并它们需要大量的开发时间,它分散了数据科学家和软件开发人员从事更重要任务的注意力。

解决方案必须是一种独特的神经网络格式,可以很容易的从任何框架中获得,然后开发人员能够轻松地部署,科学家可以轻松地使用,在这里我们遇到了ONNX标准:

 9191a1050ac34385ddf7c2679d73c4b018e5ca91

    实际上它只是简单的非循环计算图表格式,但在实践中它给了我们机会部署真正复杂的人工智能的解决方案,我个人认为非常有吸引力的是:人们可以在没有强大的部署工具并且不依靠TensorFlow生态系统的前提下,在PyTorch这样的框架中开发神经网络。

Zoos大爆发

    之前我使用Cafle Zoo的模型进行迁移学习或特性提取,最近发现它就像大型计算机视觉管道的一部分一样。这意味着实际上没有必要训练自己的网络,例如,对于ImageNet对象的识别或局部识别,这些基本的东西可以下载并插入到您的系统中。除了Cafle Zoo之外,还有其他一些框架的Zoo,但让我惊奇的是,你可以在计算机视觉、NLP和加速计信号处理的iPhone上插入模型:

587d8779a53dda756ad18d5f6263f7419c1b64d7

我认为这些Zoos会越来越多,并且会关注像ONNX这样的生态系统,它们会更加集中(同时也会使用ML区块链应用程序进行分散)

AutoML更换管道

设计一个神经网络框架是一个非常痛苦的任务——虽然有时通过叠加卷积层能获得相当好的结果,但是大多数时候需要非常小心的使用直觉和超参数搜索方法设计宽度、深度和超参数,如随机搜索或者贝叶斯优化。特别是当你不在计算机视觉研究时,这意味着没法在ImageNet上完成一些DenseNet模型的训练,但是可以使用一些3D数据分类或多变量时间序列应用。

虽然有很多不同的方法尝试从一个神经网络中创建另一个神经网络架构。但对我来说最好用最干净的是最近的Google研究开发结果:

 408ac68375335dc5c809bb0b13ed0b91ed6bbb28

   他们能够用它来生成比人类设计的网络更好更快的计算机视觉模型!我相信很快会有很多关于这个话题的论文和开源代码。

形式化的智能堆栈

    为了了解这一概念,我大量阅读了俄罗斯系统分析师和AI爱好者的Anatoly Levenchuk的博客。在下图中你可以看到一个能够称为“AI堆栈”的例子:

3a0de561dddff7b587183b47ea5dc948271b0257 

http://www.tvmlang.org/2017/10/06/nnvm-compiler-announcement.html

“AI堆栈”更深层次,在每一个层面都有自己的发展和研究,而不只是由机器学习算法和你最喜欢的框架构成。

我认为人工智能开发行业已经足够成熟,它需要有更多不同的专家。在团队中只有一名数据科学家是远远不够的——你需要不同的人来进行硬件优化、神经网络研究、人工智能编译器、解决方案优化、生产实现。以上人员必须是不同的团队领导,软件架构师(必须分别为每个问题设计上面的堆栈)和管理者。我曾经提到过这个概念,它提供了一些愿景,在未来人工智能领域的技术专家能够成长成什么样子(对于那些想成为人工智能或技术领域的软件架构师的人来说,你需要知道该研究什么)。

基于语音的应用

AI可以用>95%的精确度解决的问题列表其实很短,我认为还有一个领域可以通过努力达到这个标准,那就是语音识别和生成。实际上,从一年前DeepMind的WaveNet发展到最近谷歌开发的Tacotron2,该技术已经进步飞快:

2da3cb729a10cdbd2a079ae1e5588793a264861f

很快,这项技术将会在开放源码中被发布,每个人都能够识别声音并以非常高的准确度生成它。等待我们的是什么?更好的个人助理,自动图书朗读器和谈判抄写员,当然,还有配音。

更加聪明的机器人

我们今天看到的99%的机器人根本不是人工智能,它们只是硬编码或者最好的情况下机器人有一些基于句子分类神经网络的长短期记忆网络(LSTM)和词向量(word2vec)。但是现在最先进的神经语言程序学(NLP)略高于这个水平了。让我们看看Salesforce做了哪些有趣的研究:

57cdb300311d055e3afe45b186d1b62239efa4c3

他们将NLP接口构建到数据库中,克服了现代编码-解码器的自回归模型,不仅只对文字或句子,还对字符进行训练嵌入。

我相信,通过这些开发,我们可以增强我们的机器人,至少在更智能的信息检索和命名实体识别方面,或许也可能,在一些封闭的领域实现完全深度学习驱动的机器人。

时间序列分析现状

    在公共机器学习实验室里,排在Salesforce之后的第二名是严重被低估的Uber AI Labs。不久前,他们发布了一个博客展示了他们对时间序列预测的方法。下图所示,这是一个非常好的将统计特征和深度学习表现结合的例子:

7a23cdd823c09beba4f2c0d41207bf663e7bf4e3

例如使用34-layer 1D ResNet模型诊断心律失常。它最酷的部分是性能:不仅比常见的统计模型更好,甚至诊断准确率优于专业心脏病专家!我最近在深度学习的时间序列分析中做了大量的工作,我可以亲自确保神经网络工作的非常好,你可以很容易地得到比“黄金标准”高5-10倍的性能。

内嵌函数之外的优化

我们如何训练神经网络?说实话,我们大多数人只是使用“Adam()”和标准的学习率。 一些聪明的人选择最合适的优化器,并调整和安排学习速度。 我们总是低估优化的主题,因为我们只需按下“训练”按钮,就只等到我们的网络收敛。 但是在计算能力,内存和开源解决方案方面,我们都拥有几乎平等的机会,而优胜者是那些能够用最短时间获得最佳性能的——这一切都来源于优化。

ef651dce8fe0d1836daa21ecdc9fe1e5772ae78f

一般炒作放缓

424adeca3c76ec64014ef88b78ffa538f0a3c5ed 

                             cdn.aiindex.org/2017-report.pdf

    这幅图能告诉我们什么,尤其是在阅读了这篇文章之后?要开发新的、有价值的东西并从中获得大量的资金并不容易,要考虑到已经有多少开源工具和算法被发布了。我认为,2018年对初创公司来说不是最好的一年,因为有太多的竞争对手和太多的“聪明人”,他们可以利用今天的开源网络并将其部署为移动应用,并称之为初创公司。

今年我们必须专注于基本的事情,而不是快速赚钱——即使我们打算用谷歌的Ratacon来为一些有声读物的初创公司提供语音识别服务,它也不可能是一个简单的web服务,而是与合作伙伴开启业务,通过商业模式来获得一些投资。

总结

我简单地总结一下,有几种技术现在可以用于实际产品:时间序列分析,GANs,语音识别,NLP的一些进展。我们不应该再设计用于分类或回归的基本框架,因为AutoML就能做这些。我希望通过一些优化改进,AutoML能够比以前更快。再加上ONNX和Model Zoo,只需两行代码就能为我们的app加入基本的模型。我认为制作基于AI的应用程序已经变得非常容易,至少在目前最先进的水平上如此,这对整个行业来说都是好事

 

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《30 Amazing Machine Learning Projects for the Past Year (v.2018)

作者:Mybridge

译者:奥特曼,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

目录
打赏
0
0
0
1
1807
分享
相关文章
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
432 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。
309 17
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
2025年AI客服机器人推荐:核心能力与实际场景应用分析
据《2024年全球客户服务机器人行业研究报告》预测,2025年全球AI客服机器人市场规模将超500亿美元,年复合增长率达25%以上。文章分析了主流AI客服机器人,如合力亿捷等服务商的核心功能、适用场景及差异化优势,并提出选型标准,包括自然语言处理能力、机器学习能力、多模态交互能力等技术层面考量,以及行业适配性、集成能力、数据安全、可定制化程度和成本效益等企业维度评估。
108 12
AI人流热力图分析监测技术
通过深度学习算法(如CSRNet)进行实时密度估算和热力图生成,结合历史数据分析预测高峰时段,优化人员调度与促销活动。采用边缘计算减少延迟,确保实时响应,并通过数据可视化工具提升管理决策效率。
140 24
下载量突破400万,百万开发者首选的 AI 编码工具通义灵码是如何炼成的?
下载量突破400万,百万开发者首选的 AI 编码工具通义灵码是如何炼成的?
谈谈AI时代到来以及35岁危机双重压力下,作为一个普通开发者的想法
在AI快速发展的背景下,Java后端开发人员可通过系统学习转型至AI领域。建议步骤包括:1. 学习Python编程;2. 掌握数据处理与分析工具;3. 学习机器学习基础及框架;4. 深入研究深度学习;5. 结合Java与AI技术;6. 参与开源项目和社区;7. 持续更新知识并实践;8. 寻找转型机会。尽管转型需要时间和努力,但前景广阔。
77 4
通义灵码 AI 程序员与开发者结伴编程,全栈开发电商工程的前后端功能需求
当你又收到了项目新需求的时候,可以尝试下载并使用通义灵码,让通义灵码 AI 程序员跟你一起结伴编程,它具备多文件代码修改和工具使用的能力,可以与你结伴协同完成编码任务,如需求实现、缺陷修复、单元测试生成、批量代码修改等,成为你的左膀右臂。下面我们就跟AI程序员结伴编程完成前后端需求的开发吧!
147 0
AI监控智能化客户行为轨迹分析技术
本方案通过目标跟踪技术(如DeepSORT)和多摄像头协作,实时分析顾客在商场内的行为路径,识别高频活动区域,优化商场布局与商品陈列,提供个性化营销服务。基于深度学习与时序数据分析,精准捕捉顾客动线,提升购物体验与销售转化率。
Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置
Languine 是一款面向开发者的 AI 翻译工具,支持 100+ 种语言,自动化翻译流程,提升多语言应用开发效率。
145 15
Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置
智能日志分析:用AI点亮运维的未来
智能日志分析:用AI点亮运维的未来
595 15

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等