新一代视频AI服务 —— 阿里云智能视觉重磅发布

简介: 3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,本次产品发布会内容涵盖产品特性、应用场景、技术原理解读、开发者实战实操等内容,首次面向全网用户深入的解读了智能视觉的前世今生。 行业背景 随着人工智能的技术不断成熟, AI逐渐在各行业内落地。

3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,本次产品发布会首次面向全网用户深入的解读了智能视觉的前世今生。

行业背景

随着人工智能的技术不断成熟,AI逐渐在各行业内落地。在新零售领域,我们通过物体识别判断货品位置和数量;甚至在养猪场,用AI技术检测养猪的位置及数量等等。然而除了一些非常成熟的基础感知层AI能力如人脸识别、OCR等可以直接应用,实际上绝大部分场景都需要用业务标注数据来进行单独训练的,所以定制化的需求越来越多。每个定制化的模型,都是需要算法工程师通过大量的自身业务标注数据,经过不断的演算、测试、训练,来搭建深度神经网络模型。而实际上传统企业想要自建训练模型又将面临着专业人才十分稀缺、开发落地周期冗长等等困境。

如此一来,如何以最低的成本实现AI技术落地变成了行业急需解决的问题。

新一代视频AI服务——智能视觉

近期,阿里云发布智能视觉产品,帮助零机器学习背景、零算法基础的企业或者开发者们,实现高质量定制化模型训练的快速落地,具备图像分类、物体检测、直播识别等AI能力,可有效应用于视频监控、互联网短视频内容识别归类、新零售物件统计、工业质检等场景。

有了智能视觉,即使零算法基础的开发者,都可以进行页面化一键式训练和预测。通过上传少量业务数据,快速训练定制化模型,最快10分钟完成训练和部署。
image

智能视觉整体的产品架构是:用户通过对象存储OSS导入或本地上传图片训练集,对图像及图像内物体进行标签管理,实现一键训练(目前已经支持图像分类和物体检测),标注好之后一键生成迭代,生成业务定制专属模型,并可以通过迭代来不断完善模型的准召率、精准度,最终以API的形式将模型训练能力快速输出应用于业务之中,同时支持对图片、视频、直播流、监控流等多种格式的预测。
image

智能视觉技术原理

市场上大部分AI的服务是基于图片进行处理,在面对视频的时候,通常把视频按照固定的时间间隔采样出来,批量截取画面并进行结果汇聚。这样对视频的处理方式普遍存在时效性差、稳定差、复杂性高、信息丢失等问题。

基于阿里云视频云团队多年音视频编解码、媒体处理相关技术经验,智能视觉构建全新的面向视频架构:把视频作为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程能够大幅度缩短处理时间,从时间维度提升分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。

image

点击阅读阿里云高级技术专家周源:《面向视频的全新AI架构 ——智能视觉技术全解》全文

智能视觉产品优势

一、少量样本,更高精度

在深度学习层面,在其他条件相同的情况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果一定需要更多的数据,这需要花费大量的人力去标注。

智能视觉采用数据增广策略,增加数据的多样性,加强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增加数据量,同时保持增广数据的真实性,实现了少量数据情况下效果增强10-15%的训练效果,同时有效降低标注数据的人力和时间成本。

二、迁移学习,训练高效

智能视觉运用迁移学习的技术,根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征,并且通过在浅层网络中复用这些基础特征,来减少标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减少数据需求,进一步减少计算量,达到缩短新模型训练时间的效果。大概规模在100张的图片,生成模型只需要10分钟。

三、全面模型效果评估,快速迭代

基于阿里云视频云团队多年丰富的视频处理经验,针对用户训练的模型给出专业的、全面的效果评估,同时用户也可以选择自己上传图片、直播、监控等视频流输入进行校验,如果觉得准确率不够高的话,还可以再次上传数据进行再一次训练,实现快速迭代。

四、全界面化操作,降低人力和时间成本

有了智能视觉,就意味着原本需要众多专业AI和算法工程师才能搭建好的AI模型,现在在控制台上通过简单的点击和上传图片,甚至完全不需要代码,就可以完成了,整个过程操作简单,从数据、模型到接口,一站式服务,全界面化管理,可以节省大量的人力成本和时间成本,实现快速落地。

如何接入智能视觉

在发布会中,智能视觉的产品经理袁华良为网友演示了从零开始搭建一个训练模型的整个过程。

第一步,在阿里云官网智能视觉产品详情页快速了解产品信息,申请开通,审批通过后登录控制台,按照指引完成开通。

image

第二步,首次登陆,点击马上创建模型。

image

第三步,添加模型,上传图片,在图片中进行标注。为了让训练的数据更接近真实效果,建议一个模型至少有2个分类,每个分类的图片不少于15张。上传完成后,点击一键训练即可。

_

第四步,训练结果返回后,可以看控制台中看到准确率、召回率、mAP等数据。当训练结果评估或者校验结果不理想的时候,可以将新图片加入训练集,重新进行标注,进行再一次训练与模型迭代。

image

目前控制台支持本地导入数据,API接口也支持从OSS、直播流、监控流的数据导入,点击查看具体的接入文档详情。

应用场景

智能视觉可应用在视频监控领域,根据监控画面中的内容,判断是否为出现违规现象,如出现车辆,打斗等;同时可以应用在互联网短视频领域,基于图像对内容识别归类,进行精准推送,提升用户的点击率和观看体验;在新零售领域,智能视觉可以检测实体店货架中的货品摆放位置及数量统计,减少巡检工作量。同时,在工业质检、农业养殖、医疗诊断等场景也可以有很好的应用。

image

目前智能视觉在阿里云官网开放公测,用户可以在线提交信息,进行免费试用的申请。我们欢迎各产业的伙伴们与阿里云共建视频领域的AI应用。

阿里云视频云团队具有多年音视频编解码、媒体处理经验,基于人工智能、深度学习技术,通过视频多模态内容理解、结构化分析处理,推出视频审核、视频DNA、视频智能生产、智能视觉等能力,并且与点播、直播、短视频、CDN内容分发、边缘计算组合形成一站式智能视频服务。欢迎大家登陆官网视网膜了解视频AI产品家族

image

欢迎大家扫码加入智能视觉业务咨询钉钉群,与阿里云专家面对面交流。
image

回顾直播发布会
产品详情
申请测试
参与聚能聊话题,赢取奖品

目录
打赏
0
0
0
0
1322
分享
相关文章
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
82 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
90 7
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
70 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
169 25
开源AI守护后厨——餐饮厨房视频安全系统的技术解析
餐饮厨房视频安全系统是一套融合开源AI技术与视频监控的智能化解决方案,涵盖实时检测、行为监测、数据分析、公众透明化及反馈闭环五大模块。系统通过YOLOv8、ResNet等算法实现后厨卫生与操作规范的精准监控,识别率达97%,问题响应时间缩短至秒级。同时支持后厨直播与监管对接,提升消费者信任和管理效率。其灵活开源的特点,为食品行业安全管理提供了高效、透明的新路径,未来可扩展至食品加工等领域。
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
109 8
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
让数据与AI贴得更近,阿里云瑶池数据库系列产品焕新升级
4月9日阿里云AI势能大会上,阿里云瑶池数据库发布重磅新品及一系列产品能力升级。「推理加速服务」Tair KVCache全新上线,实现KVCache动态分层存储,显著提高内存资源利用率,为大模型推理降本提速。
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。
90 25

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等