语义的未来【OpenSourceCamp讲稿】

简介:

 按照官方的说法,“OpenSourceCamp  是一个在开放环境中以非正式的会议方式进行知识,技术的交流活动形式。开发者,Blogger, 创业者,Geek, 等等都可以在这里 分享他们的想法,Demos, 并与每一个参与者进行互动交流。”

    但Camp更像是个Geek们的世界,和我们这种见惯了“商务人士”会谈的似乎格格不入。

    我还是把本来为了OpenSourceCamp准备的讲稿分享一下,欢迎来访。写得浅显,没有什么术语,主要是为了告诉大家语义技术并不高深,它最终可能像ajax一样是技术人员的一个辅助工具、是网站的一个功能亮点。
    本来已经传到slideshare,但那里转换模糊了,而且不知道如何加上旁白。所以就还是回归原始了:

What is a Semantic App?
什么是语义应用呢? 


是语义搜索吗?

是语义网吗?
这两个词儿说出来后,任何一个 VC 都要上下打量你好几眼,随时准备塞钱给你。
我们下面给出一个大家都看得懂的定义, 

大致的意思就是,试图理解文本和其他数据的意思,并为用户创建某种关联。

 

现在基本可以分为两种做法:
这是第一种, Bottom-Up 
自下而上的研究方法。这是传统意义上的语义研究方向,真的是引无数英雄竞折腰。
也就是说,对现有的互联网的大量信息,进行注解,凭空在互联网之上构建一层知识体系,只不过 这是给机器看的,试图让机器理解它们。这些注解以 RDF OWL 这种结构化的东西来保存。
由于海量数据、人类语言的复杂性、以谁为中心、如何制定并推广标准的标准等固有的问题,所以 我的基本判断是,这是一个大坑。搞语义网的兄弟们,对不起啦!
所以,今天我们不谈 Bottom-Up 的语义应用。

 

还有一种方法,是自上而下的。
什么叫做 Top-down
简单地说,就是选定一个特定的垂直语义应用,然后根据已有的互联网碎片,经过语义加工之后, 通过一个面向消费者的平台给出结果。
这么说可能不容易理解。我们用最快时间稍微举几个国外的例子。
 
P owerset.com 是一个传说中的杀手级应用。很少有人看到她的真面目。凭借语义搜索这个概念,没 有任何产品出来的情况下,吸引了西方那些精英博客门的很多眼球,拿到了几千万美金的一轮又一 轮投资。我申请了测试,但也还没拿到邀请。有人测试过,说目前还只是填空式问题,然后搜索。
H akia 的口号是, Search for meaing 。她出来时间比较长了。测试效果也还不错。
这些都属于语义搜索的范畴。也算是 Top-down 的一个方向。
在中国,也有不少人凭借语义搜索的概念拿到了投资。譬如小 i 机器人的两千万美金,语义搜索的画 饼功不可没。前不久,一个风险投资人也在会谈中问我,你们能改作语义搜索吗?呵呵。
我的基本判断是,第一,暂时看不到强烈的需求,当然有人说了,不能听用户的,要帮助用户发现 需求。第二,这事儿吧几千万经不起花。语义搜索也是一个大坑。
Google 最近也刚把一位顶尖高手从语义网的项目中调走,引得 TechCrunch 哀叹道:别指望很快看 google 的语义搜索了。
 
     Kango.com 是我最近一直在研究的网站。这是一个旅游指导网站。国外的旅游市场是一个繁荣的市 场。作为最近几个月刚冒头的新网站,而且还没有公开运营,她提供什么差异化的东西呢? 
     Kango 能按照个人的旅游需求或偏好,返回酒店和旅游活动的旅游搜索引擎 。更重要的是,她可以 帮助你安排旅游行程。
她分析了数以百万计的博客和社区文章,从中提取语义从而分析出人们口碑中的哪些酒店适合家庭 出游或允许带宠物的,哪些旅游景点是浪漫的或者刺激的。
     我先插个小话题,语义说来说去,是要靠自然语言处理研究的,那么自然语言处理都包括哪些基本 技术呢?不知道这个,可能不足以理解 Kango 的指导意义。 

 
两个核心问题,语言的自动理解( Language Understanding )和自动生成( Language Generation
前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思。
后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。
 
回到 Kango
这张图是我测试以浪漫假期设定去火奴鲁鲁旅游的结果。
 
Kango 最让人期待的是它 主观 的处理搜索结果的技术。 Kango 正在开发一个 基于语义的旅游垂直 搜索引擎 semantic search engine )。这个搜索引擎通过分析处理( parse )用户评论和旅游介绍 中的文字 / 语言,然后产生 tag 把旅游目的地酒店景点分类。  “ 你不能坐等用户来加 tag ,你必须自己 先产生一部分的 tag  CEO Yen Lee 解释。所以,如果一个酒店在网上(例如 Yahoo Travel TripAdvisor ,或者 Yelp )被用户用 完美 放松 夫妻 蜜月 或者 SPA 这些词语谈论道,它 就会在一个 浪漫假期 的搜索结果中排名较高。 如果一个酒店和 厨房 游泳池  或者 孩子 系在一起,那么它在 家庭旅游 的搜索结果中排名就较高。
这样的技术是否能把用户从其他的旅游网站吸引过来,现在还是一个未知数。但是 Kango 的管理团 队有着非常优良的 血统  Lee Yahoo Travel  的前任总经理,公司的搜索架构师 Huanjin Chen  ebay search architect ,自然语言搜索科学家,  Boris Galitsky 曾经为英国政府工作;市场总监 Elliott Ng,  Intuit QuickBook 的市场总监,以及上市公司 Netcentvies 的创始人之一。
 
面对大洋彼岸越烧越旺的语义之火,国内是个什么情况呢?语义应用到了什么地步呢?
我只说我了解的情况,大家要是知道更多请随时举手补充。
 
中国雅虎人际网络的人际关系计算。做起来其实蛮简单的。主要是实体词的准确提取,以及表达关 系的词的词性判断,可以手工收集也可以自动训练机器。
大旗口碑榜的正面、负面经验的判断。做起来更简单。分类就搞得定。但是如果她的正面经验三条 和负面经验三条,不是编辑手工作的话,那就属于语法分析的高手了。要知道截取帖子中的正面评 价不是不可以,但机器截取的准确率是不高的。 
网易有道的判断博客男女,属于分类技术。
网易有道和搜狗对文字的判语,属于分类技术。
CIC 监控网络对大品牌的舆情。
玩聚监控博客论坛新闻视频,自动找到热点,并把谈论此热点的博客论坛新闻视频都聚合到一个故 事中。
宝聚监控财经论坛、门户、博客等等,统计市场各方对大盘对个股对基金的多空比例以及短线中线 操作意见。
谢谢!郑昀 2007122
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
机器翻译语义层面
机器翻译语义层面
12 1
|
3月前
|
存储 机器学习/深度学习 人工智能
大模型词向量语义
在自然语言处理任务中,词向量(Word Embedding)是表示自然语言里单词的一种方法,即把每个词都表示为一个N维空间内的点,即一个高维空间内的向量。通过这种方法,实现把自然语言计算转换为向量计算。
|
9月前
|
机器学习/深度学习 编解码 数据可视化
基于深度学习的多光谱图像语义分割
基于深度学习的多光谱图像语义分割。
168 0
|
11月前
|
机器学习/深度学习 编解码 算法
全新语义分割方法SegViT | 沈春华老师团队提出全新语义分割方法(一)
全新语义分割方法SegViT | 沈春华老师团队提出全新语义分割方法(一)
299 0
|
11月前
|
机器学习/深度学习 编解码 人工智能
关于语义分割的亿点思考
关于语义分割的亿点思考
195 0
|
11月前
|
传感器 机器学习/深度学习 数据采集
CMNEXT: 基于编解码架构的强大语义分割基线,解锁多模态语义分割的正确姿势!
CMNEXT: 基于编解码架构的强大语义分割基线,解锁多模态语义分割的正确姿势!
87 0
|
12月前
|
机器学习/深度学习 计算机视觉
CVPR 2019|CFNet:语义分割中的共现特性
作者发现图像中存在🚀共现特征(即输入图像中与目标特征共同出现的特征)。比如在城市景观图像中,很难分辨的出海洋、湖泊、江河,但是当有帆船在图片上的时候,出现海洋的可能性很大。
66 0
|
机器学习/深度学习 算法
语义分割的几种算法
语义分割的几种算法
154 0
|
机器学习/深度学习 编解码 算法
语义分割项目详解
语义分割项目详解
269 0
语义分割项目详解
|
机器学习/深度学习 编解码 算法
全新语义分割方法SegViT | 沈春华老师团队提出全新语义分割方法
全新语义分割方法SegViT | 沈春华老师团队提出全新语义分割方法
299 0
全新语义分割方法SegViT | 沈春华老师团队提出全新语义分割方法