Lucene.Net 2.3.1开发介绍 —— 二、分词(六)

简介: 原文:Lucene.Net 2.3.1开发介绍 —— 二、分词(六) Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStringReader类也是在新版本中引入的。
原文: Lucene.Net 2.3.1开发介绍 —— 二、分词(六)

Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStringReader类也是在新版本中引入的。这样改变,导致了2.3.1版本不得不修改2.1版以前的所有分词器。带来的另外一个问题的是,以前的一些现有分词器,拿到这里可能就不能用了。

 

要使用ReadToEnd还有另外一个解决方法——修改Lucene.Net源码。

 

在修改之前,我们需要知道ReusableStringReader作为StringReader的子类,为什么让ReadToEnd方法无效了。先查看.Net Framework StringReader源码关于ReadToEnd方法的那段。

 

 

代码 2.1.3.7

 

Code
 1public override string ReadToEnd()
 2{
 3    string str;
 4    if (this._s == null)
 5    {
 6        __Error.ReaderClosed();
 7    }

 8    if (this._pos == 0)
 9    {
10        str = this._s;
11    }

12    else
13    {
14        str = this._s.Substring(this._pos, this._length - this._pos);
15    }

16    this._pos = this._length;
17    return str;
18}

 

代码 2.1.3.7就是我们要找的源码,对比ReusableStringReader类,发现,在ReusableStringReader类里没有为父类——StringReader——的私有字段"_s"赋值。而赋值的方式就是调用构造函数。ReusableStringReader为什么没有那么做呢?这点是让人看不明白,不过看看它的java版本也就释然了。在java版本中有这么一个类,所以在dot net版本中也就出现了。这个类是完全按照Java代码克隆出来的,是工具转换处理的,翻译人员应该是没注意到这里可以用直接用StringReader,或者注意到了但是为了保持代码的一致性而故意没有转换过来。

 

因为ReusableStringReader实例化的时候给了StringReader一个空值,为了做最小改造,重新实例化StringReader并不是好主意。所以重载一个ReadToEnd方法是个不错的选择。

 

 

代码 2.1.3.8

 

Code
 1/**//// <summary>
 2/// 加入ReadToEnd方法,读取整个流的字符
 3/// </summary>
 4/// <returns>返回读取字符</returns>

 5public override string ReadToEnd()
 6{
 7    string str;
 8    if (this.s == null)
 9    {
10        return string.Empty;    //如果为null,这里本来该报错的
11    }

12    if (this.upto == 0)
13    {
14        //当指针在开始位置,返回整个字符。
15        //在调用了Read方法后,指针就会不在开始位置。
16        str = this.s;
17    }

18    else
19    {
20        str = this.s.Substring(this.upto, this.left - this.upto);
21    }

22    this.upto = this.left;
23    return str;
24}

 

写好了代码2.1.3.8 再次运行 代码 2.1.3.3 ,就OK了,不会出现读不出的问题了。测试一下:

 

搜索词:英语
结果:
content:英语
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
-----------------------------------
搜索词:语法
结果:
content:语法
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
-----------------------------------
搜索词:单词
结果:
content:单词
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
我们要学好英语不但要学语法,单词还有口语。
-----------------------------------
搜索词:口语
结果:
content:口语
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
我们要学好英语不但要学语法,单词还有口语。
-----------------------------------
搜索词:+content:"英" +content:"语" +content:"单" +content:"词"
结果:
+content:英 +content:语 +content:单 +content:词
-----------------------------------

结果和预料的一样,看来修改成功了。既然拿了源码,在用的不舒服的地方适当的修改修改还是很好的,呵呵。

 

当然在制作分词时,这个转换其实也可以不用的。可以直接拿缓冲字符来进行处理,那样速度会将会快那么一点。怎么做,还是大家思考一下吧,呵呵,在高级篇里将会有讲到。

 

现在二元分词器已经可以使用了,当然查询表达式也要跟着改变,如何构造查询表达式,在2.1.2 可以使用的内置分词讲到过一点,更多的还是留着后面讲,要不然内容就全放到分词里了。

 

二元分词比单字分词的优势是很明显的,达到了我们原先的目的:减小干扰。用户搜索的数据其实最好是给一个或者几个结果,而不是动辄上千,那和没筛选没什么区别。做搜索系统,目地就是能自动帮助用户得到他想要的东西,而不是给用户看看你有多少数据。

 

二元分词的劣势也充分地暴露了出来,那就是分词不准确。如果还是以二元分词为基础,尽量地让分词准确的话,可以做一些这样的考虑。比如对于中文数字按单字拆分,而对于某些特殊字,比如“的,啊,吗,呢”等助词也按单字拆分,这样就能用简单的分词来解决实际的。在小型的搜索系统中,二元分词已经足够使用了。如果还要追求更好的效果,那就要用词库匹配了。从自然语言上来说,基于语义分析当然是最好的。但是会产生另外的问题,因为分析业务的复杂,导致开发难度的加大运行速度变慢,这些都是使用时需要考虑的问题。

 

作为分词在一个阶段的结束篇,总感觉有点虎头蛇尾的味道。而如果现在讲基于词库,语言方面的分词感觉还是早了点,因此,这里就匆匆收笔,准备进入索引部分的探索。关于分词更加详细的应用将会在高级篇里展开。

目录
相关文章
|
13天前
|
人工智能 量子技术 C#
【专栏】.NET 开发:开启数字化新时代
【4月更文挑战第29天】.NET开发在数字化新时代中发挥关键作用,借助跨平台能力、高性能和现代编程语言支持,如C#,助力企业实现数字化转型。通过企业级应用开发、移动应用和云计算集成,.NET加速业务流程和提升用户体验。未来,.NET将涉足AI、ML、MR/AR及量子计算,持续推动技术创新和数字化转型。开发者应提升技能,适应高性能需求,把握发展机遇。
|
13天前
|
缓存 监控 算法
【专栏】.NET 开发:实现卓越性能的途径
【4月更文挑战第29天】本文探讨了.NET开发中的性能优化,强调了理解性能问题根源和使用分析工具的重要性。基础优化包括代码优化(如减少计算、避免内存泄漏)、资源管理及选择合适算法。高级策略涉及并行编程、缓存策略、预编译(AOT)和微服务架构。持续性能测试与监控是关键,包括性能测试、监控分析和建立优化反馈循环。开发者应持续学习和实践性能优化,以构建高性能应用。
|
13天前
|
开发框架 .NET C#
【专栏】理解.NET 技术,提升开发水平
【4月更文挑战第29天】本文介绍了.NET技术的核心概念和应用,包括其跨平台能力、性能优化、现代编程语言支持及Web开发等特性。文章强调了深入学习.NET技术、关注社区动态、实践经验及学习现代编程理念对提升开发水平的重要性。通过这些,开发者能更好地利用.NET构建高效、可维护的多平台应用。
|
13天前
|
机器学习/深度学习 vr&ar 开发者
【专栏】.NET 技术:引领开发新方向
【4月更文挑战第29天】本文探讨了.NET技术如何引领软件开发新方向,主要体现在三方面:1) 作为跨平台开发的先锋,.NET Core支持多操作系统和移动设备,借助.NET MAUI创建统一UI,适应物联网需求;2) 提升性能和开发者生产力,采用先进技术和优化策略,同时更新C#语言特性,提高代码效率和可维护性;3) 支持现代化应用架构,包括微服务、容器化,集成Kubernetes和ASP.NET Core,保障安全性。此外,.NET还不断探索AI、ML和AR/VR技术,为软件开发带来更多创新可能。
|
13天前
|
物联网 vr&ar 开发者
【专栏】.NET 技术:为开发注入活力
【4月更文挑战第29天】本文探讨了.NET技术的创新,主要体现在三个方面:1) .NET Core实现跨平台开发革命,支持多种操作系统和硬件,如.NET MAUI用于多平台UI;2) 性能提升与生产力飞跃,C#新特性简化编程,JIT和AOT优化提升性能,Roslyn提供代码分析工具;3) 引领现代化应用架构,支持微服务、容器化,内置安全机制。未来,.NET 7将带来更多新特性和前沿技术整合,如量子计算、AI,持续推动软件开发创新。开发者掌握.NET技术将赢得竞争优势。
|
13天前
|
人工智能 前端开发 Cloud Native
【专栏】洞察.NET 技术的开发趋势
【4月更文挑战第29天】本文探讨了.NET技术的三大发展趋势:1) 跨平台与云原生技术融合,通过.NET Core支持轻量级、高性能应用,适应云计算和微服务;2) 人工智能与机器学习的集成,如ML.NET框架,使开发者能用C#构建AI模型;3) 引入现代化前端开发技术,如Blazor,实现前后端一致性。随着.NET 8等新版本的发布,期待更多创新技术如量子计算、AR/VR的融合,.NET将持续推动软件开发的创新与进步。
|
13天前
|
开发框架 物联网 测试技术
【专栏】.NET 开发:打造领先应用的基石
【4月更文挑战第29天】本文探讨了.NET开发框架为何成为构建领先应用的首选。高性能与稳定性是.NET的核心优势,它采用先进的技术和优化策略,如.NET Core的轻量级设计和JIT/AOT编译模式。跨平台兼容性让开发者能用相同代码库在不同操作系统上构建应用。现代化的开发体验,如C#语言的创新特性和Visual Studio的强大工具,提升了开发者生产力。丰富的生态系统和广泛支持,包括庞大的开发者社区和微软的持续投入,为.NET提供了坚实后盾。
|
13天前
|
人工智能 前端开发 Devops
【专栏】洞察.NET 技术在现代开发中的作用
【4月更文挑战第29天】本文探讨了.NET技术在现代软件开发中的核心价值、应用及挑战。.NET提供语言统一性与多样性,强大的Visual Studio工具,丰富的类库,跨平台能力及活跃的开发者社区。实际应用包括企业级应用、Web、移动、云服务和游戏开发。未来面临性能优化、容器化、AI集成等挑战,需持续创新。开发者应深入理解.NET,把握技术趋势,参与社区,共创美好未来。
|
13天前
|
机器学习/深度学习 人工智能 开发者
【专栏】.NET 技术:为开发带来新机遇
【4月更文挑战第29天】本文探讨了.NET技术如何为软件开发带来新机遇,分为三个部分:首先,.NET的跨平台革命,包括.NET Core的兴起、Xamarin与.NET MAUI的移动应用开发、开源社区的推动及性能优化;其次,介绍了云服务与微服务架构的集成,如Azure云服务、微服务支持、DevOps与CI/CD,以及Docker容器化;最后,讨论了AI与机器学习集成,如ML.NET、认知服务、TensorFlow和ONNX,使开发者能构建智能应用。面对这些机遇,开发者应不断学习和适应新技术,以创造更多价值。
|
13天前
|
算法 Java 编译器
【专栏】.NET 开发:实现高效能的秘诀
【4月更文挑战第29天】本文探讨了提升.NET应用性能的三个方面:理解.NET运行时(垃圾回收、JIT编译器、异步编程和线程并发)、优化代码与算法(代码细节、数据结构选择和算法效率)以及利用工具和框架(性能分析工具、高性能库和CI/CD流程)。通过深入学习、合理设计和有效工具,开发者可实现.NET应用的高效能。