深入下Ruby中的String

简介:
Ruby语言中的String是mutable的,不像java、C#中的String是immutable的。比如
       str1="abc"
       str2="abc"
在java中,对于字面量的字符串,jvm内部维持一张表,因此如果在java中,str1和str2是同一个String对象。而在Ruby中,str1和str2是完全不同的对象。同样,在java中对于String对象的操作都将产生一个新的对象,而Ruby则是操纵同一个对象,比如:
       str="abc"
       str.concat("cdf")
此时str就是"abccdf"。Ruby对String是怎么处理的呢?我们只谈谈c ruby中的实现,有兴趣的先看看这篇文章《 管窥Ruby——对象基础》。在ruby.h中我们可以看到String对象的结构,Ruby中的对象(包括类也是对象)都是一个一个的struct,String也不能例外:
struct RString {
    struct RBasic basic;
    long len;
    char *ptr;
    union {
      long capa;
      VALUE shared;
    } aux;
};
//ruby.h

    显然,len是String的长度;ptr是一个char类型的指针,指向实际的字符串;然后是一个联合,这个稍后再说。如果你看看ruby.h可以发现,几乎所有定义的对象结构都有一个struct RBasic。显然,struct RBasic包含由所有对象结构体共享的一些重要信息的。看看RBasic:

struct RBasic {
 unsigned long flags;
 VALUE klass;
};
其中的flags是一个多用途的标记,大多数情况下用于记录结构体的类型,ruby.h中预定义了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一个VALUE类型,VALUE也是unsigned long,可以地将它当成指针(一个指针4字节,绰绰有余了),它指向的是一个Ruby对象,这里以后再深入。
    那么联合aux中的capa和shared是干什么用的呢?因为Ruby的String是可变的,可变意味着len可以改变,我们需要每次都根据len的变换来增减内存(使用c中的realloc()函数),这显然是一个很大的开销,解决办法就是预留一定的空间,ptr指向的内存大小略大于len,这样就不需要频繁调用realloc了,aux.capa就是一个长度,包含额外的内存大小。那么aux.shared是干什么的呢?这是一个VALUE类型,说明它是指向某个对象。aux.shared其实是用于加快字符串的创建速度,在一个循环中:
while true do  # 无限重复
a = "str" # 以“str”为内容创建字符串,赋值给a
a.concat("ing") # 为a所指向的对象添加“ing”
p(a) # 显示“string”
end
每次都重新创建一个"str"对象,内部就是重复创建一个char[],这是相当奢侈,aux.shared就是用于共享char[],
以字面量创建的字符串会共享一个char[],当要发生变化时,将字符串复制到一个非共享的内存中,变化针对这
个新拷贝进行,这就是所谓的“copy-on-write"技术。解释了String的内部构造,貌似还没有介绍String是怎么
实现mutable,我们写一个Ruby扩展测试下,我们想写这样一个Ruby类:
class Test
def test
str="str"
str.concat("ing")
end
end
对应的c语言代码就是:
#include < stdio.h >
#include 
" ruby.h "

static  VALUE t_test(VALUE self)
{
  VALUE str;
  str
= rb_str_new2( " str " );
  printf(
" before concat: str:%p, str.aux.shared:%p, str.ptr:%s " n " ,str,
       (RSTRING(str) -> aux).shared,RSTRING(str) -> ptr);
  rb_str_cat2(str,
" ing " );
  printf(
" after concat: str:%p, str.aux.shared:%p, str.ptr:%s " n " ,
       str,(RSTRING(str) -> aux).shared,RSTRING(str) -> ptr);
  
return  self;
}
VALUE cTest;
void  Init_string_hack(){
  cTest
= rb_define_class( " Test " ,rb_cObject);
  rb_define_method(cTest,
" test " ,t_test, 0 );

}
//string_hack.c
   rb_define_class函数定义了一个类Test,rb_define_method将t_test方法以test的名称添加到Test类。在
t_test中,通过rb_str_new2每次生成一个RString结构,然后通过rb_str_cat2将str与"ing"连接起来,添加
了一些打印用于跟踪。利用mkmf产生Makefile,写一个extconf.rb
require 'mkmf'
create_makefile("string_hack");
执行ruby extconf.rb,将产生一个Makefile,执行make,生成一个string_hack.so的链接库。扩展写完了,通过
ruby调用:
require 'string_hack"
t=Test.new
(1..3).each{|i| t.test}
输出:
before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string
从结果可以看出,在str concat之前之后,str指向的位置没有改变,改变的仅仅是str中ptr指向的字符串的值
,看看rb_str_cat2函数的实现就一目了然了:
VALUE rb_str_cat(str, ptr, len)
    VALUE str;
    const char *ptr;
    long len;
{
    if (len < 0) {
        rb_raise(rb_eArgError, "negative string size (or size too big)");
    }
    if (FL_TEST(str, STR_ASSOC)) {
        rb_str_modify(str);
        REALLOC_N(RSTRING(str)->ptr, char, RSTRING(str)->len+len);
        memcpy(RSTRING(str)->ptr + RSTRING(str)->len, ptr, len);
        RSTRING(str)->len += len;
        RSTRING(str)->ptr[RSTRING(str)->len] = '"0'; /* sentinel */
        return str;
    }
    return rb_str_buf_cat(str, ptr, len);
}
VALUE rb_str_cat2(str, ptr)
    VALUE str;
    const char *ptr;
{
    return rb_str_cat(str, ptr, strlen(ptr));
}
//string.c

文章转自庄周梦蝶  ,原文发布时间2007-09-12
目录
相关文章
|
1月前
|
Python
563: String(python)
563: String(python)
|
1月前
|
Python
Python中的字符串(String)
【4月更文挑战第6天】Python字符串是不可变的文本数据类型,可使用单引号或双引号创建。支持连接(+)、复制(*)、长度(len())、查找(find()、index()、in)、替换(replace())、分割(split())、大小写转换(lower()、upper())和去除空白(strip()等)操作。字符串可格式化,通过%操作符、`str.format()`或f-string(Python 3.6+)。字符串以Unicode编码,作为对象拥有属性和方法。熟悉这些操作对处理文本数据至关重要。
39 6
Python中的字符串(String)
|
4月前
|
机器学习/深度学习 监控 安全
Python3.12 新版本之f-string的几个新特性
Python3.12 新版本之f-string的几个新特性
45 0
|
5月前
|
数据安全/隐私保护 Ruby 索引
|
5月前
|
存储 Ruby
|
5月前
|
存储 Ruby
python string 详解
python string 详解
|
Go C语言 Python
Go 语言入门很简单:String
Go 也像 C 语言家族语言一样,使用双引号来声明字符串。 Go 字符串可以使用 双引号(" ")或者 反引号(` `)来创建。双引号用来创建可解析的字符串,但不能用来引用多行,这也是大多数字符串的定义方式。 反引号用来创建原生的字符串,这些字符串可以由多行组成。多用于多行消息,HTML 以及正则表达式。
|
索引 Ruby
【Ruby on Rails全栈课程】2.3 ruby的数据类型--字符串(String)、区间(Range)
1、字符串(String) 字符串是String类的对象。分为单引号字符串和双引号字符串。双引号字符串能支持较多的转义字符以及支持字符串#{}q嵌入变量。实际开发中多用双引号字符串。 (1)字符串嵌入变量用#{ },这个是ruby特有的,经常使用的一个功能。只支持双引号的字符串。
276 0
【Ruby on Rails全栈课程】2.3 ruby的数据类型--字符串(String)、区间(Range)
|
Python
每周一个 Python 模块 | string
目的:包含用于处理文本的常量和类。 string 模块可以追溯到最早的 Python 版本。先前在此模块中实现的许多功能已移至 str 对象方法。string 模块保留了几个有用的常量和类来处理 str 对象。
124 0