Rjb 1.0.8: JRuby 互換モードで JRuby より高速な事例

Rjb 1.0.8 リリース!

Rjb 1.0.7: java.lang.Long に関して不具合?

http://d.hatena.ne.jp/hfu/20070916/1189834339

との本ブログからの報告に対し、Rjb 作者の arton さんが迅速に対応してくださいました:

ぐわ、java.lang.Longを忘れてた。御指摘感謝

http://arton.no-ip.info/diary/20070915.html#p02

早速試してみました。結論から報告いたしますと、私のプログラムは無事に実行できました。しかも、処理時間が 18% 程度圧縮される効果も見られました。

[geotools.rb]Rjb 1.0.8 primitive_conversion を導入してみました

すでに 1.0.8 も RubyGems に入っているので、簡単に導入できます:

hfu:~$ export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.5.0/Home 
hfu:~$ sudo gem update rjb
Password:
Updating installed gems...
Need to update 23 gems from http://gems.rubyforge.org
.......................
complete
Attempting remote update of rjb
Select which gem to install for your platform (i686-darwin8.9.1)
 1. rjb 1.0.8 (ruby)
 2. rjb 1.0.8 (mswin32)
 3. rjb 1.0.7 (ruby)
 4. rjb 1.0.7 (mswin32)
 5. Skip this gem
 6. Cancel installation
> 1
Building native extensions.  This could take a while...
Successfully installed rjb-1.0.8
Gems: [rjb] updated

Rjb 1.0.8 導入後の geotools.rb の実行結果は、以下のようになりました:

hfu:~$ ruby geotools.rb
DEBUG: rjb primitive_conversion mode
168.885798 sec.

実行速度比較

プログラム geotools.rb (本エントリ末尾に掲載) の実行時間をまとめると、以下のようになります。

JRuby による処理 206秒
Rjb による処理 (プリミティブ型クラスの変換を geotools.rbRuby レベルで記述) 206秒
Rjb による処理(プリミティブ型クラスの変換を Rjb に任せる) 169秒

Rjb 1.0.8 の primitive_conversion = true モードを使うことにより、Rjb のユーザは、

  1. プリミティブ型クラスを自動的に Ruby のクラスに変換する JRuby 互換の挙動
  2. プリミティブ型クラスの変換を C レベルから行うことによる 18% 程度のパフォーマンスの向上

の2つの利点を得られることになります。arton さん、ありがとうございます!

現時点の geotools.rb のコード

# this code is under development and subject to major change.
require 'iconv'

module Geo
  # Geo::Tools module, to include nesessary classes from Geotools
  module Tools
    QUALIFIED_NAMES = %w{java.lang.String java.lang.Integer java.lang.Double java.lang.Long java.io.File org.geotools.data.shapefile.ShapefileDataStore org.geotools.feature.AttributeTypeFactory org.geotools.feature.FeatureTypeBuilder org.geotools.feature.type.GeometricAttributeType com.vividsolutions.jts.io.WKTReader org.geotools.referencing.crs.EPSGCRSAuthorityFactory org.geotools.referencing.operation.DefaultCoordinateOperationFactory org.geotools.geometry.DirectPosition2D}
    begin
      require 'rjb'
      QUALIFIED_NAMES.each do |qn|
        sn = qn.split('.').last
        module_eval "#{sn} = Rjb::import('#{qn}')"
      end
      IMPLEMENTATION = 'rjb'
    rescue LoadError
      require 'java'
      QUALIFIED_NAMES.each do |qn|
        include_class qn
      end
      IMPLEMENTATION = 'java'
    end
  end

  # Geo module variables
  @@wkt_reader = nil
  @@epsg_crs_authority_factory = nil

  # Geo module 'good-wrapper' / 'Grossklasstum' classes
  class Reader
    if Tools::IMPLEMENTATION == 'java'
      print "DEBUG: jruby mode\n"
      def iterate # same as the one for rjb 1.0.7 #TODO: DRY
        while(@iter.hasNext)
          feat = @iter.next
          attrs = {}
          feat.getNumberOfAttributes.times do |i|
            attr = feat.getAttribute(i)
            attrs[@attr_names[i]] = attr
          end
          attrs.delete('the_geom') # TODO: avoid getting the_geom > whitelisting!
          yield feat.getDefaultGeometry, attrs
        end
      end
    else
      begin
        Rjb::primitive_conversion = true
        print "DEBUG: rjb primitive_conversion mode\n"
        def iterate # same as the one for jruby #TODO: DRY
          while(@iter.hasNext)
            feat = @iter.next
            attrs = {}
            feat.getNumberOfAttributes.times do |i|
              attr = feat.getAttribute(i)
              attrs[@attr_names[i]] = attr
            end
            attrs.delete('the_geom') # TODO: avoid getting the_geom > whitelisting!
            yield feat.getDefaultGeometry, attrs
          end
        end
      rescue NoMethodError
        print "DEBUG: rjb conventional mode\n"
        def iterate
          while(@iter.hasNext)
            feat = @iter.next
            attrs = {}
            feat.getNumberOfAttributes.times do |i|
              attr = feat.getAttribute(i)
              if attr.getClass.equals(Tools::Integer)
                attr = attr.intValue
              elsif attr.getClass.equals(Tools::Double)
                attr = attr.doubleValue
              elsif attr.getClass.equals(Tools::String)
                if @sjis_workaround
                  attr = Iconv.conv('UTF-8', 'Shift_JIS', attr.getBytes('iso-8859-1'))
                else
                  attr = attr.toString
                end
              elsif attr.getClass.equals(Tools::Long)
                attr = attr.longValue
              end
              attrs[@attr_names[i]] = attr
            end
            attrs.delete('the_geom' )# TODO: avoid getting the_geom > whitelisting!
            yield feat.getDefaultGeometry, attrs
          end
        end
      end
    end

    ## TODO: implement attribute whitelist filtering (for better performance)
    def Reader::foreach(shapefile, sjis_workaround = false)
      r = Reader.new(shapefile, sjis_workaround)
      r.iterate do |geom, attrs|
        yield geom, attrs
      end
      r.close
    end

    def initialize(shapefile, sjis_workaround)
      if(Tools::IMPLEMENTATION == 'java' && sjis_workaround)
        raise "sjis_workaround for JRuby is not implemented."
      end
      store = Tools::ShapefileDataStore.new(Tools::File.new(shapefile).toURL)
      @iter = store.getFeatureSource.getFeatures.features
      feat_type = store.getFeatureSource.getSchema
      @attr_names = []
      feat_type.getAttributeCount.times do |i|
        @attr_names << feat_type.getAttributeType(i).getName
      end
      @sjis_workaround = sjis_workaround
    end

    def close
      @iter.close
    end
  end

  class Writer
    def Writer::open(shapefile)
      w = Writer.new(shapefile)
      yield w
      w.close
    end

    def initialize(shapefile)
      @shapefile = shapefile
      @writer = nil
      @first = true
    end
    
    def setup(geom, attrs)
      attrs.delete('the_geom')
      ftb = Tools::FeatureTypeBuilder.newInstance(@shapefile)
      attrs.each do |key, value|
        if value.methods.include?('_classname')
          attr_class = value.getClass
        elsif value.class == String
          attr_class = Tools::String
        elsif value.class == Fixnum
          attr_class = Tools::Integer
        elsif value.class == Float
          attr_class = Tools::Double
        else
          raise "attribute #{key} has unrecognizable class #{value.class}"
        end
        ftb.addType(Tools::AttributeTypeFactory.newAttributeType(key, attr_class))
      end
      if geom.class == String
        geom = import_wkt_geometry(geom)
      end
      ftb.setDefaultGeometry(Tools::GeometricAttributeType.new('the_geom', geom.getClass, true, nil, nil, nil))
      ft = ftb.getFeatureType
      store = Tools::ShapefileDataStore.new(Tools::File.new(@shapefile).toURL)
      store.createSchema(ft)
      @writer = store.getFeatureWriter(@shapefile, store.getFeatureSource(@shapefile).getTransaction)
      @first = false
    end
    private :setup

    def write(geom, attrs)
      setup(geom, attrs) if @first
      feat = @writer.next
      if geom.class == String
        geom = import_wkt_geometry(geom)
      end
      feat.setDefaultGeometry(geom)
      attrs.each do |key, value|
        feat.setAttribute(key, value)
      end
      @writer.write
    end

    def close
      @writer.close unless @writer == nil
    end
  end

  class Transform
    def initialize(src_crs, dst_crs)
      cof = Geo::Tools::DefaultCoordinateOperationFactory.new
      @co = cof.createOperation(src_crs, dst_crs)
      @mt = @co.getMathTransform
    end

    def transform(x, y) # z?
      r = Geo::Tools::DirectPosition2D.new
      @mt.transform(Geo::Tools::DirectPosition2D.new(x, y), r)
      return r.x, r.y
    end

    ## TODO: def transform(geom)
    ## TODO: accessor to @mt or @co
  end

  # Geo module convenient methods
  def Geo::import_wkt_geometry(wkt)
    @@wkt_reader = Geo::Tools::WKTReader.new if @@wkt_reader == nil
    @@wkt_reader.read(wkt)
  end

  def Geo::import_epsg_crs(epsg_code)
    @@epsg_crs_authority_factory = Geo::Tools::EPSGCRSAuthorityFactory.new if @@epsg_crs_authority_factory == nil
    if epsg_code.class == Fixnum
      return @@epsg_crs_authority_factory.createCoordinateReferenceSystem("EPSG:#{epsg_code}")
    elsif epsg_code.class == String
      return @@epsg_crs_authority_factory.createCoordinateReferenceSystem(epsg_code)
    else
      raise "Geo::import_epsg_crs: can not handle epsg_code = #{epsg_code}"
    end
  end

  def dms2dec(d, m, s)
    d + m / 60.0 + s / 3600.0
  end

  def dec2dms(dec)
    #TODO
    raise "not implemented."
  end
end

# ad hoc tests
if __FILE__ == $0
  ## TODO: better separate tests as unit tests.
  start_time = Time.now
  Geo::Writer.open('test.shp') do |w|
    Geo::Reader.foreach('transl_1_1.shp', false) do |geom, attrs|
      w.write(geom, attrs)
    end
  end
  print "#{Time.now - start_time} sec.\n"
  
  exit # ここから下は別の話題
  ix = Geo::import_epsg_crs(2451)       # EPSG:2451 - 平面直角座標系 IX 系
  wgs84 = Geo::import_epsg_crs(4326)    # EPSG:4326 - WGS84
  
  t = Geo::Transform.new(ix, wgs84)     # IX 系から WGS84 への座標変換器
  t_inv = Geo::Transform.new(wgs84, ix) # WGS84 から IX 系への座標変換器
  
  pt = t.transform(0, 0)                 # IX 系の原点を WGS84 に座標変換
  pt_inv = t_inv.transform(pt[0], pt[1]) # その点を IX 系に戻す。元に戻るか?
  
  print "IX origin is #{pt.inspect} in WGS84\n"
  print "#{pt_inv.inspect} must be (0, 0)\n"
end

今日の TODO

せっかく arton さんに高速化していただいているのに、Geo::Reader では the_geom 属性をわざわざ取得しておいて捨てるという無駄をしていることに気がついたので、ここの対処をしたいと考えています。