この記事は1年以上前に書かれたもので、内容が古い可能性がありますのでご注意ください。
今日はバイト中にExcelファイルを扱う作業があったのですが、その時遭遇した問題について書きたいと思います。
作業内容に関してですが、複数のファイルを統合して重複の無い新しいデータファイルを作成するというものでした。その作業で統合元となるファイルの形式がxlsで、それをRubyで扱いやすいcsvへエクスポートしようとするところで問題に遭遇しました。問題は、「髙」(はしごだか)と言う漢字が「_」(アンダーハイフン)に化けてしまうと言うものです(他にもいくつか化ける文字がありました。。。)。バージョンについてはExel:mac2008 12.2.5を使用していました。文字コードはwindows-932で保存時です。
解決策として、文字化けした箇所を手動で直す方法もあったんですが、文字化けしている文字が「髙」のみでないのでもとのファイルと照らし合わせる必要があります。しかし、参照元となるデータも1万強あったため手動での更新はコストが大きすぎると判断し他の方法を探しました。
色々解決策を探した結果、OpenOfficeでcsv形式に変換すると文字化けが起こらないことに気づきました。この解決にしばらくハマりましたが、定期的に入る作業なので解決する価値はあったと思います。
同じ現象でハマってる人いた場合、この情報が役に立てれば幸いです。
担当: 二瓶 (文字コードUTF-8統一を強く希望)