Twitter検索で帰ってくる文字列はFB_XMLCREF?
なのかな?twitter検索からデータを持ってきたいと思ってatomで出力されている検索結果を調べてみたら、FB_XMLCREFで日本語が帰ってきてる。FB_XMLCREFでいいのかな?⽛ってやつ。 Encode.pmにはFB_XMLCREFってオプションがあるからそれで変換すればいいのかなと。
twitter検索ではxml:lang="en-US"で返してるけど、en-USに無い文字列でもCharacter Reference (文字参照;CREF)ってのを使えばどんな文字列でも扱えるって事でいいんだろうか。
変換しないでそのままHTMLなりXMLで表示しちゃえばいいんだろうから便利ちゃー便利だけど、見えない(人間にはわかりにくい)文字列ってのも微妙。
追記
&#12123がはてなでは⽛と表示される(EUC-JP)。 &#12123はUTF-8では(テ)
さらに追記
&#12123ってのはCharacter Reference (文字参照;CREF)ではなくて、numeric character reference(数値文字参照)です。
というわけで
$text =~ s/&#([0-9]+);/chr($1)/ge;
http://www.akatsukinishisu.net/itazuragaki/perl/numeric_charref_to_string.html
http://blog.nyarla.net/2006/06/18/1