Twitter検索で帰ってくる文字列はFB_XMLCREF？ - 岩手からこんにちは ☆彡 perl とかウェブ系なブログ

なのかな？twitter検索からデータを持ってきたいと思ってatomで出力されている検索結果を調べてみたら、FB_XMLCREFで日本語が帰ってきてる。FB_XMLCREFでいいのかな？⽛ってやつ。　Encode.pmにはFB_XMLCREFってオプションがあるからそれで変換すればいいのかなと。

twitter検索ではxml:lang="en-US"で返してるけど、en-USに無い文字列でもCharacter Reference (文字参照;CREF)ってのを使えばどんな文字列でも扱えるって事でいいんだろうか。

変換しないでそのままHTMLなりXMLで表示しちゃえばいいんだろうから便利ちゃー便利だけど、見えない（人間にはわかりにくい）文字列ってのも微妙。

追記
＆＃１２１２３がはてなでは⽛と表示される(EUC-JP)。　＆＃１２１２３はUTF-8では（テ）

さらに追記
＆＃１２１２３ってのはCharacter Reference (文字参照;CREF)ではなくて、numeric character reference（数値文字参照）です。
というわけで

$text =~ s/&#([0-9]+);/chr($1)/ge;