岩手からこんにちは ☆彡 perl とかウェブ系なブログ

はてなダイアリーからひっこしましたよ http://d.hatena.ne.jp/rosiro

Twitter検索で帰ってくる文字列はFB_XMLCREF?

なのかな?twitter検索からデータを持ってきたいと思ってatomで出力されている検索結果を調べてみたら、FB_XMLCREFで日本語が帰ってきてる。FB_XMLCREFでいいのかな?⽛ってやつ。 Encode.pmにはFB_XMLCREFってオプションがあるからそれで変換すればいいのかなと。

twitter検索ではxml:lang="en-US"で返してるけど、en-USに無い文字列でもCharacter Reference (文字参照;CREF)ってのを使えばどんな文字列でも扱えるって事でいいんだろうか。

変換しないでそのままHTMLなりXMLで表示しちゃえばいいんだろうから便利ちゃー便利だけど、見えない(人間にはわかりにくい)文字列ってのも微妙。

追記
&#12123がはてなでは⽛と表示される(EUC-JP)。 &#12123はUTF-8では(テ)

さらに追記
&#12123ってのはCharacter Reference (文字参照;CREF)ではなくて、numeric character reference(数値文字参照)です。
というわけで

$text =~ s/&#([0-9]+);/chr($1)/ge;

http://www.akatsukinishisu.net/itazuragaki/perl/numeric_charref_to_string.html
http://blog.nyarla.net/2006/06/18/1