python 3.x聽說已經是自動全部轉換成unicode
把幾個點po上來
1.
如果第一行沒有加
#coding=utf-8
註解就不能夠打中文
例如:
#中文
2.
編譯器要注意, 我是使用notepad++
可以發現u"股票", 會出現error
另外即使編碼成功,
也可以從unicode字元長度測試出來
(有關於unicode, 字元長度, 我這邊不多說 因為我也沒有完全懂 大家可以自行google)
如果沒有特別設定的話, notepad++會使用ASCII編碼
所以編碼設定要記得改成utf-8
3.
如果妳前兩個步驟都做了
這時你有使用u"字串" 與"字串"
字元長度就會不同,
因為BeautifulSoup輸出都是unicode, 所以如果要compare的話,
要把字串換成unicode
就要把"字串"換成 u"字串"
以上是今天的心得
Kled
補充
回覆刪除如果當要寫入檔案的時候,
要讓csv檔打開, 中文不會顯示亂碼的話,
要encode成Big5
用法就是"字串".encode('Big5', 'ignore')
後面的ignore是為了怕Big5的字庫不足 (例如:宏碁的碁 unicode可以找到, big5沒有, 此時就會發生encode錯誤), 如果不介意的話, 就用ignore即可