python怎样读取文本文件里的中文

想写一段python代码，能每次只读取文本文件中的下一个中文字符，跳过所有英文数字、符号和换行符，而且还不知道文件的编码是GBK还是Unicode，应该怎样写呢？

推荐答案 2015-02-26

#在Windows 环境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以读的方式打开输入文件
for eachLine in fin: #按行读入文件内容
line = eachLine.strip().decode('gbk', 'utf-8') #处理前进行相关的处理，包括转换成Unicode等
print line #打印原始字符
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的编码范围是：\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##打印中文字符追问

想每次只提取一个字，可以吗？

追答print zh ##打印中文字符
这整个字符都得到了改成一个一个的提取应该不难把

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/U2vUUpip92D9x92ipDi.html

其他回答

第1个回答推荐于2016-11-14

file = open('filename.txt','r')
text = file.read() #读取所有文字
text = file.readline() #读取一行文字
text = file.readlinse() #把每一行变成list的一个元素
如果需要里面中文的话，用正则匹配

第2个回答 2015-08-07

读没有问题，主要是输出的问题吧？

相似回答

python怎么读取文本中的汉字答：print data

python对文本文件的读有哪些方法,写有哪些方法?答：使用read函数将文件中的内容全部读取，放在字符串变量txt中。这样操作适合于文本较小，处理简单的情况，当文件较大时，这种方式处理时不合适的。一次性读取较大的文件到内存中，会耗费较多的时间和资源。这时候分批处理效果更好。1.2 方法二 file_name = input("请输入你要打开的文件的完整路径及名称"...

Python读取文件内容的方法有几种答：python读取文本文件内容的方法主要有三种：read()、readline()、readlines()。第一种：read()read()是最简单的一种方法，一次性读取文件的所有内容放在一个大字符串中，即内存中。read()的好处：方便、简单，一次性读出文件放在一个大字符串中，速度最快。read()的坏处：文件过大的时候，占用内存会过...

python怎么提取出文件里的指定内容答：python读取文件内容的方法：一.最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中：all_the_text = open('thefile.txt').read( )# 文本文件中的所有文本all_the_data = open('abinfile','rb').read( )# 二进制文件中的所有数据为了安全起见，最好还是给打开的文件对象指定一...

怎样用Python提取文本中某一段文字答：可以用正则或者切片。处理大文本用正则，效率高。简单提取的话用切片就行了。取出“test”四个字母，需要找前后的标识符，这里可以看做是“one”和“text”中间的字符。1、切片使用方法（注意冒号）：text = 'onetesttext123'right = text[text.find('one') + 3:] # right 结果为“testtext...

python怎么读取txt文件答：如果要读取 txt 文件和 csv 文件的话，使用 pandas 模块很合适；以下代码调试通过：import pandas as pdmydata_txt = pd.read_csv('lucia_test.txt', sep='\n', encoding='utf8')print(mydata_txt)运行效果：

大家正在搜

python读取中文txt文本 python文本文件读取 python中读取文件 python读取data文件 Python读取文件的一段内容 python读取文本内容 python读取文本数据 python逐行读取文件 python处理文本文件