一、Python中字符串長(zhǎng)度計(jì)算
在Python中,計(jì)算字符串長(zhǎng)度有多種方式。最基本的方式是使用內(nèi)置函數(shù)len()
。該函數(shù)可以計(jì)算字符串中的字符數(shù)量,包括空格、標(biāo)點(diǎn)等。示例代碼如下:
str1 = "Hello world!"
print(len(str1)) # 輸出 12
除了len()
函數(shù),還可以使用字符串對(duì)象的__len__()
方法計(jì)算長(zhǎng)度:
str1 = "Hello world!"
print(str1.__len__()) # 輸出 12
如果需要計(jì)算字符串中不重復(fù)字符的數(shù)量,可以使用set集合。將字符串轉(zhuǎn)換為set集合后,set集合中元素?cái)?shù)量就是不重復(fù)字符的數(shù)量。示例代碼如下:
str1 = "Hello world!"
print(len(set(str1))) # 輸出 10
二、Pyspark中字符串長(zhǎng)度計(jì)算
在Pyspark中,計(jì)算字符串長(zhǎng)度也有多種方式。最常見(jiàn)的方式是使用length()
函數(shù)。
from pyspark.sql.functions import length
df = spark.createDataFrame([(1, "Hello world!")], ["id", "text"])
df = df.withColumn("length", length(df["text"]))
df.show()
運(yùn)行結(jié)果如下:
+---+------------+------+
| id| text|length|
+---+------------+------+
| 1|Hello world!| 12|
+---+------------+------+
除了length()
函數(shù),還有char_lengh()
函數(shù)可以計(jì)算字符串長(zhǎng)度。該函數(shù)只計(jì)算字符串中字符的數(shù)量。示例代碼如下:
from pyspark.sql.functions import char_length
df = spark.createDataFrame([(1, "Hello world!")], ["id", "text"])
df = df.withColumn("length", char_length(df["text"]))
df.show()
運(yùn)行結(jié)果如下:
+---+------------+------+
| id| text|length|
+---+------------+------+
| 1|Hello world!| 12|
+---+------------+------+
三、小結(jié)
無(wú)論是在Python中還是Pyspark中,計(jì)算字符串長(zhǎng)度都非常簡(jiǎn)單。Python中可以使用內(nèi)置函數(shù)len()
或者__len__()
方法,Pyspark中可以使用length()
函數(shù)或者char_length()
函數(shù)。根據(jù)需求選擇相應(yīng)的函數(shù)即可。