首页 微博热点 正文

吉利博越,自然语言理解身后的计算机科学,玄凤鹦鹉

本文为 AI 研习社编译的技能博客,原标题 :

The Data Science Behind Natural Language Processing

作者 | John Thuma

翻译 | luyao777

校正 | Pita 审阅 | 酱番梨 收拾 | 立鱼王

原文链接:

https://medium.com/dataseries/the-data-science-behind-natural-language-processing-69d6df06a1ff

人类交流是能感知到的最诱人的特性之一。作为人类的一员,我知道人类之间怎么互动是极端杂乱的。咱们常常发送和接纳过错的信息,或许咱们的信息会被别人误解。每天咱们都天经地义地以为自己有才能向搭档和家人传达意义。咱们用各式各样的方法交流,包含攀谈和书写符号。人与人之间的交流能够像vagant隔着房间看一眼那胡富国么简略。斯坦福大学机器学习教授克里斯•曼宁将交流描绘为“一个离散乡野春潮孙易的、符号的、分类的信号体系”。这是什么意思呢?我以为是咱们的感官,如视觉、触觉、听觉,乃至是嗅觉,使咱们能够交流。这让我想到了这篇博客的主题:当咱们把核算归入考虑规模时会发作什么?什么是自然言语处理?它是怎么作业的?

中老年会所
吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉
同志video 吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉

自然言语处理 (NLP) 是核算机科学和人工智能范畴的一门学科。NLP 是人与机器之间的交流, 它既能解说咱们的意思, 也能构建有用的反响。这个范畴现已从上世纪50时代就存在了, 你或许听说过的艾伦图灵开发的"图灵测验" 。图灵测验衡量核算机对人类书面问题的反应。假如一个独立的人不能分辩一个人和一台机器的差异, 那么喻可欣核算体系就会被评为智能。从上世纪5offset0时代以来, 咱们取得了长足的前进, 数据科学和言语学范畴也取得了很大开展。本文的其余部分具体介绍了这些算法在自然言语处理范畴的一些根本功用,一起将包含一些运用 Python 的代码示例。

符号化

为了开端自然言语处理, 咱们将从一些十分简略的文本解析开端。符号化是提取文本流的一个进程, 如一个语句, 并将其分解为其最根本的单词。例如, 取以下语句:“he red fox jumps over the moon .”每个单词都代表一个符号, 其间共有七个。

运用Python符号语句:

myText = ‘The red fox jumps over the moon.’

myLowerText = myText.lower

myTextList = myLowerText.split

print(myTextList)

OUTPUT:

[‘the’, ‘red’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘moon’]

词性归类

词性归类用于确认句法功用。在英语中, 词性的首要部分是: 形容词、代词、名词、动词、副词、前置词、连词和感叹词。这是用来揣度根据它的单词的目的。例如, PERMIT 一词可所以一个名词和一莫丁汀个动词。动词用法:“I permit you to go to the dance.” 名词用法:“Did you get the permit from the county.”

运用Python剖析部分语音 :(运用 NLTK 库)

您或许需求装置 NLTK, 它是用于自然言语处理的 Python 库。关于 NLTK 的阐明: https://www.geeksforgeeks.org/part-speech-tagging-stop-words-using-nltk-python/

import nltk

myText = nltk.word_tokenize(‘the red fox jumps over the moon.’)

print(‘Parts of Speech: ‘, nltk.pos_tag(myText))

OUTPUT:

P吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉arts of Speech: [(‘the’, ‘DT’), (‘red’, ‘JJ’), (‘fox’, ‘NN’), (‘jumps’, ‘NNS’), (‘over’, ‘IN’), (‘the’, ‘DT’), (‘moon’, ‘NN’), (‘.’, ‘.’)]

因而, 您能够看到 NLTK 怎么将语句分解为各个符号并解说语音的某些部分, 例如 ("fox"、"NN"):

NN 名词, 奇数 "fox"

中止词删去

许多语句和阶段中包含的单词简直没有意义或价值。这些词包含 "a"、"and"、"an"和"the"。移除中止词是一个从语句或单词流中删去这些单词的进程。

运用 Python 和 NLTK 进行中止词删去: (点击原文阅览有关 NLTK 的阐明)

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

example_sent = “a red fox is an animal that is able to jump over the moon.” stop_words = set(stopwords.words(‘english’)) word_tokens = word_tokenize(example_sent) filtered_sentence = [w for w in word_tokens if not w in stop_words] filtered_sentence = [] for w in word_tokens: if w not in stop_words: filtered_sentence.append(w) print(filtered_sentence)

OUTPUT:

[‘red’, ‘fox’, ‘animal’, ‘able’, ‘jump’, ‘moon’, ‘.’]

词干提取

词干提取是削减单词噪声的进程,也称为词典归一化。江疏影性感它削减了词形变化。例如, "垂钓" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的根本意义。另一个很好的比方是 "喜爱" 这个词, 它是许多词的词干, 比方: "likes"、"liked"、"likely"。查找引擎运用词干剖析便是这个原因。在许多情况下, 查找其间一个词回来在调集中包含吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉另一个单词的文档或许会很有用。

要运用 Python 和 NLTK 库履行词干提取, 请履行以下操作:

from nltk.stem import PorterStemmer

from nltk.tokenize import word_tokenize

ps = PorterStemmer

for w in words:

print(w, ” : “, ps.stem(w))

O陈长芹UTPUT:

(‘likes’, ‘ : ‘, u’like’)

(‘likely’, ‘ : ‘, u’like’)

(‘likes’吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉, ‘ : ‘, u’like’)

(‘liking’, ‘ : ‘, u’like’)

words = [“likes”, “likely”, “likes”, “liking”]

词形复原

词干提取和词形复原是十分类似的, 由于它们能让你找到词根。这称为单词规范化, 两者都能够生成相同的输出成果。但是, 它们的作业方法却大不相同。词干提取企图将单词切分而词形复原给你供给调查单词是名词、动词仍是其他词性。让咱们以单词 "saw"为例。词干提取会回来 "saw", 词形复原能够回来"see" 或 "saw"。词形复原通常会回来一个可读的词, 而词干提取或许不会。有关差异的示例, 请拜见下文。雷锋网雷锋网雷锋网

让咱们看一个 Python 示例, 它将词干提取与词形复原进行了比较:

from nltk.stem import PorterStemmer

# from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer

ps = PorterS污谜语temmer

words = [“c五环之歌orpora”, “constructing”, “better”, “done”, “worst”, “pony”]

for w in words:

print(w, ” STEMMING : “, ps.stem(w), ” LEMMATIZATION “, lemmatizer.lemmatize(w, pos=‘v’))

OUTPUT:

corpora STEMMING : corpora LEMMATIZATION corpora

constructing STEMMING : construct LEMMATIZATION con吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉structing

better STEMMING : better LEMMATIZATION good

done STEMMING : done LEMMAT奥迪q3报价IZATION d赶尸艳谭one

worst STEMMING : worst LEMMATIZATION bad

pony STEMMING : poni LEMMATIZATION pony

总结

言语学是对言语、形态学、句法、语音和语义学的研讨。包含数据科学和核算在内的这一范畴在曩昔60年里现已进行了爆破式的开展。咱们刚刚在 NLP 中探究了一些十分简略的文本剖析功用。Google、Bing 和其他查找引擎使用这项技能协助您在万维网上查找信息。想想看, 让 Alexa 播映你最喜爱的歌曲或许 Siri 是怎么协助你指路。这都是由于 NLP。核算中的自然言语不是噱头或玩具。NLP是咱们日子中无缝核算的未来。

Arcadia Data刚刚发布了5.0 版, 其间包含咱们称之为 Search Based BI的自然言语查询功用。它运用了之前描绘的一些数据科学和文本剖析。检查咱们关于Search Based BI东西的视频可了解更多信息: SEARCH-BASED BI

原文转载:https://www.arcadiadata.com/blog/the-data-scien吉祥博越,自然言语了解死后的核算机科学,玄凤鹦鹉ce-behind-natural-language-processing/

想要持续检查该篇文章相关链接和参考文献?

点击即可拜访:

AI研习社今天引荐:AI入门、大数据、机器学习免费教程

35本国际尖端本来教程限时敞开,这类微贷网书单孕妈妈能吃山竹吗由闻名数据科学网站 KDnuggets 的副主编,一起也是资深的数据科学家、深度学习技能爱好者的Matthew Mayo引荐,他在机器学习和数据科学范畴具有丰妈妈的朋富的科研和从业经历。

点击链接即可获取:https://ai.yanxishe.com/page/resourceDetail/4大闸蟹17

声明:湘潭该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

相关推荐

  • 暂无相关文章