第252章 浅度学习(1/4)
《自然》啊~
世界上最早的科学期刊之一,也是全世界最权威及最有名望的学术期刊之一。
首版於1869年11月4日,到现在(2015年)传承都快一百五十年了~
而且在今天大多数科学期刊都专一于一个特殊的领域不同,《自然》是少数(其它类似期刊有《科学》和《美国国家科学院院刊》)依然发表来自很多科学领域的一手研究论文的期刊。
在许多科学研究领域中,每年最重要、最前沿的研究结果是在《自然》中以短文章的形式发表的。
尽管影响因子的评价不完全客观,但40+的影响因子可见一斑其影响力了~
尽管脑海中想了很多,但章杉还是不能完全理解在这上面发文的概念~
就在章杉无比膨胀的时候,系统泼冷水了:
“宿主在投稿0级论文的时候拥有100的通过率,宿主在投稿1级论文的时候目前通过率为99~”
“宿主投稿论文等级为n级别时,通过率相较0级每提高n级,将下降n2的通过率~”
章杉:
得,白激动半天~
按照系统这个说法,将来投稿9级论文的时候只有19的通过率了。
不过话说回来,目前系统里面1级论文就是发在nature的节奏了。
9级论文将来发在哪里?
现在说来,投稿nature的话自然不是100的过通过率了。
而是99的过稿率~
虽然这听起来很靠谱~
但章杉是一贯脸黑,99.99中奖率都有翻车的时候~
现在具体会是什么结果,哪里又能说得好呢~
对于投稿nature的那篇,章杉全然没兴趣了,反而是对那两个0级论文章杉兴趣更浓一些~
虽然这两篇论文依旧是人类佼佼者才能企及的高度。
但以章杉的智慧他很快就搞清楚论文《further&nn&nf &nenerative adversarial&nrks》交代的来龙去脉:
深度学习训练一个模型需要很多的人工标注的数据。
在图象识别里面,经常可能需要上百万的人工标注的数据,在语音识别里面,可能需要成千上万小时的人工标注的数据,机器翻译更是需要数千万的双语句对做训练,这些都是大数据的体现。
但是,很多时候找专家来标注数据是非常昂贵的,并且对一些应用而言,很难找到大规模的标注的数据,例如一些疑难杂症,或者是一些比较稀有的应用场景。
而标注数据的代价是极高的。
比如说对机器翻译而言,现在如果请人工来翻译,一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词,如果章杉需要标注一千万个双语句对,也就是章杉需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。
数据标注的费用是非常非常高的,让一个创业公司或者一些刚刚涉足人工智能的公司拿这么大一笔资金来标注数据是很难或者是不太可行的。
因此当前深度学习的一个前沿就是如何从无标注的数据里面进行学习。
而章杉这篇文章里描述的生成式对抗网络就是起到这样的作用。
生成式对抗网络的主要目的是学到一个生成模型,这样生成式对抗网络可以生成很多图像,这种图像看起来就像真实的自然图像一样。
生成式对抗网络解决这个问题的思路跟以前的方法不太一样,生成式对抗网络是同时学习两个神经网络:一个神经网络生成图像,另外一个神经网络给图像进行分类,区分真实的图像和生成的图像。
在生成式对抗网络里面,第一个神
本章未完,下一页继续