科技资讯

科技资讯

首页 > 科技资讯 > AI如何编程?手把手教你自制编程AI

AI如何编程?手把手教你自制编程AI

2个月前 热度:3410 ℃

我认这很疯狂。开发者让神经网络学会了自己编程来重写它自己代码!好吧,咱们也试。

预备条件

  1. Tensorflow + 基本的深度学习技能

  2. 该项目的github代码库 

  3. 我会在本文中快速回顾一下递归神经网络。但是,如果你对这个课题不甚了解,我相信以下两个资源能让你弄懂递归神经网络:

文章 

我不会在本文中详解本项目的所有环节。但我会仔细阐述其中的基本要点来让你理解整个项目。花点时间,亲手运行下文中给出的每一段代码,理解其中的逻辑。这很重要,毕竟,实践出真知。

接下来是正题,让我们开始吧!

数据库

跟其他监督训练一样,我们需要为神经网络提供一个数据集。这里我们使用C语言(如果用太简单的语言,就不好玩了)。我们直接用Linux github代码库中的c语言脚本作为训练数据。我已经把我们会用到的.c代码提取到本项目中。

首要问题:如何表示数据?

神经网络只能用于处理数字。对于其他形式的数据,它就无能为力了。因此,数据集中的每个字符都需要被翻译成这种形式(每个数字对应一个字符)。

示例:把字符转换为整数(int)

举例来说,这里用数字7表示字符“=”。为了在反向传播期间获得更好的收敛性,我们稍后会在独热编码(One-Hot Encoding)编码中表示每个数字。

# List all file in the dataset directory

all_file = os.listdir("dataset")

# Filter : Select only c file

all_file_name = np.array([f for f in all_file if f.find(".c") != -1])


content = ""

for name in all_file_name:

      with open(os.path.join("dataset", name), "r") as f:

            content += f.read() + "\n"


# Convert the string into a list of interger

vocab = set(content)

vocab_to_int = {c: i for i, c in enumerate(vocab)}

int_to_vocab = dict(enumerate(vocab))

encoded = np.array([vocab_to_int[c] for c in content], dtype=np.int32)

这里,需要记住的三个重要变量是:vocab_to_int、int_to_vocab和encoded。前两个变量是让我们能够字符和整数间随意转换。最后的变量是用编码器的形式来表示所有数据。(均已转换为数字)

第一个批函数

首先创建一个简单的批处理:由两个输入序列构成,每个序列10个数字。这一批处理将作为下文字符处理的一个示例。

batch = {

    "x" : [

        encoded[:10],

         encoded[20:30]

],

"y" : [

      encoded[1:11],

      encoded[21:31]

   ]

      }

Batch Inputs :

[20  6 58 27  6 27 97 86 56 49]

[ 36  32  32  37  27  12  94  60  89 101]

Batch Targets :

[ 6 58 27  6 27 97 86 56 49 57]

[ 32  32  37  27  12  94  60  89 101  77]

这就是批函数所处理的内容,翻译成字符如下:

['/', '*', '\n', ' ', '*', ' ', 'C', 'o', 'p', 'y']

['2', '0', '0', '4', ' ', 'E', 'v', 'g', 'e', 'n']

现在,我们需要来处理一些数值。我们希望神经网络能够在上一个字符"n"已知的条件下预测出下一个字符。而且,不只是上一个字符。如果我告诉神经网络上一个字符是“e” ,下一个字符的可能性空间会非常大。但如果我能告诉神经网络前几个字符分别是 “w” 、“h”、 “i” 、“l” 和 “e” ,下一个要输入的字符很显然就是“(“。

因此,我们必须构建一个能够考虑字符时间间隔的神经网络。这就是递归神经网络。

递归神经网络?

为说明上述实例,我们用一个典型的分类器(上图左侧)来处理上一个字符;它被传递出蓝色的隐含层后,分类器就能推断出结果。递归神经网络在结构上则不同。每个红色的隐含层“细胞”不仅与输入相连,还与前一个“细胞”(instant t-1)相连。为了解决这里的问题,我们的“细胞”内部使用长短期记忆(LSTM)网络。

请花点时间来理解递归神经网络的原理,这样才能充分理解接下来的代码。

构建模型!

Tensorboard图

接下来的内容,我们将详述这一神经网络的5大部分。占位符在这里用作模型的一个入口。LSTM神经元初始化后用于生成递归神经网络。

输出层各自相连,用于估量模型的误差。最后,我们会定义训练内容。

1)图形输入

with tf.name_scope("graph_inputs"):

     inputs = tf.placeholder(tf.int32, [2, 10], name='placeholder_inputs')

     targets = tf.placeholder(tf.int32, [2, 10], name='placeholder_targets')

     keep_prob = tf.placeholder(tf.float32, name='placeholder_keep_prob')

这个批处理由两个大小为10的输入序列构成,因此输入的预期特征是[2, 10],批处理的每个入口都与单一输出相关联,目标的特征定义与此相同。最后,我们定义了一个用作概率值的占位符,用以表示后面的退出率(dropout)。

2)LSTM

with tf.name_scope("LSTM"):


     def create_cell():

         lstm = tf.contrib.rnn.BasicLSTMCell(4)

         drop = tf.contrib.rnn.DropoutWrapper(lstm, output_keep_prob=keep_prob)

         return drop


cell = tf.contrib.rnn.MultiRNNCell([create_cell() for _ in range(3)])

initial_state = cell.zero_state(2, tf.float32)


io_size = len(vocab)

x_one_hot = tf.one_hot(inputs, io_size)

cell_outputs, final_state = tf.nn.dynamic_rnn(cell, x_one_hot, initial_state=initial_state)

让我们来学习这份代码的每一部分:

  • create_cell() 用于生成由4个隐神经元所构成的LSTM神经元。在返回结果前,该函数还在cell输出中添加了一个退出项(dropout)。

  • tf.contrib.rnn.MultiRNNCell用于实例化递归神经网络。我们把给出的create_cell()数组作为参数,是因为我们希望得到由多层网络构成的递归神经网络。本例为三层。

  • initial_state:已知递归神经网络的每个神经元都依赖于先前的状态,因此我们必须实例化一个全是零的初始状态,它将作为批处理首批入口的输入。

  • x_one_hot将batch转化为独热编码。

  • cell_outputs给出递归神经网络每个细胞的输出。在本例中,每个输出由4个数值(隐神经元个数)构成。

  • final_state返回最后一个细胞的状态,在训练期间可用作下一批处理的最新初始状态(假设下一个批处理是上一个批处理的逻辑延续)。

3)图形输出

with tf.name_scope("graph_outputs"):

     seq_output_reshape = tf.reshape(cell_outputs, [-1, 4], name="reshape_x") 


     with tf.name_scope('output_layer'):

           w = tf.Variable(tf.truncated_normal((4, io_size), stddev=0.1), name="weights")

           b = tf.Variable(tf.zeros(io_size), name="bias")


logits = tf.add(tf.matmul(seq_output_reshape , w), b, name= "logits")

softmax = tf.nn.softmax(logits, name='predictions')

细胞的输出值被储存在一个三维特征表内[序列数,序列大小,神经元数],或为 [2, 10, 4]。我们无需按序列来分离输出。然后,改变输出值的维度以储存在seq_out_reshape的数组[20, 4]内。

最后,使用一个简单的线性运算:tf.matmul (..) + b。最后以softmax结尾,为的是用概率形式来表示输出。

4)损失

with tf.name_scope("Loss"):

        y_one_hot = tf.one_hot(targets, io_size, name="y_to_one_hot")

        y_reshaped = tf.reshape(y_one_hot, logits.get_shape(), name="reshape_one_hot")


loss = tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=y_reshaped)

loss = tf.reduce_mean(loss)

为进行误差运算,我们的批处理目标必须要表示成跟模型输出值相同的方法和维度。使用与输入相同的编码方式,我们用tf.one_hot来表示输出值。然后将数组tf.reshape ()的维度重写为与tf.matmul (..) + b的线性输出一样。而后,我们就可以用该函数来计算模型的误差。

5)训练

with tf.name_scope("train"):

    adam = tf.train.AdamOptimizer(0.0001)

    optimizer = adam.minimize(loss)

我们简单用AdamOptimize来最小化误差。

结果!

这是最值得庆祝的环节:训练结果。我所用到的参数如下:

  • 序列大小:100

  • 批处理大小:200

  • 每个细胞的神经元数: 512

  • 递归神经网络深度:2

  • 学习速度:0.0005

  • Dropout:0.5

在我的GPU(GeForce GTX 1060)上训练大约两小时后,所得结果如下图所示:

我们先来观察误差的变化:

最后,我们来阅读模型所生成的代码:

static int super_fold(struct mddev *mddev, void __user * *rd)

{

     struct md_rdev *rdev;


     if (!tryet &  gcov_ntreef(*stint)) {

          if (gc_th->max_sectors)

          if (task)

         goto next_start;

    if (!list_empty(&mddev->disks) {

        if (mddev->dev_sectors == 0 ||

          mddev->chunk_sectors == 0 && mddev->minor_version !=

           mddev->max_disks && mddev->dev_sectors

         rdev2->rescan_recovnr != 0)

rdev->recovery_offset = mddev->curr_resync_completed;

           }

     }

}

从结果上看,模型清楚地理解了该程序的一般结构,非常酷:一个函数、参数、变量初始化……条件,等等。

我们注意到,所用数据集中绝对没有那个名为“super_fold”的函数。因此,我很难理解这个函数的具体作用,一个较为合理的解释,是该模型要比我聪明……天哪!!



发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

相关文章

LG申请专利手机原理图显示:采用打孔屏

LG申请专利手机原理图显示:采用打孔屏

华哥6月23日消息 土耳其专利局授予了LG电子一项专利,专利是一款采用打孔式前置摄像头的智能手机。如果该专利成真的话,那么这将是第一款采用这种解决方案的LG手机。专利包含的手机原理图显示该机...

取快递二次收费,申通/中通/圆通/韵达被约谈

取快递二次收费,申通/中通/圆通/韵达被约谈

华哥科技8月14日消息 根据四川315消费维权网的报道,针对乡镇快递二次收费乱象,昨天上午四川省保护消费者权益委员会联合四川省市场监管局、四川省邮政管理局,邀请了省人大代表和省政协委员召开约谈会,对申...

携程将接入日本近万辆出租车,8月起逐步上线

携程将接入日本近万辆出租车,8月起逐步上线

华哥科技7月31日下午消息,携程近日宣布,其App中的接送机和包车将接入日本出租车运营商第一交通的车辆,为前往日本出境旅游的中国游客提供接送机、包车服务。这是携程继宣布提供全球多国打车服务后,再次在境...

苹果公布Apple Watch新专利:手势控制,单手操作

苹果公布Apple Watch新专利:手势控制,单手操作

2016年第四季度,Patently Apple发布了一份题为“苹果公司将在Apple Watch上推进手腕手势和摄像头”的报告。封面上的图片就是来自那个专利申请。本周,美国专利局公布了苹果公司的专利...

任正非谈鸿蒙系统:鸿蒙系统将比安卓速度快60%

任正非谈鸿蒙系统:鸿蒙系统将比安卓速度快60%

华哥科技7月6日消息 华为心声社区日前发布了华为创始人任正非接受外媒《金融时报》采访的纪要。在采访中任正非提及了有关华为鸿蒙系统的问题,表示鸿蒙系统的产生,本身并不是为了手机用,而是为了做物联网来用的...

顺风车又要来了吗? 高德顺风车开启小规模测试

顺风车又要来了吗? 高德顺风车开启小规模测试

6月22日消息 据凤凰科技报道,从高德内部获悉,近日高德顺风车已经在广东、武汉两地开启小规模测试。6月6日,高德开启了广东和武汉两地的顺风车主招募。目前,高德已在小规模测试运营顺风车阶段。对于正式全面...

恒大造车,首台国能93量产下线

恒大造车,首台国能93量产下线

华哥6月30日消息 万众瞩目的“恒大造车记”又有了新进展!6月29日,恒大新能源汽车集团国能93车型量产下线仪式在天津举行。据了解,国能 93是一款基于瑞典萨博(SAAB)凤凰E平台及萨博技术打造的纯...

科创板火速开板是什么意思,怎么一回事情?

科创板火速开板是什么意思,怎么一回事情?

  今日早盘,A股探底回升,上证指数盘中一度跌破2900点整数关。截至午间收盘,沪指涨0.12%,深证成指涨0.13%,创业板指涨0.4%。盘面上,氢能源、ST板块、网络游戏等板块涨幅居前。人造肉、种...