机器学习模型，能分清川菜和湘菜吗？-阿里云开发者社区

机器学习模型，能分清川菜和湘菜吗？

2018-08-06 1962

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一个地区的文化和当地的特色食物总是分不开关系，可以说小到村庄，大到国家，每个地方都有自己的“味道”。

一个地区的文化和当地的特色食物总是分不开关系，可以说小到村庄，大到国家，每个地方都有自己的“味道”。

如果你在加利福尼亚州北部，那么你将品尝到各种蔬菜，有深紫色的羽衣甘蓝，还有明亮的粉红色和黄色的甜菜。在韩国，诱人的红色泡菜将会迎接你，而大海的气味会吸引你注意附近蠕动的鱿鱼。印度的市场也许是最丰富多彩的，明亮的色调和几十种香料的香气：姜黄，八角茴香……

作为一名合格的“吃货”，看到“米、海苔、三文鱼”就想到日本寿司，看到“鸡蛋、火腿、面包、沙拉酱”就想到三明治……通过食材预测菜系，用 python 就可以做到！

可以用机器学习的方法搭建、训练和测试模型，并通过评估矩阵来选择最优模型，实现原材料与菜系的映射。为了实现预期的功能，我们需要进行以下三个步骤。

加载并分析数据
建立模型
模型预测

加载并分析数据
以意大利菜系为例，我们准备好以下格式的样例数据。其中“id”代表不同的菜肴种类，“cuisine”则代表菜系名称。

拿到数据后，首先对数据进行提取，其中配方节点如下。其中包含了食谱 id，菜肴类型和成分列表的训练集。

之后将 features 与 target 分别赋值到 train_ingredients 和 train_targets。通过统计分析等操作，可以计算出使用最频繁的前 10 种原料，并将原料名和出现次数赋值到 sum_ingredients 字典中。通过样例数据，还能计算出意大利菜系中使用最频繁的前 10 种原料，并将原料名和出现次数赋值到 italian_ingredients 字典中。

得到的结果可以通过 matplotlib 进行可视化。通过数据分析，可以得出许多有意思的信息，比如，巴西菜用的最多的食材有洋葱、橄榄油、柠檬等。而在中国，柠檬显然不是家常饭的常客。我们用的最多的食材有酱、芝麻油、玉米淀粉等。小编猜测，老干妈一定对中国排名第一的食材有巨大贡献！

日本比较有特色的清酒和酱油也都榜上有名。

而在寒冷的俄罗斯，黄油则成为餐桌上必不可少的食材，成为战斗民族每天所需能量的重要来源。英国更不必多说，如果你热爱黄油、奶油、土豆和牛奶，去英国就是了！

建立模型
建立模型的过程可能稍微有点复杂，主要分以下四步进行：

1、单词清洗
2、特征提取（使用TF_IDF）
3、数据分割与重排

调用 train_test_split 函数将训练集划分为新的训练集和验证集。

4、训练模型
在训练模型的过程中，需要尝试不同的参数，挑选出泛化力最好的模型。通过训练模型，可以计算得出验证集上的得分。得分越高，说明分类准确度（正确分类的菜肴百分比）越高。这样，一个优秀的模型就大功告成啦！

模型预测
在测试文件 test.json 中，配方的格式与 train.json 相同，只删除了美食类型，因为它是我们要预测的目标变量。

总的来说，要实现通过食材预测菜系的过程并不复杂，但是如何完善代码、优化模型，使分类体系和匹配程度更高，才是我们要完成的关键目标。如果不能做到数据的有效清洗和分类，就会出现很多法国菜被误分为意大利菜这样的情况。

原文发布时间为：2018-08-04
本文作者：Udacity
本文来自云栖社区合作伙伴“PaperWeekly”，了解相关信息可以关注“PaperWeekly”。

机器学习模型，能分清川菜和湘菜吗？

热门文章

最新文章

相关课程

相关电子书

相关实验场景