forked from ukamnya/microdata_mirror
Initial commit
commit
121d88747a
|
@ -0,0 +1,148 @@
|
|||
package microdata
|
||||
|
||||
import (
|
||||
"bytes"
|
||||
"code.google.com/p/go-html-transform/h5"
|
||||
"io"
|
||||
)
|
||||
|
||||
|
||||
|
||||
type ValueList []interface{}
|
||||
type PropertyMap map[string]ValueList
|
||||
|
||||
type Item struct {
|
||||
properties PropertyMap
|
||||
}
|
||||
|
||||
func NewItem() *Item {
|
||||
return &Item{
|
||||
properties: make(PropertyMap, 10),
|
||||
}
|
||||
}
|
||||
|
||||
func (self *Item) SetString(property string, value string) {
|
||||
self.properties[property] = append(self.properties[property], value)
|
||||
}
|
||||
|
||||
type Microdata struct {
|
||||
items []*Item
|
||||
}
|
||||
|
||||
func NewMicrodata() *Microdata {
|
||||
return &Microdata{
|
||||
items: make([]*Item, 0),
|
||||
}
|
||||
}
|
||||
|
||||
type Parser struct {
|
||||
p *h5.Parser
|
||||
data *Microdata
|
||||
}
|
||||
|
||||
func NewParser(r io.Reader) *Parser {
|
||||
return &Parser {
|
||||
p : h5.NewParser(r),
|
||||
data: NewMicrodata(),
|
||||
}
|
||||
}
|
||||
|
||||
func (self *Parser) Parse() (*Microdata, error) {
|
||||
err := self.p.Parse()
|
||||
if err != nil {
|
||||
return nil, err
|
||||
}
|
||||
tree := self.p.Tree()
|
||||
|
||||
self.scanForItem(tree)
|
||||
|
||||
return self.data, nil
|
||||
}
|
||||
|
||||
func (self *Parser) scanForItem(node *h5.Node) {
|
||||
if node == nil {
|
||||
return
|
||||
}
|
||||
|
||||
hasItemscope := false
|
||||
|
||||
for _, a := range node.Attr {
|
||||
if a.Name == "itemscope" {
|
||||
hasItemscope = true
|
||||
break
|
||||
}
|
||||
}
|
||||
if hasItemscope {
|
||||
item := NewItem()
|
||||
self.data.items = append(self.data.items, item)
|
||||
|
||||
|
||||
if len(node.Children) > 0 {
|
||||
for _, child := range node.Children {
|
||||
self.readItem(item, child)
|
||||
}
|
||||
}
|
||||
|
||||
} else {
|
||||
if len(node.Children) > 0 {
|
||||
for _, child := range node.Children {
|
||||
self.scanForItem(child)
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
}
|
||||
|
||||
func (self *Parser) readItem(item *Item, node *h5.Node) {
|
||||
if propertyName, exists := getAttr("itemprop", node); exists {
|
||||
var propertyValue string
|
||||
|
||||
switch node.Data() {
|
||||
|
||||
case "img","audio", "source", "video", "embed", "iframe", "track":
|
||||
if urlValue, exists := getAttr("src", node); exists {
|
||||
propertyValue = urlValue
|
||||
}
|
||||
case "a", "area", "link":
|
||||
if urlValue, exists := getAttr("href", node); exists {
|
||||
propertyValue = urlValue
|
||||
}
|
||||
case "data":
|
||||
if urlValue, exists := getAttr("value", node); exists {
|
||||
propertyValue = urlValue
|
||||
}
|
||||
case "time":
|
||||
if urlValue, exists := getAttr("datetime", node); exists {
|
||||
propertyValue = urlValue
|
||||
}
|
||||
|
||||
default:
|
||||
var text bytes.Buffer
|
||||
node.Walk( func(n *h5.Node) {
|
||||
if n.Type == h5.TextNode {
|
||||
text.WriteString(n.Data())
|
||||
}
|
||||
|
||||
})
|
||||
propertyValue = text.String()
|
||||
}
|
||||
|
||||
item.SetString(propertyName, propertyValue)
|
||||
}
|
||||
|
||||
if len(node.Children) > 0 {
|
||||
for _, child := range node.Children {
|
||||
self.readItem(item, child)
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
func getAttr(name string, node *h5.Node) (string, bool) {
|
||||
for _, a := range node.Attr {
|
||||
if a.Name == name {
|
||||
return a.Value, true
|
||||
}
|
||||
}
|
||||
return "", false
|
||||
}
|
||||
|
|
@ -0,0 +1,236 @@
|
|||
package microdata
|
||||
|
||||
import (
|
||||
"strings"
|
||||
"testing"
|
||||
)
|
||||
|
||||
func ReadOneItem(html string, t *testing.T) *Item {
|
||||
p := NewParser(strings.NewReader(html))
|
||||
|
||||
data, err := p.Parse()
|
||||
if err != nil {
|
||||
t.Errorf("Expected no error but got %d", err)
|
||||
}
|
||||
|
||||
if data == nil {
|
||||
t.Errorf("Expected non-nil data")
|
||||
}
|
||||
|
||||
return data.items[0]
|
||||
}
|
||||
|
||||
|
||||
func TestRead(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<p>My name is <span itemprop="name">Elizabeth</span>.</p>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["name"][0].(string) != "Elizabeth" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
|
||||
}
|
||||
|
||||
|
||||
func TestReadActuallyParses(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<p>My name is <span itemprop="name">Daniel</span>.</p>
|
||||
</div>`
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["name"][0].(string) != "Daniel" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
|
||||
}
|
||||
|
||||
|
||||
func TestReadThreeProps(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<p>My name is <span itemprop="name">Neil</span>.</p>
|
||||
<p>My band is called <span itemprop="band">Four Parts Water</span>.</p>
|
||||
<p>I am <span itemprop="nationality">British</span>.</p>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["name"][0].(string) != "Neil" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
|
||||
if item.properties["band"][0].(string) != "Four Parts Water" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
|
||||
if item.properties["nationality"][0].(string) != "British" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
|
||||
func TestReadImgSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<img itemprop="image" src="google-logo.png" alt="Google">
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["image"][0].(string) != "google-logo.png" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadAHref(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<a itemprop="image" href="google-logo.png">foo</a>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["image"][0].(string) != "google-logo.png" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadAreaHref(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope><map name="shapes">
|
||||
<area itemprop="foo" href="target.html" shape=rect coords="50,50,100,100">
|
||||
|
||||
</map></div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target.html" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadLinkHref(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<link itemprop="foo" rel="author" href="target.html">
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target.html" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadAudioSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<audio itemprop="foo" src="target"></audio>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadSourceSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<source itemprop="foo" src="target"></source>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
|
||||
func TestReadVideoSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<video itemprop="foo" src="target"></video>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadEmbedSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<embed itemprop="foo" src="target"></embed>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadTrackSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<track itemprop="foo" src="target"></track>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadIFrameSrc(t *testing.T) {
|
||||
html := `
|
||||
<div itemscope>
|
||||
<iframe itemprop="foo" src="target"></iframe>
|
||||
</div>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["foo"][0].(string) != "target" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadDataValue(t *testing.T) {
|
||||
html := `
|
||||
<h1 itemscope>
|
||||
<data itemprop="product-id" value="9678AOU879">The Instigator 2000</data>
|
||||
</h1>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["product-id"][0].(string) != "9678AOU879" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
func TestReadTimeDatetime(t *testing.T) {
|
||||
html := `
|
||||
<h1 itemscope>
|
||||
I was born on <time itemprop="birthday" datetime="2009-05-10">May 10th 2009</time>.
|
||||
</h1>`
|
||||
|
||||
item := ReadOneItem(html, t)
|
||||
|
||||
if item.properties["birthday"][0].(string) != "2009-05-10" {
|
||||
t.Errorf("Property value not found")
|
||||
}
|
||||
}
|
||||
|
||||
|
||||
|
Loading…
Reference in New Issue